If you're seeing this message, it means we're having trouble loading external resources on our website.

Jeżeli jesteś za filtrem sieci web, prosimy, upewnij się, że domeny *.kastatic.org i *.kasandbox.org są odblokowane.

Główna zawartość

Margines błędu 1

Znajdowanie 95% przedziału ufności dla proporcji populacji głosującej na kandydata. Stworzone przez: Sal Khan.

Chcesz dołączyć do dyskusji?

Na razie brak głosów w dyskusji
Rozumiesz angielski? Kliknij tutaj, aby zobaczyć więcej dyskusji na angielskiej wersji strony Khan Academy.

Transkrypcja filmu video

... Powiedzmy, że żyję w kraju, który ma 100 milionów mieszkańców i nadchodzą wybory prezydenckie. A w tych wyborach prezydenckich jest dwóch kandydatów. Jest kandydat A i kandydat B. A teraz trochę realizmu... powiedzmy, że żyję w państwie ludzi bardzo zdecydowanych i każdy obywatel odda głos, każdy uczestniczy w wyborach i każdy zagłosuje albo na kandydatq A albo na kandydata B. I jest jakiś procent, jakaś szansa, że p... zapiszę to tutaj... może 1 minus p procent... albo na początek wezmę p. Istnieje szansa, że p procent zagłosuje na B, mógłbym zamienić je jeśli bym chciał. Czyli p procent zagłosuje na B, a reszta wyborców zagłosuje na A, czyli 1 minus p procent zagłosuje na A. Może już zdążyłeś rozpoznać w tym rozkład Bernoullego. Dla jednej próby mogę otrzymać jedną z dwóch wartości. I tutaj są wartości, o których powiedziałem, że albo głosujesz na kandydata A albo na kandydata B. Trudno jest zajmować się tymi wartościami. Nie można policzyć średniej między A i B i tego typu rzeczy... To są litery, to nie są liczby. Tak więc żeby można było to rozważać matematycznie ustalimy, że oddany głos na A będzie równoważny wynikowi 0, a głos na kandydata B jest równoważny wynikowi 1. I jeśli zrobisz to za pomocą rozkładu Bernoullego, nauczyliśmy się już tego na filmiku o rozkładzie Bernoullego, że średnia tego rozkładu będzie równa p. Dowód tego jest całkiem oczywisty. Tak więc średnia z tego rozkładu, która właściwie nie będzie wartością, którą ten rozkład może przyjąć, będzie jakimś punktem gdzieś tutaj i będzie wynosić p. A teraz, mój kraj ma 100 milionów ludzi. To jest praktycznie, albo nawet zupełnie niemożliwe, żebym był w stanie pójść i zapytać 100 milionów ludzi na kogo zamierzają głosować. Więc nie będę w stanie dokładnie wyznaczyć ile wyniosą te parametry. Jaka jest średnia, ile wyniesie p. Ale zamiast tego, to, co zamierzam zrobić to losowa ankieta. Zamierzam wybrać próbkę z tej populacji, popatrzeć na dane, a następnie oszacować, ile p naprawdę wynosi. Ponieważ właśnie na tym mi zależy. Naprawdę zależy mi na p. Więc zamierzam spróbować oszacować p za pomocą próbki, a następnie zastanowimy się jak dobre jest to oszacowanie. Czyli zamierzam przeprowadzić losową ankietę, wybrać próbę złożoną ze 100 ludzi. I powiedzmy, że dostałem takie wyniki. Powiedzmy, że 57 osób powiedziało, że zagłosuje na osobę A. Zapiszę to w ten sposób. Czyli 57 osób mówi, że zagłosuje na A, to jest równoważne otrzymaniu 57 wyników 0. A reszta ludzi, powtórzę, to bardzo zdecydowane społeczeństwo, nikt się nie wstrzymuje od głosu, reszta ludzi, czyli 43 osób mówi, że zagłosuje na B. I to jest równoważne otrzymaniu 43 wyników 1. Mając taką próbę, jaka jest średnia z tej próby i jaka jest jej wariancja? Moja średnia z tej próby, to będzie po prostu średnia z tych zer i jedynek. Tak więc mam 57 zer, czyli to będzie 57 razy 0, plus 43 jedynki. Suma moich wszystkich wyników, czyli 43 jedynki, plus 43 razy 1, przez całkowitą liczbę wyników, które zebrałem, przez 100. I co mi to daje? 57 razy 0 to 0 43 razy 1 podzielić przez 100 to 0.43. To jest moja średnia z próby, średnia z tylko 100 zebranych informacji. A teraz, czym jest wariancja z próby? Czym jest moja wariancja z próby? Wariancja z próby będzie równa sumie podniesionych do kwadratu odległości od średniej, podzielonej przez liczebność próby minus 1. Pamiętaj, to jest wariancja z próby, a my chcemy otrzymać najlepsze oszacowanie prawdziwej wariancji tego rozkładu. A żeby to zrobić, nie dzieli się przez 100, dzieli się przez 100 minus 1. Nauczyliśmy się tego wiele, wiele filmików temu. Czyli mam 57. Czyli mam 57 prób z 0. Zapiszę to tak samo, na żółto. 57 prób z 0. Czyli każda z tych prób jest oddalona o 0 minus 0.43 od średniej. Każda z tych prób to 0. Odejmujesz 0.43 - to jest różnica między 0 a 0.43. A jeśli chcę odległość podniesioną do kwadratu, podnoszę ją do kwadratu, tak właśnie liczymy wariancję. Jest 57 takich. A teraz, 43 razy dostałem 1 w mojej próbie z populacji... 43 razy dostałem 1, a 1 jest oddalone o 1 minus 0.43 od średniej, ponieważ to jest średnia, a ja potrzebuję kwadrat tej odległości. A następnie nie chcę tego po prostu podzielić przez n. Nie chcę mieć tego podzielonego przez 100... pamiętaj, że próbuję oszacować prawdziwą średnią z populacji. Żeby to było jej najlepsze oszacowanie, a pokazałem intuicję za tym stojącą wiele, wiele filmików temu, dzielimy przez 100 minus 1, czyli 99. Weźmy kalkulator, żeby ostatecznie policzyć naszą wariancję z próby. Biorę kalkulator i mamy... Policzę najpierw licznik. Mam 57 razy 0 minus 0.43 kwadrat, plus 43 razy 1 minus 0.43 kwadrat. A teraz to wszystko dzielę przez 100 minus 1, czyli 99... podzielić przez 99, to jest równe 0.2475. Czyli moja wariancja, moja wariancja z próby, jest równa 0.2475. A jeśli chcę wyznaczyć odchylenie standardowe, po prostu obliczam z tego pierwiastek kwadratowy. Moje odchylenie standardowe z próby będzie równe pierwiastkowi kwadratowemu z mojej wariancji z próby. Tak więc liczę pierwiastek kwadratowy tej liczby, którą przed chwilą otrzymałem i wychodzi 0.497. Pozwolę sobie to zaokrąglić do 0.50. Tak więc moje odchylenie standardowe z próby wynosi 0.50. A teraz jeśli na to spojrzysz, powiesz OK, twoje najlepsze oszacowanie procentowego udziału osób głosujących na A i B to naprawdę to, co właśnie widziałeś. Twoje najlepsze oszacowanie, najlepsze oszacowanie średniej mówi, że 43% ludzi zagłosuje na B, a cała raszta zagłosuje na A. Ale interesującym pytaniem: jest jak dobrą próbą była ta nasza? Przejdźmy na poziom wyżej. Zastanówmy się nad przedziałem wokół 43%, dla którego jesteśmy w 95% pewni, jesteśmy przekonani, że na 95% prawdziwa średnia jest w tym przedziale. Pokażę to jeszcze jaśniej. Narysuję to. Tak więc kiedy dostajemy średnią z próby, dostajemy próbę z rozkładu prób średniej z próby. Narysuję to. Rozkład prób średniej z próby. Ponieważ bierzemy próbę z rozkładu dyskretnego to właściwie będzie rozkład dyskretny, ale będzie miał 100 możliwych wartości. Może przyjąć 100 różnych wartości. Naprawdę cokolwiek pomiędzy 0 a 1. Ale narysuję to jakby to było ciągłe, ponieważ byłoby mi ciężko narysować 100 różnych słupków. Gdybym to zrobił, miałbym słupek tutaj, słupek tutaj... Szansa, że twoja średnia z próby będzie 1, będzie bardzo mała, a potem miałbyś kolejny słupek, o taki, i kolejny słupek, ale rysowanie zajęłoby mnóstwo czasu. Więc zamierzam to po prostu przybliżyć tą krzywą dzwonową. Czyli rozkład prób średniej z próby... zapiszę to tutaj... Tak więc to jest rozkład prób średniej z próby... ... średniej z próby... To ma jakąś średnią... to ma średnią. To ma średnią i mogę ją zapisać jako miu z indeksem X z kreską - to nam mówi, że to jest średnia rozkładu prób. Ale wiemy już od wielu, wielu filmików, że to będzie to samo, co średnia, średnia z populacji, z której bierzemy próbę, z której pochodzi każda próba, każda z tych 100 prób. Czyli to będzie równe miu, które będzie równe p. Równe miu, które jest równe p. A teraz ta wariancja tutaj, wariancja tego rozkładu... narysuję to w ten sposób, albo jeszcze lepiej, zajmijmy się odchyleniem standardowym tego rozkładu. Odchylenie standardowe tego rozkłady, ta odległość o tutaj, odchylenie standardowe rozkładu prób średniej z próby... widzieliśmy to już wiele razy... to będzie to odchylenie standardowe... to będzie odchylenie standardowe z naszego rozkładu populacji. Czyli to odchylenie standardowe będzie równe tej odległości. Czyli jest jakieś odchylenie standardowe związane z tym rozkładem. To będzie to odchylenie standardowe podzielone przez pierwiastek kwadratowy z rozmiaru próby. I widzieliśmy wiele filmików temu dlaczego to, przynajmniej eksperymentalnie, ma sens, albo dlaczego intuicyjnie ma sens. To będzie pierwiastek kwadratowy z 100. Czyli to będzie to, podzielone przez 10. Teraz nie wiemy ile to wynosi. Jedynym sposobem, żeby się tego dowiedzieć jest przepytanie 100 milionów ludzi, co byłoby niemożliwe. Czyli do oszacowania tego odchylenia standardowego użyjemy odchylenia standardowego z próby, jako naszego najlepszego oszacowania odchylenia standardowego z populacji. Moglibyśmy powiedzieć... i pamiętaj, to jest oszacowanie, nie możemy wyskoczyć z dokładną liczbą, otrzymaną po prostu z próby. Ale możemy to oszacować. Ponieważ to jest nasze najlepsze oszacowanie tego odchylenia standardowego, jeśli podzielimy je przez 10, otrzymamy nasze najlepsze oszacowanie odchylenia standardowego rozkładu prób średniej z rozkładu. Tak więc zapamiętaj, to jest tylko oszacowanie. To tylko oszacowanie. Czyli tak jakby musisz patrzeć na to wszystko z trochę przymrużonym okiem. Czyli to będzie mniej więcej równe, czy raczej tego oszacowanie będzie równe 0.5. ...0.5... I pamiętaj, za każdym razem gdy bierzemy inną próbę, ta liczba się zmieni. To nie jest coś bardzo trwałego. To zależy od naszej próby. I to będzie się trochę wahać, w zależności od tego jakie liczby właściwie dostaniemy w naszej próbie. Ale to będzie 0.50. To jest s, to jest 0.50 podzielone przez 10, czyli jest równe 0.05. Czyli nasze najlepsze oszacowanie tego odchylenia standardowego to 0.05, albo możesz nawet patrzeć na to jako 5%. Teraz chcę ustalić przedział dookoła średniej z próby, do którego, mogę być przekonany, na podstawie moich oszacowań i tego wszystkiego, że... powiedzmy, jestem naprawdę pewien, że z prawdopodobieństwem 95% prawdziwa średnia znajduje się nie dalej niż o dwa odchylenia standardowe... Albo inaczej, jest 95% szansy, że prawdziwa średnia jest w tym przedziale. Zapiszę to. Chcę znaleźć przedział, dla którego mam powody sądzić... używam tutaj takiego mało precyzyjnego języka, ponieważ tu chodzi o to, że nie wiem na pewno czy to odchylenie standardowe wynosi 0.05, ja tylko szacuję. Ale mam powody sądzić, że jest szansa 95%, że prawdziwa średnia z populacji, która jest tym samym, co odsetek populacji, który zamierza zagłosować na osobę B, albo odsetek populacji, który będzie wynosił 1. Czyli jest też... musimy pamiętać, że miu jest równe p... ...że jest szansa 95%, że prawdziwe p jest w tym przedziale. I właściwie, skoro ten filmik trwa już 14 minut, zrobię tutaj pauzę, zatrzymam ten filmik w tym miejscu, a nawet dam ci pomyśleć nad tym, na podstawie wszystkiego, co do tej pory zrobiliśmy. Wyznaczyliśmy średnią z próby... przepraszam, wyznaczyliśmy średnią z próby w tym miejscu. Wyznaczyliśmy oszacowanie dla... i pamiętaj, to jest tylko średnia z próby. Nie znamy prawdziwej średniej, to jest średnia z naszej próby. Nie znamy prawdziwej średniej z rozkładu prób, nie znamy też prawdziwego odchylenia standardowego rozkładu prób. Ale byliśmy w stanie oszacować to korzystając z odchylenia standardowego z próby. Wszystko, co do tej pory zrobiliśmy i bazując na tym, co wiedzieliśmy wcześniej o przedziałach ufności i tego typu rzeczach, jak możemy znaleźć przedział, który z grubsza... mówię "z grubsza", bo musieliśmy oszacować odchylenie standardowe... że jest szansa 95%, że prawdziwa średnia z naszej populacji, czyli inaczej p, odsetek populacji wybierający 1, jest w tym przedziale? Zrobimy to w następnym filmiku.