If you're seeing this message, it means we're having trouble loading external resources on our website.

Jeżeli jesteś za filtrem sieci web, prosimy, upewnij się, że domeny *.kastatic.org i *.kasandbox.org są odblokowane.

Główna zawartość

Margines błędu 2

Znajdowanie 95% przedziału ufności dla proporcji populacji głosującej na kandydata. Stworzone przez: Sal Khan.

Chcesz dołączyć do dyskusji?

Na razie brak głosów w dyskusji
Rozumiesz angielski? Kliknij tutaj, aby zobaczyć więcej dyskusji na angielskiej wersji strony Khan Academy.

Transkrypcja filmu video

... Tam gdzie skończyliśmy ostatni filmik zadałem pytanie. Znajdź taki przedział, dla którego mamy podstawy sądzić... wyjaśnimy jeszcze dlaczego muszę używać tu tak nieprecyzyjnego języka... mamy podstawy sądzić, że jest 95% szansa, że prawdziwa średnia z populacji, która wynosi p, które jest tym samym co średnia z rozkładu prób średniej z próby. Czyli jest 95% szansa, że prawdziwa średnia... zapiszę to tutaj... ... to jest też to samo, co średnia z rozkładu prób średniej z próby... jest w tym przedziale. A żeby to zrobić, najpierw podrzucę kilka pomysłów. Jakie jest prawdopodobieństwo, że jeśli wezmę próbę i mam obliczyć średnią z tej próby, czyli prawdopodobieństwo, że średnia z próby losowej jest w odległości nie większej niż dwa odchylenia standardowe od średniej z próby, od średniej z naszej próby? Jakie jest tutaj prawdopodobieństwo? Spójrzmy na nasz faktyczny rozkład. To jest nasz rozkład, a to tutaj to nasza średnia z próby. Może powinienem zapisywać do na niebiesko ponieważ to jest ten kolor z tekstu powyżej. To jest nasza średnia z próby. Jakie jest prawdopodobieństwo, że średnia z próby losowej będzie równa dwóm odchyleniom standardowym? Cóż, branie próby losowej to próba z tego rozkładu. To próba z rozkładu prób średniej z próby. Czyli to jest to samo pytanie, co: jakie jest prawdopodobieństwo otrzymania próby, która jest nie dalej niż dwa odchylenia standardowe od średniej? To jest jedno odchylenie standardowe, tutaj jest kolejne odchylenie. W ogólności, jeśli jeszcze tego nie zapamiętałeś, nie jest złym pomysłem zapamiętać to, że jeśli masz rozkład normalny, prawdopodobieństwo otrzymania próby w obrębie dwóch odchyleń standardowych wynosi 95%, a jeśli chcesz trochę dokładniej, to będzie 95,4%. Ale możesz powiedzieć z grubsza... albo lepiej to zapiszę w ten sposób... to z grubsza 95%. I to naprawdę wszystko, co jest tutaj istotne, ponieważ korzystamy z tego śmiesznego języka, mówimy "mamy powody sądzić", ale i tak musimy oszacować odchylenie standardowe. Tak naprawdę, jeślibyśmy chcieli, moglibyśmy powiedzieć, że to będzie dokładnie 95,4%. Ale w ogólności, dwa odchylenia standardowe i 95%, to jest to, co ludzie przyrównują do siebie. A to stwierdzenie to dokładnie to samo, co prawdopodobieństwo, że średnia z próby... nie średnia z próby, prawdopodobieństwo, że średnia z rozkładu prób jest w obrębie dwóch odchyleń standardowych rozkładu prób zmiennej x, to też będzie ta sama liczba, to też będzie równe 95.4%. Te stwierdzenia są równoważne. Jeśli x jest w obrębie dwóch odchyleń standardowych od tego, wtedy to, wtedy ta średnia jest w obrębie dwóch odchyleń standardowych x. To są po prostu dwa sposoby wyrażenia tego samego. A teraz, wiemy, że średnia z rozkładu prób, ta sama wartość, co średnia z rozkładu populacji, to samo co parametr p - odsetek ludzi albo odsetek populacji, który wynosi 1. Czyli to tutaj jest tym samym, co średnia z populacji. Czyli w tym stwierdzeniu możemy zamienić to z p. Tak więc prawdopodobieństwo, że p jest w obrębie dwóch odchyleń standardowych rozkładu prób zmiennej z, wynosi 95,4%. Nie wiemy czym jest ta liczba. Ale ją oszacowaliśmy. Pamiętaj, nasze najlepsze oszacowanie tej wartości to prawdziwe odchylenie, to jest prawdziwe odchylenie standardowe z populacji, podzielone przez 10. Możemy oszacować odchylenie standardowe z populacji za pomocą odchylenia standardowego z próby, które wyniosło 0.5 podzielone przez 10. Nasze najlepsze oszacowanie odchylenia standardowego rozkładu prób średniej z próby to 0.05. Tak więc teraz możemy powiedzieć... a ja zmienię kolor... że prawdopodobieństwo, że parametr p, czyli odsetek populacji wybierający 1, jest w obrębie dwa razy... pamiętaj, nasze najlepsze oszacowanie tego to 0.05, od średniej z próby, którą mieliśmy, jest równe 95.4%. I możemy powiedzieć, że prawdopodobieństwo, że p jest w obrębie 2 razy 0.05 będzie równe... 2 razy 0.05 to 0.10 od naszej średniej, jest równe 95... i właściwie muszę tu być ostrożny. Nie mogę powiedzieć, że się to równa, ponieważ tutaj, jeśli byśmy znali to, jeśli byśmy znali ten parametr rozkładu prób średniej z próby, moglibyśmy powiedzieć, że to jest 95.4%. Ale tego nie wiemy. My tylko próbujemy znaleźć dla tego najlepsze oszacowanie. Czyli to, co zamierzam tu zrobić to właściwie przyrównać to z przybliżeniem... a żeby podkreślić, że nie mamy nawet takiego poziomu dokłądności, napiszę w przybliżeniu 95%. Mamy powody sądzić, że to jest około 95%, ponieważ korzystamy z oszacowania, które otrzymaliśmy z naszej próby i jeśli próba jest naprawdę wypaczona, to będzie naprawdę dziwna liczba. I dlatego też musimy być tutaj trochę bardziej dokładni w tym co robimy. Ale to jest narzędzie, by przynajmniej powiedzieć, jak dobry jest nasz wynik. Tutaj to będzie około 95%. Albo możemy powiedzieć, że prawdopodobieństwo, że p jest w obrębie 0.10 od średniej z próby, którą otrzymaliśmy. A jaką średnią z próby właściwie otrzymaliśmy> To było 0.43. Czyli jeśli jesteśmy nie dalej niż 0.1 od 0.43, to znaczy, że jesteśmy w obrębie 0.43 plus minus 0.1. Z grubsza, mamy podstawy, by powiedzieć, że to około 95%. I chcę to powiedzieć bardzo wyraźnie. Wszystko, co napisałem powyżej tego miejsca, na brązowo, później żółto i w tym kolorze fuksji, robię to jeszcze raz, tą samą rzecz, w obrębie tego. To się zrobiło trochę mniej precyzyjne, kiedy przeszedłem od dokładnego odchylenia standardowego z rozkładu prób do jego oszacowania. I właśnie dlatego to się staje... postawiłem tutaj takie dziwne znaki równości, żeby powiedzieć, że mamy podstawy tak sądzić... i straciłem trochę na precyzji. Ale właśnie wyznaczyliśmy nasz przedział. Przedział, co do którego mamy podstawy sądzić, że z prawdopodobieństwem 95%, p do niego należy, będzie równy 0.43 plus/minus 0.1. Albo przedział... mamy przedział ufności. Mamy przedział ufności na poziomie 95%, możemy powiedzieć 0.43 minus 0.1 to 0.33. Jeśli zapiszemy to jako procent, możemy powiedzieć od 33% do... a jeśli dodamy 0.1 do 0.43, dostajemy 53%... do 53%. Czyli jesteśmy na 95% pewni. Nie mówimy, że dokładne prawdopodobieństwo rzeczywistego odsetka to 95%, ale na 95% jesteśmy pewni, że prawdziwy odsetek jest pomiędzy 33% a 53%. To p jest gdzieś w tym zakresie. Jest też inny sposób, możesz go zobaczyć w wielu ankietach, które były przeprowadzone, ktoś powie, że zrobił badanie opinii i wyszło mu, że 43% zagłosuje na kandydata 1, a kandydat 1 to w tym przypadku kandydat B. ... kandydat B... I z drugiej strony, ponieważ wszyscy inni głosowali na kandydata A, 57% zagłosuje na A. A teraz doda do tego margines błędu. I zobaczysz to w każdej ankiecie, którą zobaczysz w telewizji. Nałożą margines błędu. A margines błędu to po prostu inny sposób opisu przedziału ufności. I powiedzą, że margines błędu w tym przypadku wynosi 10%, co oznacza, że z jest 95% przedział ufności, jeśli pójdziesz w górę lub w dół o 10% od wartości, tej tutaj. I naprawdę chcę podkreślić, nie możesz powiedzieć, że na pewno szansa, że prawdziwy wynik będzie w obrębie 10% od tego wynosi 95%, ponieważ musimy oszacować odchylenie standardowe średniej z próby. Ale z informacjami, które mamy, to jest najlepsza możliwa miara. Jeśli zamierzasz zrobić ankietę na 100 osobach, to jest najlepszy rodzaj pewności, który możesz osiągnąć. A ta liczba jest właściwie całkiem spora. Jeśli miałbyś na to spojrzeć, powiedziałbyś, z grubsza jest 95% szansa, że prawdziwa wartość tej liczby jest pomiędzy 33%, a 53%. Czyli właściwie nadal jest szansa, że kandydat B może wygrać, mimo, że tylko 43% z twoich 100 osób na niego zagłosuje. Jeśli byś chciał zrobić to dokładniej, musiałbyś mieć więcej prób. Możesz to sobie wyobrazić. Zamiast wzięcia 100 prób, zamiast n równego 100, weź n równe 1000, wtedy ta liczba pojawiła by się tutaj, wziąłbyś tę liczbę tu i podzielił przez pierwiastek kwadratowy z 1000 zamiast pierwiastka kwadratowego z 100. Czyli byś dzielił przez 33 czy coś takiego. I dzięki temu wielkość odchylenia standardowego twojego rozkładu prób by się zmniejszyła. I tak samo odległość dwóch odchyleń standardowych byłaby mniejsza, a dzięki temu miałbyś mniejszy margines błędu. A może chciałbyś dostać margines błędu na tyle mały, by móc rozstrzygnąć kto wygra wybory. ...