Główna zawartość

Kurs: Statystyka - program rozszerzony > Rozdział 10

Lekcja 1: Przedziały ufności dla proporcji

Odniesienie: Warunki wnioskowania na temat proporcji

Kiedy chcemy wyciągać wnioski na temat jednej proporcji (zbudować przedział ufności lub wykonać test istotności), dokładność naszych metod zależy od spełnienia kilku warunków. Zanim przejdziemy do obliczeń przedziałów ufności lub testu istotności, ważne jest sprawdzenie, czy te warunki zostały spełnione, inaczej obliczenia i wnioski z nich wynikające nie będą prawdziwe.

Warunki, które muszą zostać spełnione, żeby wnioskowanie na temat proporcji było poprawne:

Losowość: Dane muszą pochodzić z losowej próbuj lub randomizowanego eksperymentu.
Normalność: Rozkład statystyki z próby $\hat{p}$ ‍ musi być w przybliżeniu normalny — potrzebuje co najmniej $10$ ‍ oczekiwanych sukcesów i $10$ ‍ oczekiwanych porażek.
Niezależność: Indywidualne obserwacje muszą być niezależne. Jeśli pobieramy obserwacje z populacji do kolejnych prób bez zwracania, rozmiar każdej z nich nie powinien przekraczać $10 %$ ‍ populacji.

Przyjrzyjmy się każdemu z tych warunków nieco bliżej.

Warunek losowości

Losowe próby dają nam nieobciążone dane z populacji. Kiedy próba nie jest losowo dobrana, dane zwykle są w jakiś sposób obciążone, więc używanie danych z obserwacji, które nie zostały dokonane na losowo wybranych obiektach/osobach, powoduje, że wyciąganie wniosków na temat populacji jest ryzykowne.

Bardziej konkretnie, proporcje w próbie są nieobciążonymi estymatorami proporcji w populacji. Na przykład, jeśli mamy torebkę cukierków, w której

50 %

cukierków jest pomarańczowe, i wybierzemy losowe próbki z tej torebki, to niektóre z próbek będą w

50 %

pomarańczowe, a inne mniej (lub bardziej) pomarańczowe. Średnio jednak proporcja pomarańczowych cukierków w każdej próbce będzie równa

50 %

. Zapisujemy tę własność jako

μ_{\hat{p}} = p

, co jest prawdą tak długo, jak nasza próba jest losowa.

Niekoniecznie jednak tak będzie jeśli nasza próba nie jest losowo wybrana. Obciążone próby prowadzą do otrzymania niedokładnych wyników, więc nie powinny być używane do tworzenia przedziałów ufności lub wykonywania testów istotności.

Warunek normalności

Rozkład statystyki z próby

\hat{p}

jest w przybliżeniu normalny, jeśli tylko oczekiwana liczba sukcesów i porażek wynosi co najmniej

10

dla obu przypadków. Dzieje się tak kiedy wielkość próby

n

jest odpowiednio duża. Dowód prawdziwości tego stwierdzenia jest poza zakresem zaawansowanej statystyki na portalu, ale nasz samouczek o rozkładach statystyki z próby może być źródłem wskazówek i weryfikacji, że ten warunek rzeczywiście działa.

Potrzebujemy:

\begin{aligned} oczekiwane sukcesy: n p \geq 10 \\ oczekiwane porażki: n (1 - p) \geq 10 \end{aligned}

Jeśli budujemy przedział ufności, nie mamy wartości

p

do podstawienia, więc zamiast tego liczby zaobserwowaną liczbę sukcesów i porażek w danych z próby żeby upewnić się, że obie te liczby wynoszą co najmniej

10

. Jeśli wykonujemy test istotności, używamy naszej wielkości próby

n

i hipotetycznej wartości

p

to obliczenia liczby oczekiwanych sukcesów i porażek.

Warunek niezależności

Użycie wzoru na odchylenie standardowe

\hat{p}

wymaga, żeby indywidualne obserwacje były niezależne. Kiedy pobieramy próby bez zwracania, indywidualne obserwacje technicznie są niezależne, ponieważ usunięcie każdej kolejnej wybranej zmienia populację.

Warunek

10 %

mówi, że jeśli jedna próba będzie stanowiła

10 %

populacji lub mniej, możemy traktować indywidualne obserwacje jako niezależne, ponieważ usunięcie każdej obserwacji nie zmienia istotnie populacji kiedy dokonujemy losowania próby. Na przykład, jeśli rozmiar naszej próby to

n = 150

, w całej populacji powinno być co najmniej

N = 1500

elementów.

To nam pozwala używać wzoru na odchylenie standardowe

\hat{p}

σ_{\hat{p}} = \sqrt{\frac{p (1 - p)}{n}}

W teście istotności używamy rozmiaru próby

n

i hipotetycznej wartości

p

Jeśli budujemy przedział ufności dla

p

, to nie wiemy ile konkretnie wynosi

p

, więc podstawiamy

\hat{p}

jako estymator

p

. Wynik tego działania nazywamy błędem standardowym

\hat{p}

w celu odróżnienia go od odchylenia standardowego.

Tak więc nasz wzór na błąd standardowy

\hat{p}

σ_{\hat{p}} \approx \sqrt{\frac{\hat{p} (1 - \hat{p})}{n}}

Chcesz dołączyć do dyskusji?

Zaloguj się

Sortuj według

Na razie brak głosów w dyskusji

Rozumiesz angielski? Kliknij tutaj, aby zobaczyć więcej dyskusji na angielskiej wersji strony Khan Academy.