If you're seeing this message, it means we're having trouble loading external resources on our website.

Jeżeli jesteś za filtrem sieci web, prosimy, upewnij się, że domeny *.kastatic.org i *.kasandbox.org są odblokowane.

Główna zawartość

Symulacja pokazująca obciążenie (błąd) w wariancji próby - film z polskimi napisami

Symulacja Petera Collingridge'a pomagająca nam lepiej zrozumieć, dlaczego dzielimy przez (n-1) w czasie liczenia nieobciążonego estymatora wariancji z próby. Symulacja dostępna jest na stronie: http://pl.khanacademy.org/cs/challenge-unbiased-estimate-of-population-variance/1169428428. Stworzone przez: Sal Khan.

Chcesz dołączyć do dyskusji?

Na razie brak głosów w dyskusji
Rozumiesz angielski? Kliknij tutaj, aby zobaczyć więcej dyskusji na angielskiej wersji strony Khan Academy.

Transkrypcja filmu video

Mamy tu symulację stworzoną przez Petera Collingredge'a używając "Knan Academy Computer Science Scratchpad", której celem jest lepsze zrozumienie, dlaczego dzielimy przez n-1 gdy liczymy nieobciążoną wariancję z próby. Gdy chcemy w nieobciążony sposób oszacować prawdziwą wariancję populacyjną. Co to symulacja robi, to wpierw tworzy losowy rozkład populacji i za każdym razem będzie to inny rozkład. Ten tutaj ma rozmiar 383 i potem wyliczna na jej podstawie parametry średnia wynosi 10.9, a wariancja 25.5 i potem z tej populacji bierze próbki rozmiarów 2, 3, 4, 5 aż do 10 i próbkuje, licząc statystyki dla tych próbek czyli liczy średnią z próby, wariancję z próby, w szczególności obciążoną wariancję z próby i to nam podpowie coś, poda pewną intuicję. I możemy klikać na każdy z tych grafów, przybliżać i z dużą dokładnością badać je. Zrobiłem już screenshot tego i odłożyłem go na mój doodle pad i mogę już pobadać matematyczną stronę tego, co nam to próbuje pokazać. Spójrzmy na mój screenshot i w tym przypadku populacja wyniosła 529, średnia jej to 10.6 i w tym diagramie na dole wyrysowuje średnią populacji dokładnie tutaj na 10.6 i tutaj widzimy, że wariancja populacji wynosi 36.8 i to też zaznacza tutaj, przy 36.8. Ten pierwszy diagram w dolnym lewym rogu mówi pokazuje nam parę ciekawych rzeczy i dla pewności przypomnę, że liczy tutaj obciążoną wariancję próbki. To on to liczy, dla każdego punktu, poczynając od pierwszego punktu w każdej próbce, aż do ntego w próbce i bierze punkt, odejmuje od niego średnią próbki, podnosi to kwadraty i dzieli całość nie przez n-1, ale przez małe n. I to nam mówi wiele ciekawych rzeczy. Pierwsza rzecz, że w przypadkach, gdzie znacząco niedoszacowaliśmy wariancję z próby, to dostajemy wariancje z prób bliskie 0, to te przypadki są też tymi, gdzie nasze średnie z prób był bardzo dalekie od prawdziwej wariancji z próby, albo można na to spojrzeć z drugiej strony, że przypadki, gdzie średnia jest daleko od średniej próby, to wówczas średnio niedoszacowujemy wariancję z próby Drugim spostrzeżeniem to to, że różowe kropki to te, gdzie próbki były mniejsze, a niebieskie to te, gdzie próbki były większe. I spójrzmy na te dwa, nazwijmy je, ogony garbu że przy tych końcach jest stosunkowo więcej czerwonego, a większość niebieskich albo fioletowawych kropek jest skoncentrowana w środku I one dają nam lepsze oszacowanie, choć wprawdzie jest parę czerwonych i stąd mamy fioletowawy kolor, ale z drugiej strony na ogonach mamy prawie wyłącznie czerwone i przypadkowa niebieska kropka, ale zdecydowanie więcej czerwonych. Co jest sensowne - mając mniejszą próbkę, to dużo łatwiej otrzymać średnią, która jest złym oszacowaniem średniej populacji, że jest odległa od niej oraz w związku z tym dużo łatwiej niedoszacować wariancję próby. Ten drugi diagram tutaj doprowadzi nas do sedna sprawy, bo mówi nam, że dla każdego rozmiaru próbek, czyli np to tu dla rozmiaru 2, gdybyśmy dale j brali próbki rozmiaru 2 i liczyli obciążoną wariancję z próby i dzielili potem przez wariancję populacji i znadowali średnią tych wszystkich liczb, to spójrzcie po wielu, wielu próbach, z użyciem wielu próbek rozmiaru n ta nieobciążona wariancja próby podzielona przez wariancję populacji zbliża się do jednej drugiej prawdziwej wariancji populacyjnej. Dla próbki rozmiaru 3 zbliża się do 2/3, 66.6%, prawdziwej wariancji populacji. Dla rozmiaru 4 zbliża się do 3/4 wariancji populacyjnej. Czyli możemy chyba wymyślić ogólny wzór na to: używając obciążony estymator, to nie zbliżamy się to wariancji populacyjnej tylko zbliżamy się do, zapiszę to, do n-1/n razy wariancja populacji. Gdy n był 2, to to było 1/2, gdy n było 3 to 2/3, gdy n równe było 4, to 3/4, czyli otrzymujemy estymator obciążony. Jak go odciążyć? Jeśli chcemy uzyskać dobre oszacowanie, a nie n-1/n razy wariancja populacji, to chcemy pomnożyć, chwila, zmienię kolor, chcemy pomnożyć przez n/n-1. Chcemy pomnożyć przez n nad n-1 by dostać nieobciążone oszacowanie. Wówczas to się kasuje i zostaje nam sama wariancja populacji, czyli to, czego szukamy, a tutaj zostaje nam nieobciążony estymator wariancji populacyjnej Nasza nieobciążona wariancja z próby, i to jest coś, co widzieliśmy w paru poprzednich filmikach, co się widzi w książkach od statystyki i pewnie jest to niezrozumiałe, więc mam nadzieję, że symulacja Petera da nam dobre podstawy, by przekonać się, że tak jest. Dlatego właśnie chcemy dzielić przez n-1.