If you're seeing this message, it means we're having trouble loading external resources on our website.

Jeżeli jesteś za filtrem sieci web, prosimy, upewnij się, że domeny *.kastatic.org i *.kasandbox.org są odblokowane.

Główna zawartość

Dlaczego dzielimy przez n - 1 przy liczeniu wariancji - film z polskimi napisami

Symulacja numeryczna, która pokazuje że dzielenie we wzorze na wariancję z próby przez n-1 rzeczywiście prowadzi do nieobciążonego oszacowania wariancji w populacji. Symulacja dostępna jest na stronie: http://pl.khanacademy.org/cs/unbiased-variance-visualization/1167453164. Stworzone przez: Sal Khan.

Chcesz dołączyć do dyskusji?

Na razie brak głosów w dyskusji
Rozumiesz angielski? Kliknij tutaj, aby zobaczyć więcej dyskusji na angielskiej wersji strony Khan Academy.

Transkrypcja filmu video

A tu mamy taką symulację stworzoną przez użytkownika Khan Academy Justina Helpsa która ponownie spróbuje przekonać nas, dlaczego dzielimy przez n-1 w celu otrzymiania nieobciążonego estymatora wariancji populacyjnej, gdy liczymy wariancję z próby. To mamy w tej symulacji mamy populację z rozkładu jednostajnego która mówi "mam płaski rozkład probabilistyczną od 0 do 200 dla mojej populacji". I zaczynamy pobierać próbki z owej populacji, które będą rozmiaru 50, i dla każdej z owych probek policzymy wariancję w oparciu o dzielenie przez n ale nie tylko przez n, ale również przez n-1, n-2 I jak będziemy mieli coraz więcej tych próbek, to weźmiemy średnią owych różnie obliczonych wariancji i zbadamy do czego te średnie zbiegają. Zatem mamy próbkę tutaj, mamy próbkę tam... Próbkując tak to będę miał ich bardzo dużo. I widzicie coś ciekawego - gdy dzielę przez n, moja wariancja z próby jest wciąż, mimo że biorę średnią z wielu, wielu wariancji z prób, jest wciaż niedoszacowaniem prawdziwej wariancji. A gdy dzielę przez n-1 to wygląda to na całkiem dobre oszacowanie. Średnia moich wariancji z prób naprawdę zbiega do prawdziwej wariancji. A gdy dzielę przez n-2, to widać, że jest to przeszacowane tym razem. Że przeszacowałem, średnią wariancji z prób, prawdziwą wariancję. I to nam daję pewien ogląd, że dobrze brać n-1. A tu jest inny ciekawy sposób wizualizacji tego. Na poziomej osi tutaj porównujemy wykres każdej z naszych próbek i odchylenie na prawo oznacza jak dużo większa jest wariancja z próby od prawdziwej wariancji, a odchylenie na lewo oznacza o ile mniej jest wariancja z próby od wariancji prawdziwej. Przykładowo ta próbka tutaj jest bardzo na prawo i jej średnia jest dużo większa niż prawdziwa średnia, a tu średnia z próby była dużo mniejsza, a tu tylko trochę większa od prawdziwej średniej. A na pionowych osiach, za pomocą mianownika n, liczymy dwie różne wariancje: jedna dla średniej z próby, a druga dla średniej populacji. I na pionowej osi porównujemy różnicę między średnią wyliczoną z średniej próby wobec różnice średniej wyliczonej z średniej populacji. Przykładowo, ten punkt tutaj, gdy liczymy naszą średnią za pomocą średniej próby, czyli jak się to normalnie robi, to znacząco niedoszacowujemy prawdziwą średnią, wobec tego gdybyśmy znali średnią populacji i mogli jakoś ją wyliczyć i dostajemy w efekcie ten ciekawy kształt. I to jest coś, nad czym warto pogłówkować, dlaczego taki kształt albo co ten kształt oznacza? Drugą ciekawą rzeczą, i gdy się na to spojrzy w ten sposób, to widać jasno, że cały diagram siedzi poniżej poziomej osi czyli zawsze, gdy liczymy naszą wariancję z próby z tego wzoru gdy używamy średniej z próby w tym cemu, czyli jak to sie normalnie robi, to niedoszacowujemy, zawsze otrzymujemy mniejszą wariancję niż gdy używamy średnią populacji. A tutaj, gdy dzielimy przez n-1 to nie zawsze niedoszacowujemy, czasem przeszacowujemy, ale gdy weźmiemy średnią tych wariancji, to ona zbiega, a tutaj z kolei przeszacowujemy zaś trochę więcej. I żeby było jasno, o co nam chodzi z tymi trzema diagramami, to zrobię screenshot i opowiem trochę dokładniej. Żeby było to jasne, to ten czerwony diagram tutaj Zrobię to w podobnych kolorach, więc biorę pomarańczowy, zatem ta odległość to jest dla każdej z tych próbek liczymy wariancję z próby używając średniej z proby i w tym przypadku używamy n jako mianownika i od tego odejmujemy wariancję z próby lub nazwijmy to pseudo-wariancję z próby bo zakładamy, że magicznie znamy średnią populacji, która rzadko jest dana w statystyce ale jest to pewna miara jak bardzo niedoszacowujemy naszą wariancję próbki pod warunkiem że nie znamy prawdziwej średniej populacji. Zatem to jest ta odległośc, co tu liczymy. I jak widać, zawsze niedoszacowujemy. Tu trochę przeszacowujemy, ale również niedoszacowujemy i gdy bierzemy średnią i uśredniamy, to zbiega do realnej wartości Zatem tu dzielimy przez n-1, a tu przez n-2.