If you're seeing this message, it means we're having trouble loading external resources on our website.

Jeżeli jesteś za filtrem sieci web, prosimy, upewnij się, że domeny *.kastatic.org i *.kasandbox.org są odblokowane.

Główna zawartość

Przegląd i intuicyjne wyjaśnienie dlaczego dzielimy przez n-1 przy obliczaniu nieobciążonej wariancji z próby - film z polskimi napisami

Przypomnienie pojęć średniej z populacji, średniej z próby, wariancji populacji, wariancji z próby i wzmacnianie intuicji przy rozumieniu, dlaczego dzielimy przez n-1, żeby otrzymać nieobciążony estymator wariancji z próby. Stworzone przez: Sal Khan.

Chcesz dołączyć do dyskusji?

Na razie brak głosów w dyskusji
Rozumiesz angielski? Kliknij tutaj, aby zobaczyć więcej dyskusji na angielskiej wersji strony Khan Academy.

Transkrypcja filmu video

W tym filmiku będę chciał powtórzyć dużo tego, o czym rozmawialiśmy I mam nadzieję wyrobić intuicję, dlaczego dzielimy przez n-1 gdy chcemy nieobciążony estymator wariancji populacyjnej licząc wariancję z próby. No to weźmy sobie populację. Niech to tu będzie populacją. I jej rozmiar to będzie duże N. I mam próbkę z tej populacji. I jej rozmiar to małe n punktów. To przypomijmy sobie, jakie parametry i statystyki znamy już. Pierwsza to średnia. Jak liczymy średnią populacji, to jest to parametr czy statystyka? Gdy liczymy to w przypadku populacji, to mamy do czynienia z parametrem. Zapiszę to. Dla populacji jest to parametr. A gdy liczmy coś dla próbki, to nazwiemy do statystyką. To czym jest owa średnia populacji? Przede wszystkim zapisujemy ją grecką literą miu. I w praktyce bierzemy każdy punkt populacji czyli bierzemy sumę każdgo punktu zaczynamy na pierwszym punkcie i jedziemy aż do Ntego punktu. I dla każdego z nich sumujemy. Zatem to jest i-ty punkt. czyli x z indeksem 1, x 2, x N... i potem dzielimy przez całkowitą liczbę punktów. A jak liczmy średnią z próby? Dla niej robimy coś bardzo podobnego. Oznaczamy ją przez X z kreską nad. I będziemy brać każdy punkt w próbce czyli aż do małe n. dodajemy je. Mamy sumę wszystkich punktów naszej próbki i dzielimy ją przez liczbę punktów w próbce. Kolejną rzeczą wartą liczenia dla populacji, która też jest parametrem i ją też policzymy dla próbki i spróbujemy oszacować dla populacji to będzie wariancja. Która jest miarą tego, jak bardzo rozproszone albo jak odległe od średniej są punkty. To piszemy wariancja. Jak się ją oznacza i liczy dla populacji? Dla populacji, oznacząc ją grecką literą sigma kwadrat, jest ona równa kwadratom odległości od średniej populacji. I co robimy, to bierzemy każdy punkt czyli od i równego 1 aż do N. bierzemy ten punkt, odejmujemy od niego średnią populacji czyli jeśli chcmey to policzyć, to dobrze mieć średnią wcześniej. To jest jeden sposób. Zobaczymy, że są też inne sposoby gdzie tak jakby liczymy to wszystko naraz ale najprościej jest najpierw policzyć to a potem dla każdego punktu odjąć od niego średnią, podnieść do kwadratu i potem podzielić przed całkowitą liczbę danych nam punktów. I dochodzimy do ciekawszej części: wariancja z próby. Ludzie, mówiąc o wariancji z próby, mają różne sposoby liczenia jej. Jeden to jest obciążony, niedoszacowany estymator wariancji populacyjnej i on jest oznaczany zazwyczaj przez S kwadrat z małym indeksem n. A czym jest obciążony estymator? Jak sie go liczy? Tak się składa, policzylibyśmy go bardzo podobnie do tego tu. Ale zrobilibyśmy to dla próbki, nie populacji. Czyli dla każdego punktu w próbce, których mamy n, bierzemy ten punkt, odejmujemy od niego średnią z próby, podnosimy do kwadratu i dzielimy przez liczbę danych nam punktów. A o tym była już mowa w poprzednim filmiku jak by się znajdowało estymator nieobciążony wariancji populacyjnej. Próbujemy znaleźć estymator nieobciążony. W poprzednim filmiku gdy chcemy nieobciążony estymator i w tym filmiku chce wyrobić intuicję dlaczego to byśmy brali sumę, czyli dla każdego punktu w naszej próbce, byśmy wzieli ten punkt, odjęli średnią z próby, podnieśli do kwadratu, ale zamiast dzielić przez n, to dzielimy przez n-1. Dzielimy przez mniejszą liczbę i gdy się dzieli przez coś mniejszego, to dostaje się coś większego. Więc to będzie wieksze, A to będzie mniejsze. I o tym mówimy, że jest to estymator nieobciążony a o tym, że jest estymatorem obciążonym. I gdy ludzie tak sobie to piszą, tę wariancję z próby to dobrze jest doprecyzować, o które im chodzi ale jeśli już trzeba zgadywać, bo nie mamy więcej danych to pewnie chodzi im o nieobciążony estymator. Czyli pewnie dzielilibyśmy przez n-1. Ale pomyślmy, dlaczego ten estymator byłby obciążony, a dlaczego możemy chcieć mieć taki, który jest większy. I może w przyszłości uda się za pomocą programu komputerowego poprawić nasze poczucie, dlaczego dzieli się przez n-1 i dlaczego to daje lepsze oszacowanie wariancji populacyjnej. To weźmy wszystkie punkty z populacji i ja je narysuję na wykresie liczbowym. Tu mamy nasz wykres i ja pozaznaczam punkty z populacji na nim. Tu mamy trochę danych, tam mamy ich trochę, tu jeszcze trochę i tam też. I mogę tych punktów zaznaczyć ile chcę. Ale to są tylko punkty na osi. I załóżmy, że biorę próbkę z nich. To jest nasza cała populacja i mam jej, spójrzmy, 1,2,3,4,5,6,7,8,9,10,11,12,13,14 Czyli jakie byłoby nasze duże N? Nasze duże N to 14. To teraz biorę próbkę. Rozmiaru małe n, powiedzmy 3. Zanim nawet za to się wezme, to pomyślmy gdzie na oko by ta średnia populacji była. Patrząc na oś, czego nie będę wyliczał, to na oko średnia powinna siedzieć gdzieś tutaj. Więc średnia, prawidziwa średnia populacyjna, parametr będzie siedział tutaj. A co się dzieje gdy probkujemy? Wezmę bardzo małą próbkę, tak dla intuicji, ale działa to dla dowolnej próbki. Więc powiedzmy, że mamy próbkę o rozmiarze 3 Czyli jest prawdopodobieństwo, że biorąc naszą próbkę rozmiaru 3 to możemy próbkować w taki sposób, że nasza średnia z próby siedzi blisko do prawdziwej, populacyjnej. Np. jeśli weźmiemy ten punkt, ten i ten, to na oko nasza średnia z próby może znajdować się blisko populacyjnej średniej. Ale taka możliwość, że biorąc tę próbkę, to biorę to, to i to and kluczowe jest to, że biorąc próbkę to średnia z próby będzie siedziała 'wewnątrz' próbki. Czyli jest możliwość, że biorąc próbkę, to średnia populacji może być poza próbką i w tej sytuacji, tak dla intuicji, to tu nasza średnia z próby będzie siedziała gdzieś tutaj. I gdybyśmy mieli policzyć odległości od każdego z tych punktów do średniej próbki, czyli tę odległość, tę i potem do kwadratu podnieść i jeszcze podzielić przez liczbę punktów danych nam, to będzie to niedoszacowanie prawdziwej wariancji od populacyjnej średniej. Bo te rzeczy są dużo, dużo bardziej odległe. Oczywiście nie zawsze będziemy mieli populacyjną średnią poza próbką, ale jest to możliwe, że tak będzie. I generalnie, jeśli wezmę te punkty, znajdę kwadrat odległości od średniej z próbki, która zawsze siedzi 'wewnątrz' danych, mimo, że prawdziwa średnia populacji może znajdować się poza nią, to albo może znajdować się na jakimś końcu danych, jakkolwiek o tym by nie myśleć to w rzeczywistości niedoszacowuje się prawdziwą wariancję populacyjną To to tu jest niedoszacowaniem. I okazuje się, że jeśli zamiast dzielić przez n podzielimy przez n-1 to otrzymamy trochę większą wariancję próbki i to jest estymator nieobciążony. I w następnym filmiku, może nie od razu, będę chciał stworzyć jakić program komputerowy, który byłby trochę bardziej przekonujący, że to jest lepszy estymator wariancji populacji, niż ten.