If you're seeing this message, it means we're having trouble loading external resources on our website.

Jeżeli jesteś za filtrem sieci web, prosimy, upewnij się, że domeny *.kastatic.org i *.kasandbox.org są odblokowane.

Główna zawartość
Aktualny czas:0:00Całkowity czas trwania:9:49

Transkrypcja filmu video

W tym filmie chciałbym opowiedzieć o jednej z najbardziej fundamentalnych i głębokich koncepcji w statystyce i prawdopodobnie całej matematyce. Chodzi o centralne twierdzenie graniczne. Mówi nam o tym, że możemy wystartować z dowolnym rozkładem, który posiada dobrze zdefiniowaną wartość oczekiwaną i wariancję. Jeżeli posiada dobrze zdefiniowaną wariancję, to posiada również dobrze zdefiniowane odchylenie standardowe. I może to być rozkład ciągły lub dyskretny. Narysuję dyskretny, ponieważ łatwiej go sobie wyobrazić, przynajmniej na potrzeby tego filmu. Załóżmy, że mam dyskretną funkcję określającą rozkład prawdopodobieństwa. Będę pilnował, żeby nie przypominała w żaden sposób rozkładu normalnego, ponieważ chcę pokazać wam potęgę centralnego twierdzenia granicznego. Załóżmy, że mamy rozkład. Załóżmy, że może przyjmować wartości od 1 do 6. 1, 2, 3, 4, 5, 6. Jest to coś w rodzaju szalonej kostki. Ma wysokie prawdopodobieństwo wypadnięcia 1, krzywo narysowałem, poprawię -- mamy bardzo dużą szansę, uzyskania 1, załóżmy że niemożliwym jest uzyskanie 2, załóżmy że uzyskanie 3 lub 4 jest całkiem prawdopodobne. Niemożliwa do uzyskania jest 5. I załóżmy, że bardzo prawdopodobne jest uzyskanie 6. To jest moja funkcja gęstości prawdopodobieństwa. Jeżeli chciałbym zaznaczyć tutaj średnią, rozklad jest symetryczny, więc średnia znajdowałaby się tutaj. W połowie. Tutaj znajdowałaby się moja średnia. Odchylenie standardowe sięgałoby być może, tak daleko w jedną i drugą stronę średniej. To jest moja funkcja będąca rozkładem gęstości prawdopodobieństwa. Teraz, to co robię to zamiast tylko pobierać kolejne wartości tej zmiennej losowej opisanej przez ten rozkład gęstości prawdopodobieństwa. Będę pobierał kolejne wartości. Ale będę uśredniał te wartości i później będę obserwował częstotliwość wartości średnich, które będę uzyskiwał. I gdy mówię o wartości średniej mam na myśli średnią arytmetyczną. Zdefiniujmy najpierw parę rzeczy -- załóżmy, że moja próba będzie miała rozmiar, mogę wybrać tutaj dowolną liczbę, ale powiedzmy, że spróbujemy z próbą wielkości 4. Oznacza to, że za każdym razem będę wyciągał 4 wartości z tego rozkładu. Załóżmy, że za pierwszym razem, gdy wyciągam 4 wartości uzyskuję 1, kolejną 1, 3 i 6. Proszę bardzo, oto nasza pierwsza próbka o rozmiarze próby 4. Rozumiem, że terminologia może zacząć się trochę mieszać, ponieważ tutaj jest próba składająca się z 4 pojedynczych próbek. Ale gdy mówimy o średniej z próby i procesie próbkowania rozkładu o pewnej wartości średniej, o czym opowiemy sobie więcej w kilku następnych filmach, to normalnie termin próba tyczy się zbioru wartości pobranych z rozkładu. A rozmiar próby mówi nam ile wartości pobraliśmy z naszego rozkładu. Można się łatwo zaplątać w terminologii, ponieważ każda z tych wartości może być potrakowana jako jakaś próbka rozkładu. Wyciągamy 4 wartości z rozkładu. Mamy próbę wielkości 4. Chcę teraz uśrednić te wartości. Średnia pierwszej próbki o wielkości 4 jest równa? 1 + 1 daje 2 2 + 3 daje 5. 5 + 6 daje 11. 11 podzielone przez 4 daje 2.75. To jest średnia z naszej pierwszej próby rozmiaru 4. Stwórzmy kolejną. Moja kolejna próba wielkości 4. Powiedzmy, że uzyskałem 3,4,kolejną 3 i na koniec 1. Po prostu tym razem nie wylosowałem żadnej 6. Zauważcie, że nie mogę uzyskać ani 2 ani 5. Jest to niemożliwe w tym rozkładzie. Szansa uzyskania 2 lub 5 jest równa zero. Więc nie mogę mieć również i tutaj żadnej 2 i 5. Dla drugiej próby wielkości 4, średnia będzie równa 3 + 4 co daje 7, 7 + 3 co daje 10, + 1 daje 11. 11 podzielone przez 4 po raz kolejny daje 2.75. Pozwólcie, że wezmę jeszcze jedną próbkę, chcę żeby było to jasne, co tak naprawdę tutaj robimy. Zrobię jeszcze jedną próbkę -- tak naprawdę powinniśmy powtarzać tą procedurę z miliard razy więcej, ale pozwólcie że zrobię jeszcze jeden przykład bardziej szczegółowo. Załóżmy, że moja trzecia próbka wielkości 4, wyciągnę z rozkładu 4 wartości. Czyli moja próba będzie złożona z 4 wartości pochodzących z tej oryginalnej, nieco dziwacznej dystrybucji. Załóżmy, że uzyskałem 1,1, 6 i 6. Średnia z mojej trzeciej próbki będzie równa: 1 + 1 daje 2. 2 + 6 daje 8. 8 + 6 daje 14. 14 podzielone przez 4 daje 3.5 Udało mi się obliczyć średnią z każdej z próbek -- czyli dla każdej z moich prób wielkości 4 obliczyłem średnią -- każdą taką średnią próbki rozpiszę na rozkładzie częstości. I zaskoczy to was w ciągu kilku sekund. Zapiszę to wszystko na rozkładzie częstotliwości występowania. W porządku, w mojej pierwszej próbie średnia próby wynosiła 2.75. Będę rysował na wykresie częstotliwość występowania poszczególnych średnich, jakie uzyskam dla każdej z prób. Za pierwszym razem uzyskałem 2.75. Czyli zaznaczę tutaj na wykresie. Wartość pochodzi z tej pierwszej próbki. W następnej próbce również uzyskałem 2.75. Więc 2.75 tutaj. Uzyskaliśmy tą wartość dwukrotnie. Dorysuję kolejne wystąpienie tutaj. Następnie uzyskaliśmy 3.5. Dorysuję tutaj wszystkie możliwe wartości. Mógłbym uzyskać 3, 3.25, 3.5. Następnie uzyskałem 3.5, więc zaznaczę tutaj. Będę kontynuował pobieranie próbek. Być może pozbieram ich 10 000. Czyli będę dalej pobierał kolejne próby. Aż uzbieram ich łącznie 10 000. Czyli po prostu namnożę tych przykładów. Jak to zacznie wyglądać z czasem? Każdy z tych pojedynczych przykładów zaznaczę jako kropkę, inaczej musiałbym oddalić ekran. Jeżeli przyglądalibyśmy się dalej temu wykresowi, to z czasem, oczywiście nadal wartości przyjmowane przez kolejne próby będą w tym samym przedziale, czyli 2.75 może być tutaj. Czyli pierwsza kropka będzie znajdowała sie tutaj, druga z kolei kropka będzie znajdowała się tutaj, wartość z 3.5 będzie znajdowała się tutaj. Ale ja chcę to powtórzyć 10 000 razy, czyli będę miał 10 000 kropek. I powiedzmy, że w miarę pobierania kolejnych próbek, będziemy na tym wykresie dorysowywali kolejne kropki. Będziemy uzupełniali częstotliwości występowania poszczególnych średnich. I będziemy je ciągle dopisywać na wykresie. Zauważycie, że w miarę gdy zacznę wybierać coraz więcej próbek wielkości 4, zacznie się wyłaniać tutaj kształt przybliżający krzywą rozkładu normalnego. Każda z tych kropek reprezentuje pojawienie się konkretnej średniej z kolejnej próbki. Więc jeżeli zwiększam wysokość tej kolumny, to znaczy że kolejne losowane przez mnie próby mają średnią wartość 2.75. Z czasem powstanie nam coś co zacznie przybliżać rozkład normalny. I to jest miła rzecz dotycząca centralnego twierdzenia granicznego. Centralną granicą -- badaną dla -- na pomarańczowo, badaną dla n = 4. To jest dla wielkości próbki równej 4. Jeżeli zrobiłbym to samo dla wielkości próbki, powiedzmy 20. W tym przypadku zamiast brać 4 wartości z pierwotnego, nieco dziwacznego rozkładu, za każdym razem biorę 20 wartości i je uśredniam, po czym zapisuję średnią na tym wykresie. W tym przypadku uzyskamy rozkład, który będzie wyglądał następująco. Opowiemy o tym więcej w kolejnych filmach. Ale jak się okazuje, jeżeli teraz narysuję 10 000 średnich z prób, uzyskam kształt, który po pierwsze będzie jeszcze lepiej przybliżał rozkład normalny. I zobaczymy w przyszłych filmach, że będzie miał mniejszą -- zaznaczę to wyraźnie -- będzie miał taką samą średnią. To będzie średnia. Będzie miał taką samą średnią. Ale będzie miał mniejsze odchylenie standardowe. Powinienem rysować te punkty od dołu do góry, ponieważ w ten sposób tworzy się ta krzywa, poprzez dopisywanie kolejnych kropek nad poprzednimi. Najpierw jedna, później kolejne nad nią. Ten kształt będzie jednak przybliżał coraz bardziej rozkład normalny. W rzeczywistości -- i to jest genialne w centralnym twierdzeniu granicznym -- w miarę gdy rozmiar próby rośnie coraz bardziej, możemy nawet powiedzieć, że w miarę jak zbliża się do nieskończoności, ale nie ma potrzeby zbliżać się zbytnio do nieskończoności by dojść bardzo blisko do rozkładu normalnego. Nawet dla próbek wielkości 10 lub 20, będziemy uzyskiwać coś co będzie bardzo zbliżone do rozkładu normalnego. W zasadzie podobne na tyle, że gołym okiem ciężko będzie odróżnić od rozkładu normalnego. Świetne jest to, że wystartowaliśmy od jakiegoś szalonego rozkładu, prawda? Który w żaden sposó nie przypomina rozkładu normalnego. Ale jeżeli weźmiemy próbę wielkości -- to było dla n = 4 -- ale jeżeli weźmiemy próbę wielkości 10 lub nawet 100, to znaczy będziemy wybierać po 100 wartości zamiast 4 i je będziemy uśredniać, i na wykresie będziemy przedstawiać częstość ich występowania. Następnie weźmiemy kolejną 100 elementową próbkę i wyciągniemy z niej średnią i dopiszemy do wykresu. I jeżeli powtórzylibyśmy to wielokrotnie... w zasadzie jeżeli robilibyśmy to nieskończoną ilość razy -- szczególnie jeżeli mielibyśmy próbę o nieskończonej wielkości -- uzyskalibyśmy idealny rozkład normalny. Szaleństwo :) Nie stosuje się to tylko do średniej z próby. Tutaj akurat bierzemy pod uwagę średnią z próby, ale równie dobrze moglibyśmy brać pod uwagę zwykłą sumę wartości z próby. Centralne twierdzenie graniczne nadal pozostawałoby w mocy. I to właśnie jest superużyteczne w tym twierdzeniu. Poneiważ w życiu jest cała masa procesów, gdzie białka zderzają się ze sobą, ludzie robią różne dziwne rzeczy, ludzie wchodzący między sobą w najdziwniejsze interakcje. I nie wiemy jakie są rozkłady prawdopodobieństwa, tych zjawisk czy też procesów. Ale to o czym mówi nam centralne twierdzenie graniczne, to jeżeli dodamy do siebie wiele różnych akcji, zakładając, że są generowane z tego samego rozkładu lub jeżeli uśrednimy te akcje i będziemy notować na wykresie częstotliwość występowania poszczególnych średnich to uzyskamy rozkład normalny. Dlatego właśnie rozkład normalny tak często przewija się w statystyce i jest dosyć dobrym przybliżeniem sumy lub średniej wielu procesów. Rozkład normalny. W następnym filmie pokażę, że rzeczywistość właśnie w ten sposób się zachowuje. Że jeżeli zwiększamy rozmiar próby, zwiększamy nasze n i wyciągamy duże ilości średnich otrzymamy wykres na któym częstotliwości występowania średnich będą układać się w rozkład normalny.
AP® jest zastrzeżonym znakiem towarowym firmy College Board, która nie dokonała przeglądu tego zasobu.