Główna zawartość
Statystyka i prawdopodobieństwo
Kurs: Statystyka i prawdopodobieństwo > Rozdział 9
Lekcja 2: Zmienne losowe ciągłeFunkcje gęstości prawdopodobieństwa - film z polskimi napisami
Funkcje gęstości prawdopodobieństwa dla zmiennych losowych ciągłych. Stworzone przez: Sal Khan.
Chcesz dołączyć do dyskusji?
Na razie brak głosów w dyskusji
Transkrypcja filmu video
W ostatnim filmie wprowadziłem pojęcie -- cóż tak naprawdę zaczęliśmy ze zmienną losową. I później przeszliśmy do dwóch typów zmiennych losowych. Mamy dyskretne zmienne losowe, które przyjmują skończoną liczbę wartości. I chciałem powiedzieć, że zazwyczaj są to liczby całkowite, ale nie zawsze muszą nimi być. Mamy dyskretną, skończoną - co oznacza, że nie możemy mieć nieskończonej liczby wartości dla dyskretnej zmiennej losowej. I dalej mamy ciągłe zmienne losowe, które mogą mieć nieskończoną liczbę wartości. I przykład, który podałem dla ciągłych zmiennych: powiedzmy, że mamy zmienną losową X. Ten X jest często używany -- użyjmy innej litery, dla odmiany od X. Powiedzmy, że mamy zmienną losową Y. Zmienne losowe zazwyczaj są oznaczane dużymi literami. Zmienna będzie odpowiadać ilości deszczu jaka spadnie jutro. Mówię o deszczu, ponieważ znajduję się w północnej Kalifornii. I obecnie jest tutaj całkiem deszczowo. Brakowało nam ostatnio deszczu, więc to dobrze. Mieliśmy suszę, więc deszcz jest mile widziany. Ale ta zmienna oznacza dokładną ilość deszczu jaka spadnie jutro. I powiedzmy, że ... nie znam dokładnego rozkładu prawdopodobieństwa dla tego zjawiska, ale narysuję przykładowy i później go zinterpretujemy. Tak, żebyśmy mogli zobaczyć jak można zajmować się ciągłymi zmiennymi losowymi. Pozwólcie, że narysuję rozkład prawdopodobieństwa, ściśle rzecz ujmując: funkcję gęstości prawdopodobieństwa. Rysuje się ją następująco. I załóżmy, że wygląda mniej więcej tak. tak. W porządku, nie wiem ile wynosi ta wysokość. Tak więc oś x oznacza ilość deszczu. Gdzie tutaj mamy 0 cali deszczu, tutaj 1 cal i tutaj dwa cale, 3 cale i 4 cale. I tutaj mamy jakąś wysokość. Powiedzmy, że szczytuje tutaj. Powiedzmy dla wartości 0.5. Można popatrzyć następująco, jeżeli popatrzymy na ten wykres i spytałbym, jakie jest prawdopodobieństwo, że Y -- ponieważ jest jest to nasza zmienna losowa -- że Y jest dokładnie równe 2 calom? Y jest równe dokładnie 2 cale. Jakie jest prawdopodobieństwo takiego zdarzenia? Cóż, bazując na tym do wiemy o rozkładzie prawdopodobieństwa dla dyskretnych zmiennych losowych, powiedzielibyśmy, popatrzmy. 2 cale, tym przypadkiem teraz się zajmujemy. Przejdźmy tutaj. Powiedzielibyśmy, że jest to około 0.5. I powiedzielibyśmy, że mamy prawdopodobieństwo takie opadu 0.5? Nie. Prawdopodobieństwo wcale nie wynosi 0.5. Zanim zastanowimy się jak interpretować to graficznie, weźmy to najpierw na logikę. Jakie jest prawdopodobieństwo, że jutro będziemy mieć dokładnie 2 cale deszczu? Nie 2.01 cala, ani nie 1.99 cala deszczu. Nawet nie 1.99999 cala ani 2.000001 cala deszczu. Dokładnie 2 cale deszczu. Chodzi mi o to, że nie ma ani jednej cząsteczki wody ponad oznaczenie 2 cali na pojemniku z wodą. Ani jedna cząsteczka wody poniżej tego oznaczenia 2 cali na pojemniku. Prawdopodobieństwo, dokładnie takiego zdarzenia zasadniczo jest zerowe, prawda? Może to nie być jeszcze oczywiste, ponieważ prawdopodobnie słyszałeś, że mieliśmy 2 cale opadu zeszłej nocy. Ale pomyśl, czy aby na pewno dokładnie 2 cale opadu? Normalnie, jeżeli byłoby to 2.01 cala, to ludzie zaokrąglą sobie to do 2. Ale my nie uznajemy czegoś takiego. To nie może być mniej więcej 2 cale. My chcemy dokładnie 2. 1.99 się nie liczy. Normalnie w naszych pomiarach nie mamy nawet na tyle czułych narzędzi, by stwierdzić, że napadało nam dokładnie 2 cale. Żadna linijka nie jest na tyle dokładna, by stwierdzić że coś jest dokładnie równe 2 calom. Wystarczy, że w pewnym momencie pojawi się dodatkowy atom tutaj czy tam. Więc szansa zaistnienia się dokładnie wybranej obserwacji jest tak małym ułamkiem dziesiętnym, że w zasadzie jest równa 0. Gdy myślimy o ciągłej zmiennej losowej, możemy spytać jakie jest prawdopodobieństwo, że Y jest równe prawie 2? Co jeżeli napisalibyśmy, że wartość bezwzględna z Y - 2 jest mniejsza od pewnego epsilona? Powiedzmy, że mniejsza od 0.1. I jeżeli nie jesteście w stanie zrozumieć tego zapisu, to w zasadzie odpowiada pytaniu: jakie jest prawdopodobieństwo, że Y jest większe od 1.9 i mniejsze niż 2.1? Te dwa stwierdzenia są sobie równoważne. Pozwolę wam pomyśleć nad tym chwilę. Teraz zaczyna to nabierać nieco sensu. Teraz mamy do czynienia z pewnym zakresem. Chcemy by Y znajdowało się pomiędzy 1.9 i 2.1. Czyli teraz mówimy o całym tym obszarze. I to, że teraz rozpatrujemy obszar jest kluczowe. Jeżeli chcemy znać prawdopodobieństwo tego zdarzenia, to tak naprawdę chcemy znać powierzchnię znajdującą się pod tą krzywą od tego punktu do tego. I dla tych z was, którzy uczyli się całek to będzie całka oznaczona tej funkcji gęstości prawdopodobieństwa od tego punktu do tego. Skończyła się powierzchnia robocza. Powiedzmy, jeżeli ten wykres -- pozwólcie że użyję innego koloru. Jeżeli ta linia jest zdefiniowana przez f(x). Funkcja mogłaby nazywać się też p(x). Prawdopodobieństwo tego zdarzenia byłoby równe całce, to dla tych, którzy studiowali rachunek całkowy, od 1.9 do 2.1 z f(x) dx. Zakładam, ze to jest oś x. Warto to sobie uświadomić. Ponieważ, gdy zmienna losowa można przyjąć nieskończoną liczbę wartości lub jest w stanie przyjąć dowolną wartość znajdującą znajdującą się w pewnym przedziale. Uzyskanie konkretnej wartości, np. 1.999 ma prawdopodobieństwo równe 0. Odpowiada to spytaniu się jaka jest powierzchnia pod tą krzywą, znajdująca się na tej linii. A konkretniej, odpowiada to pytaniu: jaka jest powierzchnia linii? Powierzchnia linii - jeżeli po prostu narysowalibyśmy linię, i powiedzielibyśmy, że powierzchnia to jest wysokość razy podstawa. Powiedzmy, że linia ma jakąś wysokość (długość), ale podstawa? Jaka jest szerokość linii? Wedle dotychczasowych definicji linii, linia nie ma żadnej szerokości. Stąd nie ma też żadnej powierzchni. Zdaje się to być całkiem sensownie. Prawdopodobieństwo jakiegoś super-dokładnie ustalonego przez nas zdarzenia jest równa praktycznie 0. To o co nam tak naprawdę chodzi to pytanie o to jakie jest prawdopodobieństwo, że znajdziemy się naprawdę blisko 2? Wtedy jesteśmy w stanie zdefiniować obszar. I jeżeli spytamy, jakie jest prawdopodobieństwo, że znajdziemy się gdzieś pomiędzy 1 a 3 calami deszczu, wtedy oczywiście prawdopodobieństwo będzie znacznie większe. Prawdopodobieństwo jest znacznie większe. I tutaj będzie pełno tego typu zakresów. Możemy się spytać, jakie jest prawdopodobieństwo, że spadnie mniej niż 0.1 cala deszczu? Wtedy musielibyśmy udać się tutaj i jeżeli 0.1 znajdowało się tutaj, musielibyśmy obliczyć ten obszar. I mógłbyś się spytać, jakie jest prawdopodobieństwo że jutro spadnie więcej niż 4 cale deszczu? Wtedy zaczęlibyśmy tutaj i musielibyśmy obliczyć obszar pod krzywą aż do nieskończoności, jeżeli krzywa ciągnie się aż do nieskończoności. I miejmy nadzieję, że nie jest nieskończona liczba, prawda? Wtedy nasza wartość prawdopodobieństwa nie miałaby żadnego sensu. I miejmy nadzieję, że zsumuje się to jakiejś konkretnej liczby. Powiedzmy, że będzie jedynie 10% prawdopodobieństwa tego, że spadnie jutro więcej niż 4 cale deszczu. Teraz powinno zaświtać Ci w głowie: czy całe to prawdopodobieństwo wszystkich możliwych zdarzeń nie powinno sumować się do 100%? Prawda? Wszystkie możliwe zdarzenia razem - prawdopodobieństwo czegoś takiego jest równe 1, że którekolwiek z tych zdarzeń się wydarzy. Czyli zasadniczo, cała powierzchnia pod tą powierzchnią powinna być równa 1. Jeżeli obliczymy całkę z f(x) od 0 do nieskończoności dx, to powinna się równać 1. To było dla tych z was, którzy uczyli się rachunku całkowego. Dla tych z was, którzy nie uczyli się rachunku całkowego, całka to po prostu obszar pod tą krzywą. Możesz oglądnąć filmy o rachunku całkowym, jeżeli chcesz nauczyć się nieco więcej o całkowaniu. I to również tyczy się dyskretnych rozkładów prawdopodobieństwa. Pozwólcie, że narysuję przykładowy. Suma wszystkich prawdopodobieństw powinna być równa 1. I weźmy dla przykładu kostkę -- albo lepiej monetę, będzie szybciej narysować -- dwa prawdopodobieństwa muszą łącznie dawać 1. To będzie 1 i 0, gdzie X jest równy 1, gdy wypadła reszka, a 0 gdy wypadł orzełek. Każde z tych prawdopodobieństw musi być równe 0.5. W sumie nie muszą być równe 0.5, jedno może być równe 0.6 ale drugie musi być 0.4. Muszą łącznie dawać 1. Nie możemy mieć jednocześnie 60% prawdopodobieństwa uzyskania reszki i zarazem mieć 60% prawdopodobieństwa uzyskania orzełka. Ponieważ wtedy mielibyśmy łączne prawdopodobieństwo 120% wydarzenia się któregokolwiek zdarzeń, co jest zupełnie bez sensu. Warto więc zdać sobie sprawę z tego, że wartości w rozkładzie prawdopodobieństwa, w tym przypadku dyskretnej zmiennej losowej, muszą się łącznie sumować do 1. Czyli 0.5 + 0.5. A w tym przypadku powierzchnia pod funkcją gęstości prawdopodobieństwa musi być równa 1. Wystarczy na teraz. W następnym filmie wprowadzę pojęcie wartości oczekiwanej. Do zobaczenia wkrótce.