If you're seeing this message, it means we're having trouble loading external resources on our website.

Jeżeli jesteś za filtrem sieci web, prosimy, upewnij się, że domeny *.kastatic.org i *.kasandbox.org są odblokowane.

Główna zawartość

Proces Poissona 1

Wprowadzenie do Procesów Poissona i Rozkładu Poissona. Stworzone przez: Sal Khan.

Chcesz dołączyć do dyskusji?

Na razie brak głosów w dyskusji
Rozumiesz angielski? Kliknij tutaj, aby zobaczyć więcej dyskusji na angielskiej wersji strony Khan Academy.

Transkrypcja filmu video

Zabawmy się w technika drogownictwa, który chce się dowiedzieć, ile samochodów przejeżdża przez jakiś fragment ulicy w danym momencie. Interesuje nas jakie jest prawdopodobieństwo, że w ciągu godziny przejedzie tamtędy sto lub pięć samochodów. Na początku zdefiniujmy zmienną losową X, Na początku zdefiniujmy zmienną losową X, która będzie nam mówiła, ile samochodów przejechało tamtędy w ciągu godziny. Naszym celem jest wyznaczenie rozkładu tej zmiennej losowej, bo jeżeli będziemy znali jej rozkład, to łatwo policzymy prawdopodobieństwo, że przejedzie tamtędy sto samochodów albo, że nie przejedzie tamtędy żadne auto. Policzymy praktycznie wszystko. Zanim przejdziemy dalej, musimy jeszcze poczynić dwa założenia, bo chcemy wyprowadzić rozkład Poissona. A żeby go wyprowadzić, trzeba poczynić te założenia. Pierwsze, że w każdej godzinie potencjalny ruch jest taki sam. Oczywiście w praktyce tak nie jest. Chociażby dlatego, że w godzinach szczytu natężenie ruchu jest większe niż w środku nocy. Gdybyśmy chcieli modelować trochę bardziej realistycznie, pewnie liczylibyśmy nie godziny ale dni lub pewne określone pory. Ale nie będziemy się aż tak bawić. Zakładamy więc, że wszystkie godziny są takie same i nawet każda godzina dzieli się na takie same fragmenty, czyli prawdopodobieństwo, że przejedzie samochód, jest zawsze takie samo. Uprościliśmy model i trochę odbiega on od rzeczywistości, ale nie ma to większego znaczenia. Drugim założeniem będzie, że jeśli w jednej godzinie przejedzie dużo samochodów, to w kolejnej wcale nie musi przejechać ich mniej. Czyli innymi słowy liczba samochodów przejeżdżających drogę w jednym okresie nie wpływa na to, ile przejedzie w kolejnym. Czyli nasze zmienne losowe są niezależne. Zastanówmy się teraz, jaki rozkład prawdopodobieństwa dobrze pasowałby do tego modelu? Pierwszą rzeczą, jaką zrobimy, zazwyczaj jest to dobry pierwszy krok, to policzenie średniej. Siedzimy więc na krawężniku i liczymy tę zmienną przez kilka godzin, a potem uśredniamy nasze wyniki i to będzie dość dobry estymator średniej ilości aut na godzinę. Lub równoważnie, ponieważ rozważamy zmienne losowe, estymator wartości oczekiwanej zmiennej X. Więc siedzieliśmy na krawężniku estymując wartość oczekiwaną tej zmiennej losowej, nazwijmy ją lambda. Mogło nam wyjść 9 aut na godzinę, równie dobrze mogło wyjść 9.3 auta na godzinę. Przesiedzieliśmy na tym krawężniku już setki godzin licząc przejeżdżające auta w każdej godzinie, a potem policzyliśmy średnią z uzyskanych wyników. Po uśrednieniu wyszło na przykład 9.3 auta na godzinę i pewnie jest to dość dobre przybliżenie. Więc jaki będzie nasz następny krok? Więc jaki będzie nasz następny krok? Znamy już rozkład dwumianowy. [czyli inaczej rozkład Bernoulliego, przyp. tłum.] W rozkładzie dwumianowym wartość oczekiwana wyraża się wzorem (ilość prób) * (prawdopodobieństwo sukcesu w pojedynczej próbie). wyraża się wzorem (ilość prób) * (prawdopodobieństwo sukcesu w pojedynczej próbie). W poprzednich filmach zliczaliśmy liczbę reszek w serii rzutów monetą. Więc wtedy n było ilością rzutów monetą, a p oznaczało prawdopodobieństwo wylosowania reszki w pojedynczym rzucie. Czyli tak to wygląda dla rozkładu dwumianowego. Postaramy się zamodelować nasz eksperyment drogowy w ten sposób. To oznacza ilość samochodów przejeżdżających w ciągu godziny. Więc możemy przyjąć, że lambda samochodów na godzinę to... Tym razem sukcesem będzie nie wylosowanie reszki, ale jeżeli w danej minucie przejedzie koło nas samochód. Mamy więc 60 minut w godzinie, czyli 60 prób. Zaś prawdopodobieństwo, że w pojedynczej próbie odniesiemy sukces, modelujemy rozkładem dwumianowym, to będzie (lambda) / (60) samochodów na minutę. Więc to jest nasz parametr p. To jest naszym n, zaś to jest p, bo modelujemy nasz eksperyment rozkładem dwumianowym. I pewnie dostalibyśmy wyniki bliskie prawdy. Więc modelując rozkładem dwumianowym, prawdopodobieństwo tego, że nasza zmienna losowa przyjmie wartość k, czyli na przykład, że dokładnie trzy samochody przejadą w ciągu tej godziny, wynosiłoby, n = 60, 60 nad k, gdzie k to na przykład te 3. To oczywiście razy prawdopodobieństwo, że samochód nas minął w danej minucie, czyli lambda / 60 i to podniesione do ilości sukcesów, które osiągnęliśmy, czyli do potęgi k, i jeszcze razy prawdopodobieństwo porażki, czyli gdy samochód nie przejechał, do potęgi ( n - k ), gdzie n to 60. Bo jeżeli mamy k sukcesów i 60 prób, to ponieśliśmy ( 60 - k ) porażek. Było ( 60 - k ) minut, w ciągu których nie minęło nas żadne auto. Więc dostaliśmy niezłe przybliżenie ilości przejeżdżających aut mając 60 prób i modelując rozkładem dwumianowym. Wyniki są potencjalnie niezłe, ale mają poważną wadę. Mianowicie, co się stanie, jeżeli w ciągu jednej minuty przejedzie więcej niż jedno auto? jeżeli w ciągu jednej minuty przejedzie więcej niż jedno auto? W naszym modelu za sukces uznajemy, jeżeli w ciągu danej minuty minie nas samochód. Ale wtedy zostajemy z jednym sukcesem, nawet, jeżeli w ciągu minuty minie nas 5 samochodów. Rozwiązaniem, które się tutaj narzuca, jest podzielenie naszej godziny na mniejsze części. Zamiast dzielić ją na minuty, możemy ją dzielić na sekundy. Więc prawdopodobieństwo osiągnięcia k sukcesów, teraz zamiast 60 mamy 3600 prób, więc prawdopodobieństwo, że będzie k sekund, w których minie nas auto, to 3600 nad k, razy prawdopodobieństwo, że w danej sekundzie minie nas auto, czyli oczekiwana liczba samochodów w ciągu godziny podzielona przez ilość sekund w godzinie, do k sukcesów. To wszystko oczywiście razy prawdopodobieństwo porażki, podniesione do potęgi ( 3600 - k ), bo tyle razy trafiliśmy porażkę. Dostaliśmy więc jeszcze lepsze oszacowanie. W sumie bardzo przyzwoite, ale wciąż może się zdarzyć, że dwa samochody miną nas w ciągu jednej sekundy. Narzuca się rozwiązanie, by znów zwiększyć liczbę prób w godzinie. Będziemy ją zwiększać i zwiększać, i zwiększać. Podążmy za tą intuicją. Jeżeli wykonamy tę operację, to dostaniemy rozkład Poissona. W sumie zazwyczaj ludzie znają wzór rozkładu Poissona i trochę bezmyślnie do niego podstawiają dane. Mało kto wie, że to tak naprawdę rozkład dwumianowy, zaś rozkład dwumianowy jest już bardzo intuicyjny. Rozkład Poissona dzięki niemu zaistniał. Ale zanim to formalnie udowodnimy wykonując przejście graniczne, zmieńmy kolor, zanim przejdziemy z tym do granicy, czyli z liczbą prób, i zobaczymy, że to da rozkład Poissona, poczynimy kilka pomocnych uwag. poczynimy kilka pomocnych uwag. Pierwsza uwaga będzie dotyczyła znanego wam pewnie faktu, ale dla pewności zatrzymamy się przy tym na chwilę, że granica przy x dążącym do nieskończoności z tego wyrażenia to, przepraszam, to e ^ a. Postarajmy się to trochę uzasadnić. Zastosujmy podstawienie. Niech 1 / n = a / x. Niech 1 / n = a / x. Z tego dostajemy, że x = n * a, bo x * 1 = n * a. A kiedy przejdziemy z x do nieskończoności, do czego zbiegnie n? do czego zbiegnie n? do czego zbiegnie n? Pamiętamy, że n = x / a, więc n również wybije do nieskończoności. Teraz stosując te podstawienie dostajemy granicę po n dążącym do nieskończoności z ( 1 + 1 / n ), bo mieliśmy ( 1 + a / x ), ale x to n * a. To jeszcze do n * a. To jest równe granicy przy n dążącym do nieskończoności z ( 1 + 1 / n ) do potęgi n do potęgi a. A ponieważ tutaj nie ma żadnego n, możemy wejść z granicą pod potęgowanie. Czyli dostajemy granicę przy n dążącym do nieskończoności z ( 1 + 1 / n ) do potęgi n, podniesioną do potęgi a. To tutaj to nic innego, jak definicja liczby e. Liczyłem tę granicę w poprzednich filmach, dochodząc do liczby e. Możecie się też pobawić kalkulatorem, wstawiając za n coraz większe wartości, by się z tym oswoić. Więc ten środek to e, ale podnieśliśmy go do potęgi a, czyli dostaliśmy e do potęgi a. Mam nadzieję, że ten wynik nie budzi waszych wątpliwości. Kolejną uwagą, której dowód podam pewnie w kolejnym filmie, jest to, że x ! / (x - k) ! jest równe iloczynowi x * (x - 1) * (x - 2) * . . . * (x - k + 1). x ! / (x - k) ! jest równe iloczynowi x * (x - 1) * (x - 2) * . . . * (x - k + 1). Korzystaliśmy już z tego poprzednio, ale po raz pierwszy zapisujemy to w tak ogólnej postaci. Mam nadzieję, że widzicie, że mamy tutaj dokładnie k czynników. Pierwszy, drugi, trzeci, aż do katego. To nam się przyda przy wyprowadzaniu rozkładu Poissona. Zbadajmy to może na przykładzie. Jeżeli wezmę 7 ! / ( 7 - 2 ) !, czyli 7 * 6 * 5 * 4 * 3 * 2 * 1, dzielone przez, przepraszam, 7 - 2 = 5, więc dzielimy przez 5 * 4 * 3 * 2 * 1. To się poskraca i zostaje 7 * 6. Czyli patrząc na nasz wzorek: 7 razy ( 7 - 2 + 1 ), czyli razy 6. W tym przykładzie mieliśmy k = 2, i zostaliśmy z dwoma czynnikami. Mając już te dwa narzędzia, możemy się zabrać za wyprowadzanie rozkładu Poissona. Ale tym się zajmiemy w kolejnym filmie. Do zobaczenia.