If you're seeing this message, it means we're having trouble loading external resources on our website.

Jeżeli jesteś za filtrem sieci web, prosimy, upewnij się, że domeny *.kastatic.org i *.kasandbox.org są odblokowane.

Główna zawartość

Znajdowanie prawidłowości w zbiorach danych

Często zbieramy dane po to, by znaleźć ukryte w nich prawidłowości, takie jak tendencje wzrostowe albo korelacje między dwoma zbiorami liczb.
W zależności od danych i wzorców w nich zawartych, czasami potrafimy zauważyć te prawidłowości już w prostym zestawieniu liczb w tabeli. Innym razem potrzebujemy wspomóc się wizualizacją danych na wykresach, takich jak szeregi czasowe, wykresy liniowe lub punktowe.
Przyjrzymy się teraz bliżej kilku przykładom prawidłowości, które możemy znaleźć w danych wokół nas.

Wykrywanie trendów

Trend to zmiana wartości, która wykazuje ogólną tendencję w czasie: rosnącą lub malejącą.
Przyjrzyj się temu zestawieniu danych dotyczących liczby dzieci przypadających na kobietę w Indiach w latach 1955-2015:
RokLiczba dzieci / kobieta
19605.91
19705.59
19804.83
19904.05
20003.31
20102.60
W tym przypadku liczby stale maleją z dekady na dekadę, więc jest to przykład trendu spadkowego.
Teraz spójrz na dane dotyczące oczekiwanej długości życia w USA w latach 1920-2000:
RokOczekiwana długość życia
192055,38
193059,57
194063,24
195068,07
196069,86
197070,86
198073,91
199075,4
200076,9
Tym razem liczby stale rosną z dekady na dekadę, więc jest to przykład trendu rosnącego.

Wizualizacja z pomocą wykresów

Spróbujmy rozpoznać trendy rosnące i malejące na wykresach, takich jak wykres szeregu czasowego.
Ten wykres od GapMinder przedstawia graficznie liczbę dzieci na jedną kobietę w Indiach, tym razem bazując na danych zebranych w każdym roku zamiast według dekad:
Na wykresie widać wyraźny trend spadkowy i od 1968 roku wydaje się on być niemal całkowicie liniowy.
📉 Decyzje przy tworzeniu wykresów: Zakres wartości osi X to 1960-2010, natomiast osi y od 2.6 do 5.9. Czy trend byłby tak samo widoczny w przypadku inaczej dobranych wartości na osiach? Przekonaj się sam, eksperymentując z ustawieniami wykresu na stronie GapMinder.
To kolejny wykres od GapMinder, pokazujący oczekiwaną długość życia z rozbiciem na poszczególne lata zamiast dekad:
Trend nie jest tak wyraźnie rosnący w początkowych dziesięcioleciach, gdy skacze w dół i w górę, ale staje się oczywisty w kolejnych latach.
📉 Decyzje przy tworzeniu wykresów: Zakres wartości osi x to 1920-2000, natomiast oś y zaczyna się od 55. Jak te konkretne wybory wpływają na naszą interpretację wykresu? Spróbuj je zmienić na stronie GapMinder i przekonaj się sam.
Sprawdź swoją wiedzę
Wiele portali (w tym Khan Academy!) używa Google Analytics, by śledzić i analizować zachowania swoich użytkowników.
Ten wykres Google Analytics pokazuje liczbę odsłon strony naszego kursu statystyki liczonych od października 2017 roku aż do czerwca 2018 roku:
Jakie trendy są wyraźnie widoczne na tym wykresie?
Wybierz 1 odpowiedź:

Wahania statystyczne

Google Trends to strona, która wizualizuje popularność poszczególnych haseł wyszukiwanych w Google w miarę upływu czasu.
Możemy użyć Google Trends, by sprawdzić popularność hasła "data science", nowej dziedziny łączącej w sobie statystyczną analizę danych i umiejętności programowania.
Tak wygląda ich wykres dla hasła "data science" od kwietnia 2014 do kwietnia 2019:
Wykres ten pokazuje dużą liczbę fluktuacji (wahań) w ciągu czasu (wraz z corocznymi dużymi spadkami w okolicach Bożego Narodzenia). Zarazem pokazuje on też dość wyraźną tendencję wzrostową w czasie.
Gdy mamy do czynienia z wahaniami danych jak w tym przykładzie, możemy wyliczyć "linię trendu" i nałożyć ją na wykres (lub sprawić, że aplikacja do tworzenia wykresów zrobi to za nas). Linia trendu wygładza dane i sprawia, że ogólny trend jest lepiej widoczny, jeśli takowy w ogóle występuje.
A oto ten sam wykres z dodaną linią trendu:
Tak jak się spodziewaliśmy, linia trendu pokazuje bardzo wyraźny trend rosnący. Pomogło również to, że zdecydowaliśmy się zwizualizować dane dla tak długiego przedziału czasowego, ponieważ występują w nich w ciągu roku sezonowe wahania.
Zawsze gdy analizujesz i wizualizujesz dane, pamiętaj by gromadzić takie dane, które uwzględnią okresowe wahania. W danych zależnych od czasu często występują fluktuacje w okolicach weekendów (z powodu różnic między dniami powszednimi i weekendem) oraz pór roku.

Tworzenie prognoz

Jednym z celów analizy danych jest prognozowanie przyszłości.
Przyjrzyjmy się tym danym dotyczącym średniego czesnego na prywatnych uczelniach:
Rok szkolnyCzesne
2011-12$30,210
2012-13$30,970
2013-14$31,570
2014-15$32,140
2015-16$33,180
2016-17$34,100
Widzimy wyraźnie, że liczby te rosną każdego roku od 2011 do 2016. By stworzyć prognozę, musimy najpierw dowiedzieć się, jakie jest tempo zmian tych wartości.
Jednym ze sposobów jest obliczenie dla każdego roku procentowej zmiany względem poprzedniego roku. To jest ta sama tabela z wyliczeniami umieszczonymi w trzeciej kolumnie:
Rok szkolnyCzesneRoczna zmiana w %
2011-12$30,210
2012-13$30,9702.5%
2013-14$31,5701.9%
2014-15$32,1401.8%
2015-16$33,1803.2%
2016-17$34,1002.8%
Warto też zwizualizować rosnące liczby na wykresie:
Gdyby przyrost był stały (a linia wykresu idealnie prosta), wtedy przewidzenie kolejnych wartości byłoby bardzo łatwe. Jednak w tym przypadku wzrost waha się między 1,8% a 3,2%, więc prognoza nie jest taka oczywista.
Wypróbujmy kilku sposobów na stworzenie prognozy dla lat 2017-2018:
StrategiaPrognozowana zmianaPrognozowane czesne
Ostatnia zmiana2.8%$35,054
Średnia z 3 ostatnich zmian2.6%$34,986.6
Średnia wszystkich zmian2.44%$34,932.04
Która strategia jest Twoim zdaniem najlepsza? Okazuje się, że faktyczna średnia wysokość czesnego w latach 2017-2018 wyniosła $34,740. Zwiększyła się zaledwie o 1.9%, czyli mniej niż w którejkolwiek z naszych prognoz. Najbardziej trafna okazała się strategia, w której uśrednialiśmy wszystkie wartości.
Statystycy i analitycy danych często używają techniki nazywanej regresją liniową, która znajduje prostą najlepiej pasującą do danych, dzięki czemu możemy przewidzieć przyszłe wartości w oparciu o przebieg tej prostej. Na podstawie powyższych danych regresja liniowa też przewiduje wzrost o 2,44%.
Jak możemy stworzyć trafniejsze prognozy? Moglibyśmy zebrać więcej danych i wziąć je pod uwagę w naszym dotychczasowym modelu, na przykład zastanowić się nad wpływem wzrostu gospodarczego na wzrost czesnego.
Na koniec musimy zrozumieć, że prognoza jest niczym więcej niż tylko prognozą. Więcej danych i lepsze metody pomagają nam skuteczniej przewidywać przyszłość, ale nic nie zagwarantuje nam nieomylnej prognozy.

Znajdowanie korelacji

Kolejnym celem analizy danych jest wyliczanie korelacji, czyli statystycznej zależności między dwoma zbiorami liczb.
Korelacja może być dodatnia, ujemna lub może w ogóle nie występować. Powszechnym sposobem na wizualizację korelacji dwóch zbiorów liczb jest wykres punktowy.
Istnieje dodatnia korelacja pomiędzy temperaturą na zewnątrz a sprzedażą lodów:
Gdy temperatura rośnie, rośnie również liczba sprzedawanych lodów.
Istnieje ujemna korelacja pomiędzy panującą temperaturą a sprzedażą zup:
Wraz ze wzrostem temperatury spada sprzedaż zup.
Nie ma żadnej korelacji pomiędzy temperaturą a sprzedażą soli:
Wzrost temperatury nie jest powiązany z poziomem sprzedaży soli.
Statystycy i analitycy danych zazwyczaj zapisują korelację jako wartość pomiędzy 1 a 1, gdzie 1 oznacza silną korelację ujemną, 1 silną korelację dodatnią, z kolei 0 brak korelacji. Możesz dowiedzieć się więcej na temat współczynników korelacji na Khan Academy.
Wariancja zwizualizowana na wykresie punktowym jest wykresem bąbelkowym, gdzie rozmiar bąbelka zależy od trzeciego wymiaru danych.
To jest wykres bąbelkowy z GapMinder, który zestawia przychody z oczekiwaną długością życia, gdzie każdy bąbelek odpowiada danemu krajowi i jego populacji:
📉 Decyzje przy tworzeniu wykresów: Kolory kropek oznaczają kontynenty, gdzie zielony odpowiada obu Amerykom, żółty Europie, niebieski reprezentuje Afrykę, a czerwony Azję. Zakres wartości osi y to 19-86, natomiast wartości na osi x to 400-96,000 w skali logarytmicznej, zwiększającej się dwukrotnie z każdym krokiem. Skala logarytmiczna jest często stosowana do reprezentowania danych o dużym rozrzucie wartości.
Wraz z zajmowaniem przez dany kraj coraz wyższej pozycji na osi dochodu, rośnie też oczekiwana długość życia jego obywateli. Istnieje dodatnia korelacja pomiędzy poziomem dochodu a oczekiwaną długością życia.
Kolejny wykres bąbelkowy z GapMinder, tym razem zestawiający poziom emisji CO2 z oczekiwaną długością życia:
📉 Decyzje przy tworzeniu wykresów: Tym razem wartości na osi x rosną od 0.00 do 250 w skali logarytmicznej, w której każdy krok oznacza dziesięciokrotny wzrost.
Znów widzimy dodatnią korelację: wzrost emisji CO2 oznacza też wzrost oczekiwanej długości życia.
Chwileczkę, czy to oznacza, że powinniśmy zarabiać więcej pieniędzy i zwiększać emisje dwutlenku węgla, żeby zagwarantować nam dłuższe życie? Niekoniecznie.
Korelacja nie oznacza od razu przyczynowości. Korelacja mówi nam tylko tyle, że istnieje jakiś rodzaj zależności między dwoma zbiorami wartości, ale nie tłumaczy nam, czym jest spowodowana ta zależność.
W tym przypadku korelacja prawdopodobnie wynika z innego, ukrytego powodu, który wpływa jednocześnie na wzrost obydwu wartości, na przykład z powodu ogólnego standardu życia.
W innych sytuacjach korelacja może być wynikiem tylko i wyłącznie przypadku. W internecie można znaleźć wiele zabawnych przykładów przypadkowych korelacji.
Znalezienie korelacji to dopiero pierwszy krok w procesie zrozumienia danych. Nie wskaże Ci od razu prawdziwej przyczyny, ale może nakierować Cię we właściwym kierunku przy poszukiwaniu możliwych przyczyn i eksperymentów, które pomogą znaleźć odpowiedzi na interesujące nas pytania.
Sprawdź swoją wiedzę
Our World In Data jest portalem non-profit, który gromadzi i wizualizuje dane dotyczące różnych światowych trendów.
Ich badania nad godzinami pracy zawierają ten wykres, który porównuje produktywność (PKB na godzinę pracy) ze średnią liczbą godzin przepracowanych przez osobę.
Które ze stwierdzeń najlepiej opisuje relację między produktywnością a godzinami pracy?
Wybierz 1 odpowiedź:

🙋🏽🙋🏻‍♀️🙋🏿‍♂️Czy masz jakieś pytania na ten temat? Chętnie na nie odpowiemy — wystarczy, że zadasz pytanie w poniższym obszarze pytań!

Chcesz dołączyć do dyskusji?

Na razie brak głosów w dyskusji
Rozumiesz angielski? Kliknij tutaj, aby zobaczyć więcej dyskusji na angielskiej wersji strony Khan Academy.