Główna zawartość
Podstawy informatyki - program rozszerzony
Kurs: Podstawy informatyki - program rozszerzony > Rozdział 5
Lekcja 1: Narzędzia analizy danychZnajdowanie prawidłowości w zbiorach danych
Często zbieramy dane po to, by znaleźć ukryte w nich prawidłowości, takie jak tendencje wzrostowe albo korelacje między dwoma zbiorami liczb.
W zależności od danych i wzorców w nich zawartych, czasami potrafimy zauważyć te prawidłowości już w prostym zestawieniu liczb w tabeli. Innym razem potrzebujemy wspomóc się wizualizacją danych na wykresach, takich jak szeregi czasowe, wykresy liniowe lub punktowe.
Przyjrzymy się teraz bliżej kilku przykładom prawidłowości, które możemy znaleźć w danych wokół nas.
Wykrywanie trendów
Trend to zmiana wartości, która wykazuje ogólną tendencję w czasie: rosnącą lub malejącą.
Przyjrzyj się temu zestawieniu danych dotyczących liczby dzieci przypadających na kobietę w Indiach w latach 1955-2015:
Rok | Liczba dzieci / kobieta |
---|---|
1960 | 5.91 |
1970 | 5.59 |
1980 | 4.83 |
1990 | 4.05 |
2000 | 3.31 |
2010 | 2.60 |
W tym przypadku liczby stale maleją z dekady na dekadę, więc jest to przykład trendu spadkowego.
Teraz spójrz na dane dotyczące oczekiwanej długości życia w USA w latach 1920-2000:
Rok | Oczekiwana długość życia |
---|---|
1920 | 55,38 |
1930 | 59,57 |
1940 | 63,24 |
1950 | 68,07 |
1960 | 69,86 |
1970 | 70,86 |
1980 | 73,91 |
1990 | 75,4 |
2000 | 76,9 |
Źródło: Gapminder, Life expectancy at birth.
Tym razem liczby stale rosną z dekady na dekadę, więc jest to przykład trendu rosnącego.
Wizualizacja z pomocą wykresów
Spróbujmy rozpoznać trendy rosnące i malejące na wykresach, takich jak wykres szeregu czasowego.
Ten wykres od GapMinder przedstawia graficznie liczbę dzieci na jedną kobietę w Indiach, tym razem bazując na danych zebranych w każdym roku zamiast według dekad:
Na wykresie widać wyraźny trend spadkowy i od 1968 roku wydaje się on być niemal całkowicie liniowy.
📉 Decyzje przy tworzeniu wykresów: Zakres wartości osi X to 1960-2010, natomiast osi y od 2.6 do 5.9. Czy trend byłby tak samo widoczny w przypadku inaczej dobranych wartości na osiach? Przekonaj się sam, eksperymentując z ustawieniami wykresu na stronie GapMinder.
To kolejny wykres od GapMinder, pokazujący oczekiwaną długość życia z rozbiciem na poszczególne lata zamiast dekad:
Trend nie jest tak wyraźnie rosnący w początkowych dziesięcioleciach, gdy skacze w dół i w górę, ale staje się oczywisty w kolejnych latach.
📉 Decyzje przy tworzeniu wykresów: Zakres wartości osi x to 1920-2000, natomiast oś y zaczyna się od 55. Jak te konkretne wybory wpływają na naszą interpretację wykresu? Spróbuj je zmienić na stronie GapMinder i przekonaj się sam.
Wahania statystyczne
Google Trends to strona, która wizualizuje popularność poszczególnych haseł wyszukiwanych w Google w miarę upływu czasu.
Możemy użyć Google Trends, by sprawdzić popularność hasła "data science", nowej dziedziny łączącej w sobie statystyczną analizę danych i umiejętności programowania.
Tak wygląda ich wykres dla hasła "data science" od kwietnia 2014 do kwietnia 2019:
Wykres ten pokazuje dużą liczbę fluktuacji (wahań) w ciągu czasu (wraz z corocznymi dużymi spadkami w okolicach Bożego Narodzenia). Zarazem pokazuje on też dość wyraźną tendencję wzrostową w czasie.
Gdy mamy do czynienia z wahaniami danych jak w tym przykładzie, możemy wyliczyć "linię trendu" i nałożyć ją na wykres (lub sprawić, że aplikacja do tworzenia wykresów zrobi to za nas). Linia trendu wygładza dane i sprawia, że ogólny trend jest lepiej widoczny, jeśli takowy w ogóle występuje.
A oto ten sam wykres z dodaną linią trendu:
Tak jak się spodziewaliśmy, linia trendu pokazuje bardzo wyraźny trend rosnący. Pomogło również to, że zdecydowaliśmy się zwizualizować dane dla tak długiego przedziału czasowego, ponieważ występują w nich w ciągu roku sezonowe wahania.
Zawsze gdy analizujesz i wizualizujesz dane, pamiętaj by gromadzić takie dane, które uwzględnią okresowe wahania. W danych zależnych od czasu często występują fluktuacje w okolicach weekendów (z powodu różnic między dniami powszednimi i weekendem) oraz pór roku.
Tworzenie prognoz
Jednym z celów analizy danych jest prognozowanie przyszłości.
Przyjrzyjmy się tym danym dotyczącym średniego czesnego na prywatnych uczelniach:
Rok szkolny | Czesne |
---|---|
2011-12 | $30,210 |
2012-13 | $30,970 |
2013-14 | $31,570 |
2014-15 | $32,140 |
2015-16 | $33,180 |
2016-17 | $34,100 |
Widzimy wyraźnie, że liczby te rosną każdego roku od 2011 do 2016. By stworzyć prognozę, musimy najpierw dowiedzieć się, jakie jest tempo zmian tych wartości.
Jednym ze sposobów jest obliczenie dla każdego roku procentowej zmiany względem poprzedniego roku. To jest ta sama tabela z wyliczeniami umieszczonymi w trzeciej kolumnie:
Rok szkolny | Czesne | Roczna zmiana w % |
---|---|---|
2011-12 | $30,210 | |
2012-13 | $30,970 | 2.5% |
2013-14 | $31,570 | 1.9% |
2014-15 | $32,140 | 1.8% |
2015-16 | $33,180 | 3.2% |
2016-17 | $34,100 | 2.8% |
Warto też zwizualizować rosnące liczby na wykresie:
Gdyby przyrost był stały (a linia wykresu idealnie prosta), wtedy przewidzenie kolejnych wartości byłoby bardzo łatwe. Jednak w tym przypadku wzrost waha się między 1,8% a 3,2%, więc prognoza nie jest taka oczywista.
Wypróbujmy kilku sposobów na stworzenie prognozy dla lat 2017-2018:
Strategia | Prognozowana zmiana | Prognozowane czesne |
---|---|---|
Ostatnia zmiana | 2.8% | $35,054 |
Średnia z 3 ostatnich zmian | 2.6% | $34,986.6 |
Średnia wszystkich zmian | 2.44% | $34,932.04 |
Która strategia jest Twoim zdaniem najlepsza? Okazuje się, że faktyczna średnia wysokość czesnego w latach 2017-2018 wyniosła $34,740. Zwiększyła się zaledwie o 1.9%, czyli mniej niż w którejkolwiek z naszych prognoz. Najbardziej trafna okazała się strategia, w której uśrednialiśmy wszystkie wartości.
Statystycy i analitycy danych często używają techniki nazywanej regresją liniową, która znajduje prostą najlepiej pasującą do danych, dzięki czemu możemy przewidzieć przyszłe wartości w oparciu o przebieg tej prostej. Na podstawie powyższych danych regresja liniowa też przewiduje wzrost o 2,44%.
Jak możemy stworzyć trafniejsze prognozy? Moglibyśmy zebrać więcej danych i wziąć je pod uwagę w naszym dotychczasowym modelu, na przykład zastanowić się nad wpływem wzrostu gospodarczego na wzrost czesnego.
Na koniec musimy zrozumieć, że prognoza jest niczym więcej niż tylko prognozą. Więcej danych i lepsze metody pomagają nam skuteczniej przewidywać przyszłość, ale nic nie zagwarantuje nam nieomylnej prognozy.
Znajdowanie korelacji
Kolejnym celem analizy danych jest wyliczanie korelacji, czyli statystycznej zależności między dwoma zbiorami liczb.
Korelacja może być dodatnia, ujemna lub może w ogóle nie występować. Powszechnym sposobem na wizualizację korelacji dwóch zbiorów liczb jest wykres punktowy.
Istnieje dodatnia korelacja pomiędzy temperaturą na zewnątrz a sprzedażą lodów:
Istnieje ujemna korelacja pomiędzy panującą temperaturą a sprzedażą zup:
Nie ma żadnej korelacji pomiędzy temperaturą a sprzedażą soli:
Statystycy i analitycy danych zazwyczaj zapisują korelację jako wartość pomiędzy minus, 1 a 1, gdzie minus, 1 oznacza silną korelację ujemną, 1 silną korelację dodatnią, z kolei 0 brak korelacji. Możesz dowiedzieć się więcej na temat współczynników korelacji na Khan Academy.
Wariancja zwizualizowana na wykresie punktowym jest wykresem bąbelkowym, gdzie rozmiar bąbelka zależy od trzeciego wymiaru danych.
To jest wykres bąbelkowy z GapMinder, który zestawia przychody z oczekiwaną długością życia, gdzie każdy bąbelek odpowiada danemu krajowi i jego populacji:
📉 Decyzje przy tworzeniu wykresów: Kolory kropek oznaczają kontynenty, gdzie zielony odpowiada obu Amerykom, żółty Europie, niebieski reprezentuje Afrykę, a czerwony Azję. Zakres wartości osi y to 19-86, natomiast wartości na osi x to 400-96,000 w skali logarytmicznej, zwiększającej się dwukrotnie z każdym krokiem. Skala logarytmiczna jest często stosowana do reprezentowania danych o dużym rozrzucie wartości.
Wraz z zajmowaniem przez dany kraj coraz wyższej pozycji na osi dochodu, rośnie też oczekiwana długość życia jego obywateli. Istnieje dodatnia korelacja pomiędzy poziomem dochodu a oczekiwaną długością życia.
Kolejny wykres bąbelkowy z GapMinder, tym razem zestawiający poziom emisji CO2 z oczekiwaną długością życia:
📉 Decyzje przy tworzeniu wykresów: Tym razem wartości na osi x rosną od 0.00 do 250 w skali logarytmicznej, w której każdy krok oznacza dziesięciokrotny wzrost.
Znów widzimy dodatnią korelację: wzrost emisji CO2 oznacza też wzrost oczekiwanej długości życia.
Chwileczkę, czy to oznacza, że powinniśmy zarabiać więcej pieniędzy i zwiększać emisje dwutlenku węgla, żeby zagwarantować nam dłuższe życie? Niekoniecznie.
Korelacja nie oznacza od razu przyczynowości. Korelacja mówi nam tylko tyle, że istnieje jakiś rodzaj zależności między dwoma zbiorami wartości, ale nie tłumaczy nam, czym jest spowodowana ta zależność.
W tym przypadku korelacja prawdopodobnie wynika z innego, ukrytego powodu, który wpływa jednocześnie na wzrost obydwu wartości, na przykład z powodu ogólnego standardu życia.
W innych sytuacjach korelacja może być wynikiem tylko i wyłącznie przypadku. W internecie można znaleźć wiele zabawnych przykładów przypadkowych korelacji.
Znalezienie korelacji to dopiero pierwszy krok w procesie zrozumienia danych. Nie wskaże Ci od razu prawdziwej przyczyny, ale może nakierować Cię we właściwym kierunku przy poszukiwaniu możliwych przyczyn i eksperymentów, które pomogą znaleźć odpowiedzi na interesujące nas pytania.
🙋🏽🙋🏻♀️🙋🏿♂️Czy masz jakieś pytania na ten temat? Chętnie na nie odpowiemy — wystarczy, że zadasz pytanie w poniższym obszarze pytań!
Chcesz dołączyć do dyskusji?
Na razie brak głosów w dyskusji