If you're seeing this message, it means we're having trouble loading external resources on our website.

Jeżeli jesteś za filtrem sieci web, prosimy, upewnij się, że domeny *.kastatic.org i *.kasandbox.org są odblokowane.

Główna zawartość

Znajdowanie prawidłowości w zbiorach danych

Często zbieramy dane po to, by znaleźć ukryte w nich prawidłowości, takie jak tendencje wzrostowe albo korelacje między dwoma zbiorami liczb.
W zależności od danych i wzorców w nich zawartych, czasami potrafimy zauważyć te prawidłowości już w prostym zestawieniu liczb w tabeli. Innym razem potrzebujemy wspomóc się wizualizacją danych na wykresach, takich jak szeregi czasowe, wykresy liniowe lub punktowe.
Przyjrzymy się teraz bliżej kilku przykładom prawidłowości, które możemy znaleźć w danych wokół nas.

Wykrywanie trendów

Trend to zmiana wartości, która wykazuje ogólną tendencję w czasie: rosnącą lub malejącą.
Przyjrzyj się temu zestawieniu danych dotyczących liczby dzieci przypadających na kobietę w Indiach w latach 1955-2015:
RokLiczba dzieci / kobieta
19605.91
19705.59
19804.83
19904.05
20003.31
20102.60
W tym przypadku liczby stale maleją z dekady na dekadę, więc jest to przykład trendu spadkowego.
Teraz spójrz na dane dotyczące oczekiwanej długości życia w USA w latach 1920-2000:
RokOczekiwana długość życia
192055,38
193059,57
194063,24
195068,07
196069,86
197070,86
198073,91
199075,4
200076,9
Tym razem liczby stale rosną z dekady na dekadę, więc jest to przykład trendu rosnącego.

Wizualizacja z pomocą wykresów

Spróbujmy rozpoznać trendy rosnące i malejące na wykresach, takich jak wykres szeregu czasowego.
Ten wykres od GapMinder przedstawia graficznie liczbę dzieci na jedną kobietę w Indiach, tym razem bazując na danych zebranych w każdym roku zamiast według dekad:
Wykres liniowy z latami na osi x oraz liczbą dzieci na kobietę na osi y. Oś x ma zakres od 1960 do 2010, a oś y ma zakres od 2.6 do 5.9. Linia zaczyna się na wartości 5.9 dla roku 1960 i schodzi w dół, aż osiąga wartość 2.5 w roku 2010.
Na wykresie widać wyraźny trend spadkowy i od 1968 roku wydaje się on być niemal całkowicie liniowy.
📉 Decyzje przy tworzeniu wykresów: Zakres wartości osi X to 1960-2010, natomiast osi y od 2.6 do 5.9. Czy trend byłby tak samo widoczny w przypadku inaczej dobranych wartości na osiach? Przekonaj się sam, eksperymentując z ustawieniami wykresu na stronie GapMinder.
To kolejny wykres od GapMinder, pokazujący oczekiwaną długość życia z rozbiciem na poszczególne lata zamiast dekad:
Wykres liniowy z latami na osi x oraz oczekiwaną długością życia na osi y. Oś x ma zakres od 1920 do 2000, a oś y ma zakres od 55 do 77. Linia zaczyna się na wartości 55 dla roku 1920 i idzie w górę (z pewnymi wahaniami), osiągając wartość 77 w roku 2000.
Trend nie jest tak wyraźnie rosnący w początkowych dziesięcioleciach, gdy skacze w dół i w górę, ale staje się oczywisty w kolejnych latach.
📉 Decyzje przy tworzeniu wykresów: Zakres wartości osi x to 1920-2000, natomiast oś y zaczyna się od 55. Jak te konkretne wybory wpływają na naszą interpretację wykresu? Spróbuj je zmienić na stronie GapMinder i przekonaj się sam.
Sprawdź swoją wiedzę
Wiele portali (w tym Khan Academy!) używa Google Analytics, by śledzić i analizować zachowania swoich użytkowników.
Ten wykres Google Analytics pokazuje liczbę odsłon strony naszego kursu statystyki liczonych od października 2017 roku aż do czerwca 2018 roku:
Wykres liniowy z miesiącami na osi x i liczbą wyświetleń strony na osi y. Wartości na osi x mają zakres od października 2017 do czerwca 2018. Wartości na osi y mają zakres od 0 do 1.5. Wykres zaczyna się w okolicach wartości 250,000 i pozostaje blisko tej wartości aż do grudnia 2017. Następnie linia idzie do góry, aż osiąga wartość 1 miliona w maju 2018. Po tym zaczyna spadać aż do ostatniego miesiąca.
Jakie trendy są wyraźnie widoczne na tym wykresie?
Wybierz 1 odpowiedź:

Wahania statystyczne

Google Trends to strona, która wizualizuje popularność poszczególnych haseł wyszukiwanych w Google w miarę upływu czasu.
Możemy użyć Google Trends, by sprawdzić popularność hasła "data science", nowej dziedziny łączącej w sobie statystyczną analizę danych i umiejętności programowania.
Tak wygląda ich wykres dla hasła "data science" od kwietnia 2014 do kwietnia 2019:
Wykres liniowy z czasem na osi x i popularnością na osi y. Oś x zawiera przedział od kwietnia 2014 do kwietnia 2019, a oś y wartości od 0 do 100. Mocno postrzępiona linia zaczyna się w okolicach 12 i rośnie, aż kończy się na wartości 80.
Wykres ten pokazuje dużą liczbę fluktuacji (wahań) w ciągu czasu (wraz z corocznymi dużymi spadkami w okolicach Bożego Narodzenia). Zarazem pokazuje on też dość wyraźną tendencję wzrostową w czasie.
Gdy mamy do czynienia z wahaniami danych jak w tym przykładzie, możemy wyliczyć "linię trendu" i nałożyć ją na wykres (lub sprawić, że aplikacja do tworzenia wykresów zrobi to za nas). Linia trendu wygładza dane i sprawia, że ogólny trend jest lepiej widoczny, jeśli takowy w ogóle występuje.
A oto ten sam wykres z dodaną linią trendu:
Wykres liniowy z czasem na osi x i popularnością na osi y. Oś x zawiera przedział od kwietnia 2014 do kwietnia 2019, a oś y wartości od 0 do 100. Mocno postrzępiona linia zaczyna się w okolicach 12 i rośnie, aż kończy się na wartości 80. Na wystrzępioną linię została nałożona prosta linia, zaczynająca się i kończąca obok tych samych wartości, co linia wystrzępiona.
Tak jak się spodziewaliśmy, linia trendu pokazuje bardzo wyraźny trend rosnący. Pomogło również to, że zdecydowaliśmy się zwizualizować dane dla tak długiego przedziału czasowego, ponieważ występują w nich w ciągu roku sezonowe wahania.
Zawsze gdy analizujesz i wizualizujesz dane, pamiętaj by gromadzić takie dane, które uwzględnią okresowe wahania. W danych zależnych od czasu często występują fluktuacje w okolicach weekendów (z powodu różnic między dniami powszednimi i weekendem) oraz pór roku.

Tworzenie prognoz

Jednym z celów analizy danych jest prognozowanie przyszłości.
Przyjrzyjmy się tym danym dotyczącym średniego czesnego na prywatnych uczelniach:
Rok szkolnyCzesne
2011-12$30,210
2012-13$30,970
2013-14$31,570
2014-15$32,140
2015-16$33,180
2016-17$34,100
Widzimy wyraźnie, że liczby te rosną każdego roku od 2011 do 2016. By stworzyć prognozę, musimy najpierw dowiedzieć się, jakie jest tempo zmian tych wartości.
Jednym ze sposobów jest obliczenie dla każdego roku procentowej zmiany względem poprzedniego roku. To jest ta sama tabela z wyliczeniami umieszczonymi w trzeciej kolumnie:
Rok szkolnyCzesneRoczna zmiana w %
2011-12$30,210
2012-13$30,9702.5%
2013-14$31,5701.9%
2014-15$32,1401.8%
2015-16$33,1803.2%
2016-17$34,1002.8%
Warto też zwizualizować rosnące liczby na wykresie:
Wykres liniowy z latami na osi x oraz koszt studiów na osi y. Oś x obejmuje lata 2011–2016, a oś y obejmuje wartości od 30 000 do 35 000. Na osi jest łącznie 6 kropek (po jednej dla każdego roku), kropki rosną wraz ze wzrostem lat. Linia łączy kropki.
Gdyby przyrost był stały (a linia wykresu idealnie prosta), wtedy przewidzenie kolejnych wartości byłoby bardzo łatwe. Jednak w tym przypadku wzrost waha się między 1,8% a 3,2%, więc prognoza nie jest taka oczywista.
Wypróbujmy kilku sposobów na stworzenie prognozy dla lat 2017-2018:
StrategiaPrognozowana zmianaPrognozowane czesne
Ostatnia zmiana2.8%$35,054
Średnia z 3 ostatnich zmian2.6%$34,986.6
Średnia wszystkich zmian2.44%$34,932.04
Która strategia jest Twoim zdaniem najlepsza? Okazuje się, że faktyczna średnia wysokość czesnego w latach 2017-2018 wyniosła $34,740. Zwiększyła się zaledwie o 1.9%, czyli mniej niż w którejkolwiek z naszych prognoz. Najbardziej trafna okazała się strategia, w której uśrednialiśmy wszystkie wartości.
Statystycy i analitycy danych często używają techniki nazywanej regresją liniową, która znajduje prostą najlepiej pasującą do danych, dzięki czemu możemy przewidzieć przyszłe wartości w oparciu o przebieg tej prostej. Na podstawie powyższych danych regresja liniowa też przewiduje wzrost o 2,44%.
Jak możemy stworzyć trafniejsze prognozy? Moglibyśmy zebrać więcej danych i wziąć je pod uwagę w naszym dotychczasowym modelu, na przykład zastanowić się nad wpływem wzrostu gospodarczego na wzrost czesnego.
Na koniec musimy zrozumieć, że prognoza jest niczym więcej niż tylko prognozą. Więcej danych i lepsze metody pomagają nam skuteczniej przewidywać przyszłość, ale nic nie zagwarantuje nam nieomylnej prognozy.

Znajdowanie korelacji

Kolejnym celem analizy danych jest wyliczanie korelacji, czyli statystycznej zależności między dwoma zbiorami liczb.
Korelacja może być dodatnia, ujemna lub może w ogóle nie występować. Powszechnym sposobem na wizualizację korelacji dwóch zbiorów liczb jest wykres punktowy.
Istnieje dodatnia korelacja pomiędzy temperaturą na zewnątrz a sprzedażą lodów:
A scatter plot with temperature on the x axis and sales amount on the y axis. The x axis goes from 0 degrees Celsius to 30 degrees Celsius, and the y axis goes from 0, t, o800. 19 dots are scattered on the plot, with the dots generally getting higher as the x axis increases.
Gdy temperatura rośnie, rośnie również liczba sprzedawanych lodów.
Istnieje ujemna korelacja pomiędzy panującą temperaturą a sprzedażą zup:
A scatter plot with temperature on the x axis and sales amount on the y axis. The x axis goes from 0 degrees Celsius to 30 degrees Celsius, and the y axis goes from 0, t, o800. 19 dots are scattered on the plot, with the dots generally getting lower as the x axis increases.
Wraz ze wzrostem temperatury spada sprzedaż zup.
Nie ma żadnej korelacji pomiędzy temperaturą a sprzedażą soli:
A scatter plot with temperature on the x axis and sales amount on the y axis. The x axis goes from 0 degrees Celsius to 30 degrees Celsius, and the y axis goes from 0, t, o800. 19 dots are scattered on the plot, all between 350, a, n, d750. There is no particular slope to the dots, they are equally distributed in that range for all temperature values.
Wzrost temperatury nie jest powiązany z poziomem sprzedaży soli.
Statystycy i analitycy danych zazwyczaj zapisują korelację jako wartość pomiędzy minus, 1 a 1, gdzie minus, 1 oznacza silną korelację ujemną, 1 silną korelację dodatnią, z kolei 0 brak korelacji. Możesz dowiedzieć się więcej na temat współczynników korelacji na Khan Academy.
Wariancja zwizualizowana na wykresie punktowym jest wykresem bąbelkowym, gdzie rozmiar bąbelka zależy od trzeciego wymiaru danych.
To jest wykres bąbelkowy z GapMinder, który zestawia przychody z oczekiwaną długością życia, gdzie każdy bąbelek odpowiada danemu krajowi i jego populacji:
A bubble plot with income on the x axis and life expectancy on the y axis. The x axis goes from 400 to 128,000, using a logarithmic scale that doubles at each tick. The y axis goes from 19 to 86. Bubbles of various colors and sizes are scattered across the middle of the plot, getting generally higher as the x axis increases.
📉 Decyzje przy tworzeniu wykresów: Kolory kropek oznaczają kontynenty, gdzie zielony odpowiada obu Amerykom, żółty Europie, niebieski reprezentuje Afrykę, a czerwony Azję. Zakres wartości osi y to 19-86, natomiast wartości na osi x to 400-96,000 w skali logarytmicznej, zwiększającej się dwukrotnie z każdym krokiem. Skala logarytmiczna jest często stosowana do reprezentowania danych o dużym rozrzucie wartości.
Wraz z zajmowaniem przez dany kraj coraz wyższej pozycji na osi dochodu, rośnie też oczekiwana długość życia jego obywateli. Istnieje dodatnia korelacja pomiędzy poziomem dochodu a oczekiwaną długością życia.
Kolejny wykres bąbelkowy z GapMinder, tym razem zestawiający poziom emisji CO2 z oczekiwaną długością życia:
A bubble plot with CO2 emissions on the x axis and life expectancy on the y axis. The x axis goes from 0 to 100, using a logarithmic scale that goes up by a factor of 10 at each tick. The y axis goes from 19 to 86. Bubbles of various colors and sizes are scattered across the middle of the plot, starting around a life expectancy of 60 and getting generally higher as the x axis increases.
📉 Decyzje przy tworzeniu wykresów: Tym razem wartości na osi x rosną od 0.00 do 250 w skali logarytmicznej, w której każdy krok oznacza dziesięciokrotny wzrost.
Znów widzimy dodatnią korelację: wzrost emisji CO2 oznacza też wzrost oczekiwanej długości życia.
Chwileczkę, czy to oznacza, że powinniśmy zarabiać więcej pieniędzy i zwiększać emisje dwutlenku węgla, żeby zagwarantować nam dłuższe życie? Niekoniecznie.
Korelacja nie oznacza od razu przyczynowości. Korelacja mówi nam tylko tyle, że istnieje jakiś rodzaj zależności między dwoma zbiorami wartości, ale nie tłumaczy nam, czym jest spowodowana ta zależność.
W tym przypadku korelacja prawdopodobnie wynika z innego, ukrytego powodu, który wpływa jednocześnie na wzrost obydwu wartości, na przykład z powodu ogólnego standardu życia.
W innych sytuacjach korelacja może być wynikiem tylko i wyłącznie przypadku. W internecie można znaleźć wiele zabawnych przykładów przypadkowych korelacji.
Znalezienie korelacji to dopiero pierwszy krok w procesie zrozumienia danych. Nie wskaże Ci od razu prawdziwej przyczyny, ale może nakierować Cię we właściwym kierunku przy poszukiwaniu możliwych przyczyn i eksperymentów, które pomogą znaleźć odpowiedzi na interesujące nas pytania.
Sprawdź swoją wiedzę
Our World In Data jest portalem non-profit, który gromadzi i wizualizuje dane dotyczące różnych światowych trendów.
Ich badania nad godzinami pracy zawierają ten wykres, który porównuje produktywność (PKB na godzinę pracy) ze średnią liczbą godzin przepracowanych przez osobę.
A bubble plot with productivity on the x axis and hours worked on the y axis. The x axis goes from $0/hour to $100/hour. The y axis goes from 1,400 to 2,400 hours. Bubbles of various colors and sizes are scattered on the plot, starting around 2,400 hours for $2/hours and getting generally lower on the plot as the x axis increases.
Które ze stwierdzeń najlepiej opisuje relację między produktywnością a godzinami pracy?
Wybierz 1 odpowiedź:


🙋🏽🙋🏻‍♀️🙋🏿‍♂️Czy masz jakieś pytania na ten temat? Chętnie na nie odpowiemy — wystarczy, że zadasz pytanie w poniższym obszarze pytań!

Chcesz dołączyć do dyskusji?

Na razie brak głosów w dyskusji
Rozumiesz angielski? Kliknij tutaj, aby zobaczyć więcej dyskusji na angielskiej wersji strony Khan Academy.