Główna zawartość
Podstawy informatyki - program rozszerzony
Kurs: Podstawy informatyki - program rozszerzony > Rozdział 5
Lekcja 1: Narzędzia analizy danychLiczenie podstawowych statystyk
Gdy mamy już dane zgromadzone w pliku tekstowym, arkuszu kalkulacyjnym lub bazie danych, możemy na ich podstawie obliczyć statystyki, które te dane opisują.
Istnieje wiele narzędzi, którym możemy użyć do analizy danych, w zależności od naszych potrzeb i umiejętności. Przejdziemy krok po kroku przez przykładową analizę, wykonaną za pomocą dwóch z najpopularniejszych narzędzi, czyli arkuszy kalkulacyjnych i SQL, abyś miał porównanie, które z nich odpowiada ci najbardziej. Naszym głównym celem jest dowiedzieć się czegoś przydatnego na temat danych, więc każde narzędzie, które potrafi dostarczyć nam dodatkowych informacji, jest do tego równie dobre.
Używanie funkcji statystycznych
Na początek najważniejsze: potrzebujemy danych. Ciągle słyszymy, że fast food jest dla nas szkodliwy, więc weźmy pod lupę dane dotyczące fast foodów i przekonajmy się sami, czy tak rzeczywiście jest. 🍔
Wprowadziliśmy już informacje o wartościach odżywczych dań z menu restauracji typu fast food do arkusza kalkulacyjnego Google oraz bazy danych SQL.
Teraz spróbujmy znaleźć odpowiedzi na kilka pytań dotyczących tych informacji...
Jak dużo jest danych?
Najbardziej podstawową statystyką dotyczącą danych jest liczba wierszy. To pierwsza rzecz, którą powinniśmy sprawdzić, ponieważ pomoże nam ona dowiedzieć się, w jakim stopniu nasze dane są (albo nie są) obszerne oraz lepiej zrozumieć wyliczone wyniki.
- W arkuszu kalkulacyjnym możemy sprawdzić liczbę wierszy po lewej lub użyć funkcji
COUNTA
. - W SQL, możemy użyć funkcji
COUNT
.
Jaka jest średnia wartość w kolumnach liczbowych?
By zrozumieć zakres wartości w danej kolumnie, możemy wyliczyć statystyki takie jak średnia arytmetyczna, jak również bardziej zaawansowane miary, na przykład mediana, dominanta i odchylenie standardowe.
- W arkuszu kalkulacyjnym użyj funkcji
AVERAGE
na wybranej kolumnie. - W SQL użyj funkcji
AVG
.
Jaka jest wartość minimalna i maksymalna w kolumnie?
Kolejny sposób na lepsze zrozumienie danych to znalezienie minimum oraz maksimum.
- W arkuszu kalkulacyjnym użyj funkcji
MIN/MAX
na wybranej kolumnie. - W SQL również użyj funkcji
MIN/MAX
.
Ile wynosi suma wszystkich wartości w kolumnie?
Czasami przydaje się podsumować wartości w kolumnie. Przykładowo wiele firm notuje wskaźniki mierzące ich potencjalny sukces finansowy, takich jak sprzedaż lub wyświetlenia strony. Podsumowanie tych wskaźników pomaga im ocenić, na ile dobrze sobie radzą w danym momencie.
- W arkuszu kalkulacyjnym użyj funkcji
SUM
na wybranej kolumnie. - W SQL również użyj funkcji
SUM
.
Filtrowanie danych
Jeśli chcemy policzyć statystyki dla części danych, używamy odpowiednich filtrów. Może być tak, że nie interesują nas w ogóle burgery, za to chcemy się dowiedzieć wszystkiego o szejkach.
Najprostszy filtr to taki, gdzie wybieramy wiersze, w których wartość dla danej kolumny jest równa innej, wybranej przez nas wartości. Przykładowo, możemy przefiltrować dane o fast foodach i wybrać tylko te wiersze, gdzie "typ" to "szejk".
- W arkuszu kalkulacyjnym użyj funkcji typu
IF
, na przykładCOUNTIF
by policzyć wiersze z daną wartością. Podobne funkcje toAVERAGEIF
,SUMIF
,MINIFS
,MAXIFS
. - W SQL użyj tych samych funkcji co dotychczas, ale dodaj klauzulę warunkową
WHERE
.
Filtry mogą być znacznie bardziej złożone. Filtr może używać warunków bazujących na tym, czy wartość jest większa lub mniejsza od innej wartości, na przykład
kalorie > 500
. Filtr może też łączyć razem warunki nałożone na wiele kolumn, na przykład kalorie > 500 AND wielkość_porcji < 200
. Wszystko zależy od tego, jak Ty chcesz podzielić i wybrać dane.Sumowanie według grup
Dotychczas liczyliśmy pojedyncze statystyki dla wszystkich danych lub jakiejś ich części. Czasem chcemy też sprawdzić zestawienie statystyk z podziałem na określone grupy, na przykład łączną liczbę dań serwowanych w każdej z restauracji albo średnią liczbę kalorii dla każdego typu dania.
- W arkuszu kalkulacyjnym stwórz tabelę przestawną, która grupuje dania według określonej kolumny i wyświetla wybrane statystyki dla niej.
- W SQL użyj
GROUP BY
na kolumnie.
Teraz, gdy potrafimy już tworzyć tabele podsumowujące statystyki według grup, możemy od razu odpowiedzieć na parę pytań.
🙋🏽🙋🏻♀️🙋🏿♂️Czy masz jakieś pytania na ten temat? Chętnie na nie odpowiemy — wystarczy, że zadasz pytanie w poniższym obszarze pytań!
Chcesz dołączyć do dyskusji?
Na razie brak głosów w dyskusji