Jeśli widzisz tę wiadomość oznacza to, że mamy problemy z załadowaniem zewnętrznych materiałów na naszej stronie internetowej.

If you're behind a web filter, please make sure that the domains *.kastatic.org and *.kasandbox.org are unblocked.

Główna zawartość

R-kwadrat - współczynnik determinacji

R-kwadrat, czyli współczynnik determinacji. Stworzone przez: Sal Khan.

Chcesz dołączyć do dyskusji?

Na razie brak głosów w dyskusji
Rozumiesz angielski? Kliknij tutaj, aby zobaczyć więcej dyskusji na angielskiej wersji strony Khan Academy.

Transkrypcja filmu video

. W kilku ostatnich filmach pokazaliśmy, że mając n punktów, każdy z nich o współrzędnych (x,y), narysujmy te punkty Ten punkt nazwijmy 1. Jego współrzędne to (x1,y1) Niech tu znajdzie się drugi punkt o współrzędnych (x2,y2). I tak rysujemy kolejne punkty aż dojdziemy do n-tego, który ma współrzędne (xn,yn) Widzieliśmy już, że możemy znaleźć linię prostą, która minimalizuje kwadrat odległości. . Ta linia tutaj, nazwę ją y, jest dana równaniem mx+b Istnieje linia dla której minimalny jest kwadrat odległości pomiędzy nią a punktami. Przypomnijmy czym jest wspomniany kwadrat odległości. Czasem nazywa się go błędem kwadratowym. Tutaj mamy błąd pomiędzy linią a punktem pierwszym. Nazwę go błędem 1. Tutaj mamy błąd pomiędzy linią a punktem 2. Nazwiemy go błędem drugim. To z kolei błąd pomiędzy linią a punktem n. Jeśli interesuje cię błąd całkowity, jeśli chcesz uzyskać całkowity błąd kwadratowy - to był punkt wyjścia naszej dyskusji - całkowity błąd kwadratowy pomiędzy punktami i linią prostą, po prostu sięgasz po wartości y w każdym z punktów Na przykład, bierzesz y1. To ta wartość tutaj, bierzesz y1 i odejmujesz wartość y w tym punkcie na linii. Wartość odpowiadająca linii, jest to wartość y, którą otrzymasz podstawiając x1 do równania. A więc podstawiam x1 do tego równania. Czyli odejmuję m x1 + b To tutaj, wartość y stąd. A tutaj mamy m x1+b. Nie chcę zbyt zaśmiecić wykresu. Dlatego usunę to. To jest błąd 1, o tutaj. Chcemy wyznaczyć błąd kwadratowy pomiędzy każdym z punktów a linią. Czyli, to jest błąd 1. Dalej robimy to samo dla kolejnego punktu. W ten sposób rozpoczęliśmy naszą dyskusję. y2 minus m x2 + b i to wszystko do kwadratu, itd. Postawię tu wielokropek, żeby jest tu wiele takich członów, które musimy wypisać aż dojdziemy do n-tego punktu - kontynuujemy aż do yn minus m xn + b do kwadratu. I teraz gdy już wiemy, jak wyznaczyć m i b. Widzieliście już odpowiednią formułę. Co więcej, widzieliście też jej dowód. Możemy wyznaczyć tę linię. I jeśli chcemy powiedzieć jak duży jest błąd możemy to policzyć. Znamy wartości m i b. Czyli możemy to obliczyć dla odpowiednich danych. Teraz, to co chciałbym zrobić, to znaleźć posiadającą interpretację miarę tego jak dobrze prosta dopasowana jest do naszych danych. W tym celu, zadamy sobie pytanie, jaką część zróżnicowania y można wytłumaczyć zróżnicowaniem x? Pomyślmy o tym. Jaką część całkowitego zróżnicowania y - wartości y oczywiście zmieniają się. Ta wartość y jest tutaj w tym punkcie y jest tutaj. Widać, że zróżnicowanie y jest duże. Ale jak wiele z tych różnic może zostać wytłumaczone zróżnicowaniem x? Lub opisane za pomocą linii? Pomyślmy o tym. Po pierwsze, jakie jest całkowite zróżnicowanie. Jakie jest całkowite zróżnicowanie y. Zastanówmy się, ile wynosi całkowite zróżnicowanie y. . To tylko narzędzie do pomiaru. . Gdy myślimy o zróżnicowaniu, i jest to prawdą równiez gdy mówiliśmy o wariancji, która jest przeciętnym zróżnicowaniem y. Jeśli myślisz o kwadracie odległości od pewnej wartości typowej, a najlepszą typową wartością, którą mamy dla y jest średnia arytmetyczna. Czyli możemy powiedzieć, że całkowte zróżnicowanie y to po prostu suma odchyleń dla każdego y. Czyli mamy y1 minus średnia dla wszystkich y i to do kwadratu. dodać y2 minus średnia dla wszystkich y podniesione do kwadratu. Dodać ... i tak dalej aż do n-tej wartości y. Aż do yn minus średnia dla wszystkich y podniesione do kwadratu. To daje Ci całkowite zróżnicowanie y. Po prostu bierzesz wszystkie wartości y. Obliczasz ich średnią. Otrzymujesz jakąś wartość, może znalazłaby się gdzieś tutaj. . Możesz tu zobrazować tak samo jak w przypadku błędu kwadratowego względem linii. Jeśli chcesz to narysować, możesz wyobrazić sobie linię, dla której y jest stale równe średniej z naszych y. Wyglądałoby to tak. To co chcemy zmierzyć, ten błąd tutaj, to kwadrat tej odległości. Pionowo pomiędzy tym punktem i tą linią. Drugi błąd to ta odległość. Prosto w górę do linii. Dla n-tego punktu to będzie odległość stąd w kirunku linii, o tutaj. Pomiędzy tymi są inne punkty. I to jest całkowite zróżnicowanie y. Brzmi sensownie. Jeśli podzielisz to przez n, otrzymasz to co znamy jako wariancję y, tj. średnią kwadratów odległości. Teraz, mamy całkowity kwadrat odległości To co chcemy wiedzieć to jaka część zróżnicowania y jest tłumaczona zróżnicowaniem x. Może możemy o ty myśleć w ten sposób. Nasz mianownik, chcemy wiedzieć jaka cześć całkowitego zróżnicowania y? Napiszmy to w ten sposób. Nazwijmy to błędem kwadratowym względem średniej. . Może jednak nazwę to błędem kwadratowym względem średniej y. I to jest właśnie całkowita zmienność y. Niech to będzie mianownik. Całkowita zmienność y, czyli błąd kwadratowy względem średniej y. Teraz chcemy widzieć jaki odsetek tej wartości jest tłumaczony zmiennością x. Teraz, czego zmienność x nie jest w stanie wyjaśnić? Chcemy wiedzieć jak wiele wyjaśnia zmienność x. A co gdybyśmy chcieli widzieć jaka cześć całkowitej zmienności nie jest wyjaśniana przez linię regresji? . Cóż, mamy już pewną miarę, która temu odpowiada. Mamy błąd kwadratowy względem linii. Który mówi nam o kwadracie odległości od każdego punktu do naszej linii. Dokładnie ta wartość mówi nam jaka część całkowitego zróżnicowania nie jest tłumaczona przez linię regresji. Jeśli więc chcesz wiedzieć jaka część całkowitego zróżnicowania nie jest tłumaczona przez linię regresji, będzie to błąd kwadratowy względem linii, ponieważ to własnie jest całkowita zmienność nie wytłumaczona przez linię regresji, podzielony przez całkowitą zmienność. Raz jeszcze, To tutaj, mówi nam jaki odsetek całkowitej zmienności y nie jest tłumaczony zmiennością x. . lub równoważnie, linią regresji. . Czyli jaka jest odpowiedź na nasze pytanie o odsetek tłumaczony zróżnicowaniem x? Cóż, cała reszta jest tłumaczona przez zróżnicowanie x. Ponieważ nasze pytanie brzmi - jaki jest odsetek całkowitego zróżnicowania który jest tłumaczony zróżnicowaniem x. To jest odsetek, który nie jest tłumacozny. Jeśli ta liczba wynosi 30%, jeśli 30% zróżnicowania y nie jest tłumaczone linią, wtedy reszta musi być tłumaczona linią. Czyl, moglibyśmy po prostu odjąć to od 1. Bierzemy więc 1 i odejmujemy błąd kwadratowy dla naszych punktów względem linii dzielony przez błąd kwadratowy dla punktów y i średniej y. To rzeczywiście, mówi nam jaki odsetek całkowitego zróżnicowania jest tłumaczony przez linię. Możesz o tym myśleć jako o części tłumaczonej przez linię lub przez zmiennosć x. . Ta liczba tutaj nazywana jest współczynnikiem determinacji. . Tak statystycy postanowili to nazwać. . Inną nazwą jest R kwadrat. Możliwe, że słyszałeś o tym pojęciu, gdy ktoś opowiadał o regresji. Pomyślmy o tym. Jeśli błąd kwadratowy jest naprawdę mały co to dla nas znaczy? To oznacza, że te błedy tutaj są naprawdę małe. Czyli linia jest bardzo dobrze dopasowana. . Napiszę to tutaj. Jeśli błąd kwadratowy względem linii jest mały, oznacza to, że linia jest dobrze dopasowana. . A co stanie się tutaj? Jeśli ta liczba jest bardzo mała, to tutaj będzie bardzo małym ułamkiem. 1 minus bardzo mały ułamek da liczbę bliską 1. Czyli teraz nasze R kwadrat będzie bliskie 1, co oznacza że duża część zmienności y jest tłumaczona zmiennością x. Ma to sens, bo przecież linia jest dobrze dopasowana. Weźmy sytuację odwrotną. Jeśli błąd kwadratowy względem linii jest duży, oznacza to, że duże są odległości pomiędzy punktami z danych, a linią. Jeśli ta liczba jest duża, również ta liczba będzie duża. Ten odsetek będzie bliski 1. I jeśli odejmiemy to od 1 otrzymamy wartość bliską 0. Czyli jeśli błąd kwadratowy względem linii jest duży, to tutaj będzie bliskie 1. A jeśli to będzie bliskie 1, współczynnik determinacji R kwadrat będzie bliski 0, co brzmi sensownie. . To mówi nam, że bardoz mała część zmienności y jest tłumaczona zmiennością x, tj. tłumaczona przez linię. W każdym razie, to czym zajmowaliśmy się ostatnio było nieco abstrakcyjne. W kolejnym filmie, przyjrzymy się pewnym danym i oszacujemy linię regresji. Policzymy także R kwadrat i zobaczymy jak dobre jest nasze dopasowanie. .