If you're seeing this message, it means we're having trouble loading external resources on our website.

Jeżeli jesteś za filtrem sieci web, prosimy, upewnij się, że domeny *.kastatic.org i *.kasandbox.org są odblokowane.

Główna zawartość

Obliczenia R-kwadrat

Obliczanie R-kwadrat, aby zobaczyć jak dobrze linia regresji pasuje do danych. Stworzone przez: Sal Khan.

Chcesz dołączyć do dyskusji?

Na razie brak głosów w dyskusji
Rozumiesz angielski? Kliknij tutaj, aby zobaczyć więcej dyskusji na angielskiej wersji strony Khan Academy.

Transkrypcja filmu video

. W ostatnim filmie udało nam się znaleźć równanie lini regresji dla tych 4 punktów To co chiałbym zrobić w tym filmie to obliczyć R kwadrat dla tych punktów. Sprawdzimy jak dobrze linia jest dopasowana do danych. A nawet więce, powiemy jaki odsetek - co jest de facto tym samym - zmienności tych punktów, a dokładniej - zmienności y wynika z, lub może zostać wytłumaczona zmiennością x. Aby to zrobić, uruchomię arkusz kalkulacyjny. Próbowałem to zrobić używając kalkulatora i jest to o wiele trudniejsze. Mam jednak nadzieję, że nie będzie to dla Ciebie problemem, że używamy arkusza. Zrobimy tu kilka kolumn. W rzeczywistości, w arkuszu istnieją funkcje, które zrobiłyby to automatycznie,jednak chciałbym zrobić to ręcznie tak byście byli w stanie zrobić to samodzielnie, jeśli zajdzie taka potrzeba Zrobię tu kilka kolumn To będzie kolumna x. To będzie moja kolumna y. Tę kolumnę nazwę y z gwiazdką, będą to wartości y prognozowane na podstawie x-ów. To będzie błąd względem linii nazwijmy to błąd kwadratowy względem linii. . Nie chcę by to zajęło zbyt dużo miejsca. . Teraz kolejna, będziemy tu mieli kwadrat zmienności y wzlędem średniej y. Myślę, że te kolumny wystarczą byśmy mogli wykonać wszystko. Zacznijmy od wpisania danych. A więc mamy (-2,-3) to był pierwszy punkt. (-1,-1) mieliśmy też (1,2) Dalej (4,3) Co prognozuje nasza linia? Nasza linia mówi, że jeśli wskażę jej wartość x, wyznaczy jaka jest prognozowana wartość y. Jeśli więc x = -2, wartość y na linii równa będzie współczynnikowi nachylenia będzie równe 41 dzielone przez 42 i mnożone przez wartość naszego x. Właśnie wybrałęm tę komórkę. Małe wprowadzenie do obsługi arkusza, wybieram komórkę D2. Mogłem przesunąć kursor i wybrać to i tak mam wartość x. - 5/21 Minus 5 dzielone przez 21. Po prostu. Raz jeszcze o tym co tu właściwie robimy. Tu mamy y z gwiazdką, wartość -2.19 To mówi nam, że w tym punkcie tutaj wartość to 2.19 Ustalmy więc wartość błędu, obliczmy odległość między -3, to jest naszym y a -2.19. Zróbmy to. A więc, błąd będzie równy naszej wartości y czyli komórce E2 . pomniejszonej o wartość przewidywaną przez linię. A więc ta wartość odpowiada błędowi. Tyle, że chcemy ją podnieść do kwadratu. . I teraz, kolejną rzeczą, którą chcemy uzyskać to kwadrat odległości, czyli kwadrat odległości pomiędzy y a wartością średnią y. Ile więc wynosi średnia y? Średnia y to 1/4 Odejmujemy więc 0.25, co jest tym samym co 1/4 I dalej chcemy to podnieść do kwadratu. Teraz, to co sprawia że arkusze są tak wygodne. Mogę zastosować te formuły do innych wierszy. Zauważ, co się dzieje gdy to robię. Nagle, to jest wartość y, którą przewiduje linia na podstawie wartości x wstawionej tutaj. Teraz obliczany jest kwadrat odległości od linii, przy wykorzystaniu tego co przewiduje linia i wartości y, tutaj. To samo dzieje się tutaj. Obliczany jest kwadrat odległości od tej wartości y do średniej. Jaki jest więc całkowity błąd kwadratowy względem linii? Zsumujmy to. Całkowity błąd kwadratowy względem linii to 2.73. I dalej, całkowita zmienność względem średniej, kwadrat odelgłości y-ów od średniej wynosi 22.75. Raz jeszcze powtórzę o czym mówimy. Przepiszmy te liczby. Będę pisał tutaj, tak byście mogli zerkać na wykres. A więc błąd kwadratowy względem linii, nasz całkowity błąd kwadratowy, zgodnie z tym co obliczyliśmy wynosi 2.74. Zaokrąglę to nieco. To co robimy, to dla każdego z naszych punktów bierzemy jego mierzoną w pionie odległosć od linii. Czyli, ta odległość do kwadratu plus ta odległość do kwadratu, plus ta odległość do kwadratu plus ta odległość do kwadratu. Przed chwilą obliczyliśmy to w Excelu. Całkowita zmienność względem linii do kwadratu to 2.74. Ewentualnie całkowity błąd kwadratowy względem linii. Dalej, kolejną wyznaczoną przez nas wartością jest całkowita odległość od średniej. Średnia wynosi tu 1/4. To będzie ta wartość tutaj. . To jest 1/2. O tutaj. . To nasza wartość średnia y. . lub też tendencja centralna naszych y. Dalej obliczyliśmy całkowity błąd, błąd kwadratowy y względem średniej. W naszym arkuszu policzyliśmy to o tutaj. Możesz zobaczyć wzór. Ta liczba E2 odjąć 0.25, co jest średnią naszych wartości y. Podnosimy to do kwadratu. Dokładnie to obliczyliśmy. Obliczyliśmy to dla każdego z punktów y. I zsumowaliśmy. W wyniku mamy 22.75. Wynosi to 22.75. W rzeczywostości jest to błąd, którego linia nie jest w stanie wytłumaczyć. To jest błąd całkowity, całkowita zmienność wartości. Jeśli chcesz wiedzieć jaka część całkowitej zmienności nie jest tłumaczona linią, możesz użyć tej liczby podzielonej przez tą liczbę. A więc 2.74 dzielone przez 22.75. To powie nam jaki odsetek całkowitej zmienności nie jest tłumaczony przez linię, inaczej - tłumaczony zmiennością x. . Ile więc wyniesie ta wartość? Mogę policzyć to przy pomocy Excela. Podzielę tę wartość, przez wartość stąd. Otrzymałem 0.12. A więc to jest równe 0.12. Można o tym myśleć tak: 12% całkowitej zmienności nie jest tłumaczone zmiennością x. Całkowity kwadrat odległości pomiędzy kolejnymi punktami, w pewnym sensie ich rozpiętość, ich zmienność, która nie jest tłumaczona zmiennością x. Jeśli chcesz wiedzieć, jaka część jest tłumaczona wariancją x, po prostu odejmujesz to od 1. Zapisze to tutaj. Czyli mamy nasze R kwadrat, które jest odsetkiem całkowitego zróżnicowania tłumaczonym przez x, będzie to 1 minus to 0.12, które przed chwilą obliczyliśmy. . Czyli będzie to 0.88. Nasze R kwadrat wynosi 0.88. Jest bardzo bliskie 1. 1 to najwyższa możliwa wartość. Oto czego się tu dowiadujemy, jak możemy to interpretować: 88% całkowitej zmienności wartości y jest tłumaczone przez linię prostą lub przez zmienność x. , Widać, że mamy tu całkiem niezłe dopasowanie. Żaden z tych nie jest zbyt daleko. . Każdy z tych punktów jest zdecydowanie bliższy linii niż średniej. . Rzeczywiście, każdy z nich znajduje się bliżej naszej linii, niż średniej. .