Korelacje wielokrotne dla trzech zmiennych
Aplet „Korelacje wielokrotne dla trzech zmiennych” ilustruje zjawisko pojawiające się w regresji wielorakiej (tu na przykładzie trzech zmiennych) a polegające na wspólnym wpływie zmiennych niezależnych na wariancję resztkową i współczynnik korelacji wielokrotnej (multiple coefficient of determination). Ogólnie współczynnik korelacji pomiędzy dwoma zmiennymi (wybranych z większego zbioru danych) i współczynnik dopasowania w regresji liniowej zależy od tego czy uwzględniamy również korelacje z innymi zmiennymi. W liniowej regresji wielorakiej przedstawiamy zmienną zależną „z” jako funkcję liniową zmiennych zależnych („x” i „y”): z=a1*x+a2*y+a3, gdzie a1,a2,a3 to pewne (najczęściej poszukiwane) współczynniki. Jakość dopasowania (metodą regresji) takiej prostej do zbioru punktów można wyrazić poprzez współczynnik determinacji R(z,xy) wyrażający się przez standardowe współczynniki korelacji par zmiennych zmiennych x,y,z: r_xy, r_xz oraz r_yz, które można łatwo estymować z posiadanej próbki. Kwadrat współczynnika determinacji R(z,xy)^2=(r_xz^2+ryz^2-2*r_xy*r_yz*r_xy)/(1-r_xy^2) można rozbić na trzy części (cząstkowe częściowe współczynniki korelacji, ang. semi-partial correlation coefficients r_z(x,y), r_z(y,x) oraz B. Dwa pierwsze mierzą wpływ na zależność zmiennej „z” zmiennej x (lub y) przy ustalonym y (lub x), a trzecia „B” pokazuje przyczynek zawierający równoczesny wpływ zmiennych x i y na z.
Prezentowany aplet wylicza te wielkości r_xz, r_yz, r_z(x,y)=(r_zx-r_zy*r_xy)/(sqrt(1-r_xy^2)) oraz r_z(y,x)=(r_zy-r_zx*r_xy)/(sqrt(1-r_xy^2)) oraz B= R(z,xy)^2- r_z(x,y)^2- r_z(y,x)^2 zatem użytkownik może ocenić przyczynki do współczynnika determinacji pochodzące z różnych źródeł. Dodatkowo róznica 1- R(z,xy)^2 pokazuje wpływ na współczynnik determinacji pochodzący wyłącznie od zmienności zmiennej „z”.
Korzystając z apletu można wczytać własny zbiór punktów (plik csv, zawierający w jednej linii trójkę punktów x_i,y_i,z_i oddzielone przecinkami; liczba linii odpowiada liczbie punktów używanych w regresji. Można również skorzystać z generatora punktów. Generator ten przygotowuje osobno zbiory punktów x, y oraz z. Po ustaleniu liczby punktów (trójek (x,y,z)) , dla każdej zmiennej x,y,z ustalamy zakres w jakim będą leżeć wylosowane wartości i sposób losowania. Do wyboru są następujące możliwości:
a) none – punkty ułożone są w kolejności wylosowania z rozkładu jednorodnego na zadanym przedziale,
b) inc - punkty losowane z rozkładu jednorodnego są następnie sortowane rosnąco,
c) dec - punkty losowane z rozkładu jednorodnego są następnie sortowane malejąco,
d) sin – punkty są losowane z rozkładu jednorodnego a następnie obliczmy z nich sinus i skalujemy
e) uni - punkty przyjmują stałą wartość z dodatkiem niewielkiego losowego zakłócenia
f) 2x+5y+k – tylko dla zmiennej „z” – zmienna wyliczana jest z podanego zbioru, a więc jest liniowo zależna od x i y, k to 0.1*(max_x+max_y)
Po wygenerowaniu punktów i naciśnięciu pola „RUN” aplet wylicza omówione powyżej miary zależności oraz generuje wykresy pokazujące rozkłady punktów w parach: y(x), z(x) i z(y).
Pracując z apletem, proszę w pierwszej kolejności przemyśleć wykresy – pozwalają one zrozumieć sposób generowania liczb. Przykładowo wybory opcji „inc” dla zmiennych x i y oraz „none” dla zmiennej „z” prowadzą do prawie liniowej, rosnącej zależności y(x) oraz nieskorelowanych zależności z(x) i z(y). Użycie dużej liczby punktów może pomóc w wizualizacji zbioru danych. Proszę zbadać jak miary zależności zależą od przygotowanych zbiorów. Znaczną część pracy z apletem powinno się wykonać na własnych zbiorach danych przygotowanych spójnie za założonymi współczynnikami korelacji.