Współczynnik korelacji 1

Aplet „Współczynnik korelacji 1” pozwala na zapoznanie się z własnościami współczynnika korelacji wliczanego dla n-elementowej próby punktów (x,y). W szczególności poprzez transformatę Fishera wyliczany jest przedział ufności dla współczynnika korelacji. Aplet pozwala również na zobaczenie empirycznej funkcji gęstości prawdopodobieństwa dla współczynnika korelacji otrzymywanej na bazie wielokrotnego losowania par punktów (x,y) z dwuwymiarowego rozkładu normalnego o korelacji zadanej przez użytkownika.
Aplet pracuje w dwóch trybach: „Plot” lub „Histogram”. W trybie „Plot” użytkownik wprowadza zbiór punktów (X,Y) a po uruchomieniu apletu („RUN”) aplet oblicza punktowy estymator współczynnika korelacji T(rho) (według wzorów podanych na wykładzie. Wynik ten wyświetlany jest poniżej wykresu w środku niepewności L_gamma<T(rho)<R_gamma . Pozostałe dwie liczby (L_gamma i R_gamma) to granice przedziału ufności dla współczynnika korelacji na poziomie ufności 0.8, 0.9 i 0.99 w kolejno pierwszej, drugiej i trzeciej linii. W celu obliczenia przedziału ufności dla współczynnika korelacji należy naprzód wyliczyć estymator punktowy T(rho), a następnie dokonać tzw. transformacji Fishera, tzn. obliczyć zmienną Z=0.5*ln( (1+T(rho))/(1-T(rho)) ) o której wiadomo, że przy liczebności próby dążącej do nieskończoności jej rozkład staje się standardowym rozkładem normalnym N(0,1). Można wtedy zbudować (zwykłymi metodami) przedział ufności na poziomie ufności gamma dla zmiennej Z: Z-Z_[(1+gamma)/2]*Sqrt(1/(n-3)) < Z < Z+Z_[(1+gamma)/2]*Sqrt(1/(n-3)), gdzie Z_[alfa] to kwantyl rozkładu N(0,1) na poziomie alfa, a n to liczebność próby. Następnie należy dokonać odwrotnej transformacji Fishera Z -> R= (exp(2*Z)-1)/(exp(2*Z)+1) dla obu krańców przedziału ufności zmiennej Z i otrzymać w ten sposób krańce przedziału ufności dla współczynnika korelacji L_gamma i R_gamma. W oznaczeniach użytych w aplecie CL (Confidence Interval) = gamma*100%.
Dodanie punktów (X,Y) można wykonać na trzy sposoby:
a) wpisując wartości współrzędnych punktów w polach „X-coord” i „Y-coord”, a następnie wybierając przycisk „Add Point”. Czynność tę należy powtórzyć dla wszystkich punktów z których będziemy wyznaczać estymator współczynnika korelacji.
b) dodając punkty za pomocą myszki. W tym celu należy naprzód wybrać opcję „Click ON” i następnie dodać punkt na wykresie poprzez kliknięcie myszką.
c) wczytując odpowiednie dane ze zbioru (opcja „Add file”): w kolejnych wierszach powinny być podane kolejno wartości X-coord, Y-coord, ErrorX, ErrorY oddzielone przecinkami. Przykładowe dwie linie zbioru wyglądają następująco:
1,8.3,0.1,4
2,17.3,0.2,3.5

W czasie wykonania apletu pomijane są wartości ErrorX, i ErrorY jednak zostały zachowane w strukturze zbioru aby możliwe było korzystanie z tego samego zbioru wejściowego np. w apletach dotyczących regresji. Punkty możemy usuwać przez równoczesne naciśnięcie klawisza „Ctrl” i kliknięciu na punkt myszką.
W trybie „Histogram” użytkownik ustala liczebność próbki („Size of sample”==n) i wartość („teoretyczną”) współczynnika korelacji rho (z przedziału (-1,1) ). Oprócz tego należy wybrać ile razy n-elementowa próbka par (X,Y) będzie losowana (parametr „N of samplings”==N) i wybrać „RUN”. Aplet dokona N krotnego losowania n-elementowej próbki par z dwuwymiarowego rozkładu normalnego o obu wartościach oczekiwanych 0, obu wariancjach równych 1 i współczynniku korelacji rho. Następnie dla każdej próbki obliczy estymator współczynnika korelacji, a potem narysuje histogram tych estymatorów unormowany tak, aby obrazować funkcję gęstości prawdopodobieństwa empirycznego współczynnika korelacji. Jak widać, dla zadanego rho różnego od zera są to mocno niesymetryczne rozkłady, dalekie od rozkładu normalnego. Widzimy, jak wraz ze wzrostem N histogram wygładza się. Aplet wypisuje także średnią wartość współczynnika korelacji (Average), modę rozkładu (mode), i kwartyle (1,2,3 quartile). Moda i kwartyle znalezione są na podstawie histogramu i stąd niepewności tych wartości dane są przez połowę szerokości histogramu w którym leżą estymatory tych wartości (centra odpowiednich słupków histogramu). Uwaga: przy dużej wartości N (powyżej 10^6) obliczenia wykonywane przez aplet mogą trwać długo (kilkanaście sekund i więcej).
Używając apletu proszę zbadać ile wynosi współczynnik korelacji dla różnych rozkładów punktów – np. punkty na okręgu i jak zmienia się współczynnik korelacji po dodaniu kolejnych punktów, np. punkty na okręgu + jeden punkt w różnych miejscach wewnątrz i poza okręgiem, punkty na okręgu + kilka (mało lub dużo) punktów leżących na prostej (poza okręgiem, lub przecinającej okrąg). Proszę zaobserwować też jak dla zbioru punktów leżącej (mniej więcej ) na prostej współczynnik korelacji zmienia się gdy dążymy do prostej leżącej poziomo lub prostej leżącej pionowo. (Dlaczego tak się dzieje? Wskazówka: proszę spojrzeć na wzór na estymator współczynnika korelacji).