Wykres kwantyl-kwantyl

Aplet „Wykres kwantyl-kwantyl” ilustruje metodę sprawdzania, czy dwie próbki losowe pochodzą z tego samego rozkładu prawdopodobieństwa. Metoda ta (ang. Q-Q plot) polega na przedstawieniu graficznym dwóch próbek w postaci punktów na wykresie. Jedne współrzędne (np. x) punktów buduje się bezpośrednio z mniejszej próbki, drugie współrzędne (np. y) buduje się poprzez interpolację większej próbki do kwantyli odpowiadających wartościom kwantyli w mniejszej próbie. Zatem interpolacji dokonujemy na większej próbie (proszę zastanowić się dlaczego). W poniższym aplecie wartości poziomów kwantyli wyznaczamy dla każdego elementu z każdej próbki (po uporządkowaniu) korzystając z estymatorów zaproponowanych przez Fillibena: kwantyl i-tego elementu uporządkowanej próbki o liczebności n to: 1-0.5^(1/n) dla i=1, (i-0.3175)/(n+0.365) dla i=2,3,…,n-1 oraz (0.5)^(1/n) dla i=n. Po przypisaniu każdemu elementowi z obu próbek wartości poziomu kwantyla interpolujemy (w poniższym aplecie liniowo pomiędzy dwoma sąsiednimi punktami) wartości większej próbki do wartości odpowiadających poziomom kwantyli dla mniejszej próbki.

Pracę z apletem rozpoczynamy od wyboru liczebności obu próbek nx i ny, za pomocą suwaków z lewej górnej strony. Następnie należy wybrać rodzaj rozkładu prawdopodobieństwa z którego losowana jest próba. Aplet pozwala na wylosowanie próbek z trzech rozkładów: normalnego N(mu,sigma^2) (należy wtedy podać dla każdego z rozkładów dwa parametry: wartość oczekiwaną „mu”==theta1 i odchylenie standardowe „sigma”==theta2), jednorodnego na przedziale [a,b] (należy wtedy podać te granice, a==theta1, b==theta2, a<b) oraz dyskretnego rozkładu Poissona (należy wtedy podać jeden parametr rozkładu theta1, wybrana wartość theta2 jest wtedy bez znaczenia). Po wyborze parametrów należy wybrać pole „CALCULATE”, pojawi się wtedy wykres, wynik regresji liniowej y=alfa * x+b beta do przedstawionych punktów oraz współczynnik korelacji punktów obliczony dla punktów przedstawionych na wykresie.

Uruchamiając aplet proszę zbadać jak zmienia się wykres i obliczane wielkości dla co najmniej pięciu przypadków:

a) oba rozkłady są takie same

b) rozkłady są tego samego typu, ale nieznacznie różnią się od siebie wartościami parametrów

c) rozkłady są tego samego typu i znacznie różnią się od siebie wartościami parametrów

d) rozkłady są różnych typów, ale są w pewien sposób zbliżone, np. N(0,2) i jednorodny (-3,3).

e) rozkłady są różnych typów i znacznie różnią się od siebie, np. jednorodny (-10,-5) i Poisson(4)

W każdym przypadku proszę zbadać, jak wyniki zależą od liczebności próbek. Najlepiej rozpocząć pracę z apletem od dużych liczebności np. nx=300 i ny=270, i stopniowo je zmniejszać. Proszę sprawdzić co zmienia się, gdy zamienimy próbki miejscami. Proszę również przeanalizować wartości wynikające z regresji liniowej do wszystkich punktów na wykresie (alfa, beta, współczynnik korelacji) w zależności od użytych rozkładów prawdopodobieństwa. Proszę wyjaśnić kształt wykresu w przypadku, gdy co najmniej jedna próbka pochodzi z rozkładu Poissona.

Otrzymywane wykresy zależą od rodzaju użytej interpolacji. Przykładowo, gdybyśmy oparli interpolację liniową o punkty skrajne korzystając z tych samych współczynników prostej dla każdego interpolowanego punktu (a nie jak w tej realizacji wyliczanych lokalnie dla każdego interpolowanego punktu) to otrzymamy inne ułożenie punktów. W szczególności dotyczy to sytuacji gdy mamy próbki pochodzące z dwóch różnych rozkładów. Proszę się zastanowić z czego to wynika. Osoby z zacięciem informatycznym zachęcam do napisania własnej wersji apletu, w której wykorzystana byłaby inna, tym razem nieliniowa, metoda interpolacji, np. oparta o funkcje sklejane (cubic splines).