Test Shapiro-Wilka

Aplet wykonuje przedstawiony na wykładzie test Shapiro-Wilka, badający czy próbka pochodzi z rozkładu normalnego. Dane można wczytać z pliku lub wylosować z dwóch rozkład prawdopodobieństwa: normalnego lub jednorodnego. W przypadku, gdy używamy wbudowanych generatorów należy wybrać z listy rodzaj rozkładu, którego chcemy używać („normal” lub „uniform”), a następnie za pomocą suwaków wybrać liczebność próbki „n” oraz parametry rozkładów. Parametry te to wartość oczekiwana „mu” i odchylenie standardowe „sigma” dla rozkładu normalnego oraz granice przedziałów „a” i „b” dla rozkładu jednorodnego a<=x<=b. W przypadku gdy wczytujemy dane ze zbioru należy z listy wybrać pole „file”, wybrać plik i wczytać dane. Plik powinien zawierać w kolejnych wierszach po jednej wartości zmiennej losowej. Wartości te nie muszą być posortowane. Maksymalny rozmiar próby to n=50. Uwaga: na końcu pliku nie może być pustej linii, gdyż zostanie wczytana jako zero i zmieni wynik obliczeń.

Po ustaleniu danych naciskając panel „CALCULATE” wykonujemy obliczenia i na ekranie wypisywane są wyniki: konkluzja testu oraz wartość W – jest to obliczona z próby wartość statystyki testowej dla testu Shapiro-Wilka. Dodatkowo wypisywane są wartości P dla poziomów istotności 1%, 5% i 10%, na podstawie których budowana jest konkluzja testu. Aplet wypisuje także elementy próby.

Jak można przypuszczać gdy losujemy próbę z rozkładu normalnego test zwykle wskazuje konkluzję, że próba pochodzi z takiego rozkładu. Proszę się zastanowić dlaczego czasami konkluzja jest inna? W przypadku losowania z rozkładu jednorodnego konkluzja w dużym stopniu zależy od liczebności próby – proszę zaobserwować to dla liczebności n=6, n=30 i n=50. Proszę wyjaśnić dlaczego tak jest.

Zachęcam Państwa do zbadania:

1. Jak wyniki testu (otrzymywane wartości statystyki testowej W) zależą od liczebności próby? Proszę to sprawdzić dla obu możliwości losowania próby. W obu przypadkach proszę badać liczebności próby w zakresie 2<n<51. Dla kilku wybranych wartości n proszę wielokrotnie powtórzyć testy i zaobserwować uzyskiwaną średnią wartość statystyki W i jej odchylenie standardowe (to trzeba obliczyć samodzielnie na podstawie otrzymywanych wyników W).

2. Proszę zaobserwować jakie wartości statystyki testowej W otrzymujemy dla małej wartości (np. n=3) i jak ich wartość zależy od wylosowanych elementów próbki. Inaczej mówiąc, kiedy wynik testu będzie wskazywał na pochodzenie próbki z rozkładu normalnego dla tak małej liczebności ? Czy ta sama własność próbki jest również istotna dla dużych n?

3. Dalsze interesujące obserwacje możemy wykonać wczytując ze zbioru liczby wylosowane z innych rozkładów prawdopodobieństwa. W szczególności proszę użyć liczb z rozkładu t-Studenta (jest podobny do standardowego rozkładu normalnego – zatem ciekawe jest czy test Shapiro-Wilka pozwoli je odróżnić), rozkładu będącego sumą dwóch rozkładów jednorodnych (np. -2<x<-1 i 1<x<2) (wyniki tylko w „ogonach” rozkładu N(0,1) ), rozkładu dwumianowego określającego liczbę sukcesów w 100 próbach z prawdopodobieństwem sukcesu p=0.5 (symulacja 100 prób prowadzi do jednej liczby wczytywanej ze zbioru, np. osiągnięto 63 sukcesy, takich symulacji należy powtórzyć co najwyżej 50). Taki rozkład znowu podobny jest do rozkładu normalnego. Proszę zbadać jak wyniki test będą zmieniać się wraz ze zmianą liczby prób (100 -> 200, 1000, 10000) oraz prawdopodobieństwa sukcesu (p=0.5 -> 0.6, 0.8, 0.99).

Wzory na przeprowadzenie testu Shapiro-Wilka i tabele potrzebnych współczynników (zaimplementowane w aplecie) można znaleźć np. w podręczniku W.Krysicki i inni "Rachunek prawdopodobieństwa i statystyka matematyczna w zadaniach", tom.II.