Przeglądaj wersję html pliku:

zgodnosc_rozkladu


l. Cel ćwiczenia

Celem ćwiczenia jest zapoznanie się ze sposobami weryfikacji hipotezy
o zgodności rozkładu zmiennej losowej z proponowanym rozkładem
teoretycznym (modelem rozkładu).

2. Opis metody

Wielokrotnie w analizie statystycznej zakłada się, że zmienne losowe
( badane cechy ) mają pewne rozkłady np, normalne, Poissona czy inne.
Powstaje zatem pytanie, czy takie założenie jest zgodne z
rzeczywistością. Aby to sprawdzić dokonuje się obserwacji badanej
cechy (pobiera próbę losową) i porównuje rozkład obserwacji
zawartych w próbie z pewnym teoretycznym rozkładem, który
to rozkład można uważać za proponowaną hipotezę zerową. Hipoteza
zerowa może być postawiona w różnej postaci, np.:

Ho : : zmienna losowa X ma rozkład normalny o parametrach ( = 5 i ( =
0,5

lub Ho : : zmienna losowa X jest zmienną Poissona o parametrze ( = 5

lub przy braku konkretnej wartości parametru

Ho : zmienna losowa X podlega rozkładowi wykładniczemu.

Hipoteza alternatywna określająca, ze zmienna nie jest taka jak żąda
hipoteza zerowa Ho, jest najczęściej bardzo złożona. Na przykład,
jeśli X nie jest zmienną losową o rozkładzie N(5, 0,5) to może
mieć rozkład N(10, 0,5) lub N(5, 0,3) lub N(15. 0,4) lub może w
ogóle nie mieć rozkładu normalnego, może mieć rozkład
logarytmo-normalny lub gamma lub dowolny z nieskończenie wielu,
nazwanych lub bez nazwy, ciągłych, dyskretnych lub mieszanych,
różnorodnych rozkładów.

2.1. Porównanie kształtów histogramów.

Najprostszym sposobem oceny zgodności rozkładu obserwacji próby z
rozkładem hipotetycznym jest wizualne porównanie histogramu
częstości z funkcją gęstości lub histogramu skumulowanej
częstości z dystrybuantą. Porównanie wizualne pozwala na
natychmiastowe oszacowanie bliskości rozkładu danych zaobserwowanych z
rozkładem hipotetycznym oraz dostarcza cennych informacji o obszarach
niezgodności.

2.1.1. Porównanie histogramu częstości z funkcją gęstości

Z powodu konieczności grupowania danych w klasach, potrzebnych dla
zbudowania histogramu, najczęściej istotne cechy prawdziwych końców
rozkładu nie są przedstawiane na wykresie i ulegają
zatraceniu. Wybór węższych przedziałów klasowych zwiększa
czytelność wykresów, ale mniejsza liczba obserwacji w klasach
powoduje większe zmiany w wysokości słupków. Należy zatem
odpowiedzieć na pytanie, czy obserwowana zgodność jest wystarczająca
czy też należy żądać zgodności ściślejszej lub inaczej mówiąc,
czy kształt histogramu częstości istotnie różni się od kształtu
proponowanej funkcji gęstości ? Aby odpowiedzieć na to pytanie
należy dokładniej zrozumieć histogram. Mając dany rzeczywisty
rozkład zmiennej losowej i zbiór przedziałów klasowych, obserwowane
częstości w przedziałach klasowych są zmiennymi losowymi, wprost
proporcjonalnymi do liczby obserwacji z próby należących do tych
przedziałów. Liczby te są zmiennymi losowymi o łącznym rozkładzie
wielomianowym. Dla ustalonej liczby klas k, wzrost liczebności n próby
może uczynić zgodność histogramu częstości z funkcją gęstości
niemal pewną. Z drugiej strony, zmniejszenie liczby klas k da ten sam
efekt. Jednak w tej sytuacji wiele różnych modeli rozkładu będzie
miało niemal identyczną zgodność. Ta niejednoznaczność może być
zmniejszona i kształt właściwego rozkładu dokładniej wyznaczony
tylko

przez zastosowanie większej liczby klas k. Ale wiąże się to z
większą zmiennością w obserwowanych
wartościach częstości w poszczególnych klasach konkretnego
histogramu. Duża zgodność nie jest w tym przypadku możliwa i dlatego
jest mało prawdopodobne, aby można było znaleźć wyraźne wizualne
potwierdzenie swojego rozkładu w danych. Zatem porównując kształt
histogramu częstości danych z funkcją gęstości rozkładu
hipotetycznego należy tak wybrać liczbę klas histogramu aby
wypośrodkować między większą niejednoznacznością a większą
zmiennością. Więc jeżeli uzasadnia się adekwatność swojego
rozkładu na podstawie wizualnego porównania, to trzeba
pamiętać, że jeśli przyjmie się małą liczbę klas to inne
rozkłady będą miały też prawie identyczną zgodność, a jeśli
wybierze się zbyt dużą liczbę klas to duże podobieństwo
kształtów będzie mało prawdopodobne.

2.1.2. Porównanie histogramu skumulowanej częstości z dystrybuanta

Zamiast porównywać zaobserwowany histogram częstości danych z
funkcją gęstości, można porównywać histogram skumulowanej
częstości z wykresem dystrybuanty. Porównanie kształtu histogramu
skumulowanej częstości z dystrybuanta ma wyraźną przewagę nad
porównaniem histogramu częstości z funkcją gęstości. W tym
przypadku znacznie zmniejsza się niejednoznaczność i zmienność
histogramu związana z koniecznością grupowania danych. Należy jednak
pamiętać, że można oczekiwać zmienności histogramu skumulowanej
częstości w stosunku do dystrybuanty nawet wtedy gdy dane mają
rozkład określony tą dystrybuantą oraz że inne prawo
probabilistyczne może rządzić generowaniem danych nawet jeśli
wydają się one zgodne z proponowanym rozkładem.

W praktyce porównywanie wykresów może być uproszczone przez zmianę
skali, to jest dzięki specjalnie wykonanej siatce zwanej siatką
prawdopodobieństwa. Skale na osiach współrzędnych siatki są tak
dobrane, że wykres dystrybuanty odpowiedniego hipotetycznego rozkładu
jest linią prostą. Przy użyciu takiej siatki porównanie
hipotetycznego rozkładu z danymi sprowadza się do porównania
skumulowanych częstości tych danych (wykreślonych na tej siatce) z
linią prostą.

2.2. Testy zgodności

Dotychczas oceniano zgodność rozkładu obserwowanych danych z
rozkładem teoretycznym na podstawie wykresów. Jest to jednak ocena
subiektywna zależna od oceniającego. Bardziej obiektywne są oceny
ilościowe zgodności na podstawie testów statystycznych. Opracowano
wiele testów, które można podzielić na dwie grupy. Do pierwszej
należą testy, które mogą być stosowane dla dowolnego hipotetycznego
rozkładu. Najbardziej rozpowszechnione są w tej grupie dwa testy: test
chi-kwadrat i test Kołmogorowa. Do drugiej grupy należą testy
bardziej specjalistyczne służące do badania zgodności z konkretnym
rozkładem hipotetycznym. Najliczniejszą grupę stanowią tu
testy normalności, czyli testy badające zgodność rozkładu zmiennej
losowej z rozkładem normalnym. Wśród nich najczęściej stosowane
są: test Shapiro-Wilka i test Lillieforsa.

2.2.1. Test chi-kwadrat ((2) zgodności

Jest to najbardziej rozpowszechniony test opracowany przez Karla
Pearsona. Hipotetyczny rozkład zmiennej losowej X może być dowolnym
rozkładem i dotyczyć zarówno zmiennej losowej ciągłej jaki i
skokowej. Hipoteza zerowa będzie miała postać:

Ho: zmienna losowa X ma rozkład określony funkcją gęstości f(x)
przy hipotezie alternatywnej, że rozkład zmiennej X jest inny niż to
określa hipoteza zerowa.

Test (2 przeprowadza się w następujący sposób. Dokonuje się n
obserwacji zmiennej losowej X. Otrzymany zakres zmienności
zaobserwowanych wartości dzieli się na k klas. Oblicza się liczbę
obserwacji ni należących do każdej z klas. Jeżeli hipoteza zerowa
jest prawdziwa można oczekiwać, że liczba obserwacji w każdej klasie
powinna wynosić np;. Liczby pi są prawdopodobieństwami zaobserwowania
zmiennej X w i-tej klasie i mogą być obliczone z wzoru

Porównując liczebności zaobserwowane z teoretycznymi otrzymuje się
statystykę testową

Statystyka ta posiada asymptotycznie (tzn. dla n —> ( ) rozkład (2 z
liczbą stopni swobody k-1. Rzadko jednak zdarza się, że można
postawić hipotezę zerowa., w której podaje się wartości parametrów
rozkładu. Najczęściej w hipotezie zerowej podaje się typ rozkładu
zmiennej a wartości parametrów muszą być oszacowane
na podstawie zebranych obserwacji (próby). W tym przypadku
liczbę stopni swobody statystyki (2 zmniejsza się o liczbę
wyestymowanych parametrów. Zatem liczba stopni swobody statystyki (2
jest równa k - r - l , gdzie r oznacza liczbę oszacowanych parametrów
na podstawie zaobserwowanych danych.

Podział zakresu zaobserwowanych wartości zmiennych pomiędzy
poszczególne klasy należy wykonać w ten sposób, aby liczba
obserwacji n; w każdej klasie była dostatecznie duża, tak aby
rozkład statystyki (2 można było rozpatrywać jako rozkład (2 . Z
drugiej strony liczba klas powinna być dostatecznie duża aby dobrze
odzwierciedlała funkcje gęstości f(x) . Jako "złoty środek"
przyjmuje się zwykle, że n; powinno być co najmniej równe 5 . W
praktyce przyjmuje się, że jeśli parametry rozkładu ocenia się na
podstawie próby, to liczebność próby powinna wynosić co najmniej
100, a liczba klas od 10 do 25. Dla rozkładu normalnego, gdy parametry
rozkładu są znane, liczba klas może być zmniejszona, ale powinna
wynosić od 5 do 10. Następnie wybiera się poziom istotności a ,
oblicza wartość statystyki i porównuje jaz wartością krytyczną
(2(,k-r-1 dla k-r-1 stopni swobody. Jeżeli zachodzi
nierówność (2 >(2(,k-r-1 to hipotezę zerową należy odrzucić. W
przeciwnym przypadku wnioskuje się, że nie ma podstaw do odrzucenia
hipotezy zerowej.

2.2.2. Test zgodności Kołmogorowa

Przyjmuje się, że zmienna losowa X typu ciągłego ma rozkład
określony dystrybuantą F(x). Pobraną próbę porządkuje się w
ciągu niemalejącym i wyznacza dystrybuantę empiryczną Fn(x).
Statystyką testową testu jest

Statystyka ta przy prawdziwości hipotezy zerowej ma rozkład
Kołmogorowa, którego jedynym parametrem jest liczebność próby.
Przyjmując wartość poziomu istotności a z tablic wartości
krytycznych rozkładu Kołmogorowa odczytuje się wartość krytyczną
D(,n. Jeżeli Dn > D(,n , to hipotezę zerową odrzuca się na poziomie
istotności ( . Przewaga testu Kołmogorowa nad testem (2
polega na tym, że nie wymaga on łączenia danych w grupy i
porównywania oddzielnych klas, ale porównuje wszystkie dane w
niezmienionej postaci, a przez to jest niewrażliwy na działanie
skrajnych, mało licznych klas. Test zgodności Kołmogorowa może być
stosowany dla prób o małej liczność ( dla n > 5), ale tylko wtedy
gdy hipotetyczny rozkład jest przyjmowany całkowicie niezależnie od
danych, tzn. nie zachodzi konieczność szacowania parametrów rozkładu
na podstawie próbki. W przypadku gdy wartości parametrów rozkładu
hipotetycznego są estymowane z próby, liczebność próbki powinna
wynosić co najmniej 100 i wówczas można stosować test graniczny
(-Kołmogorowa.

2.2.3. Test normalności Lillieforsa

Test ten służy do weryfikacji hipotezy zerowej, że zmienna losowa X
ma rozkład normalny N((,(). Jeżeli parametry tego rozkładu
są znane, to do weryfikacji hipotezy zerowej można stosować opisany
wcześniej test Kołmogorowa. Jeśli zaś parametry te nie są znane to
należy stosować zmodyfikowany test Kołmogorowa znany pod nazwą testu
Lillieforsa. Statystyka tego testu jest taka sama jak testu Kołmogorowa
, z tym że do wyznaczenia hipotetycznej dystrybuanty F(x) wykorzystuje
się oceny x i s2 nieznanych parametrów rozkładu normalnego.
Otrzymaną wartość statystyki testowej Dn porównuje się ze
zmodyfikowanymi wartościami krytycznymi testu Kołmogorowa.

2.2.4. Test normalności Shapiro-Wilka

Drugim testem do weryfikacji hipotezy o normalności rozkładu zmiennej
losowej, w przypadku gdy nieznane są parametry rozkładu
hipotetycznego, jest test Shapiro-Wiłka. Pobraną próbę należy
uporządkować niemalejąco i obliczyć statystykę testową



gdzie a,, n są specjalnymi współczynnikami oraz

n/2 , dla n parzystych,

1=

(n - 1)/2 , dla n nieparzystych.

W zależności od przyjętego poziomu istotności a i liczności próbki
n na leży odczytać z tablic wartości krytycznych testu Shapiro-Wilka
wartość krytyczną W(,n . Jeśli W < Wa,n to hipotezę o normalności
rozkładu zmiennej losowej X należy odrzucić.

 
statystyka