Przeglądaj wersję html pliku:
1. Cel ćwiczenia
Celem ćwiczenia jest zapoznanie się ze sposobami określania
zależności między zmienną zależną i jedną lub wieloma zmiennymi
niezależnymi.
2. Wprowadzenie
W najprostszym przypadku model regresji określa liniową zależność
funkcyjną wartości oczekiwanej (średniej) zmiennej losowej Y od
nielosowej zmiennej x, która może zmieniać się z doświadczenia na
doświadczenie. Zależność tę zapisuje się wzorem
E(Y|x) =α + βx
W każdym oddzielnym doświadczeniu x przyjmuje pewną wartość xi ,
więc wartością oczekiwaną Yi będzie α + βxi. Sama zmienna Yi
może być przedstawiona jako:
Yi = α + βxi + Ei
gdzie Ei jest zmienną losową o średniej zero, nazywaną odchyleniem
losowym. Oprócz tego zakłada się, że wszystkie wyniki doświadczeń
yi są niezależne oraz podlegają rozkładowi normalnemu o pewnej
nieznanej wartości oczekiwanej E(Y) i pewnej wariancji σy niezależnej
od wartości x.
W innej klasie zagadnień zainteresowanie skupia się na przewidywaniu
wartości jednej zmiennej losowej Y na podstawie obserwacji innej
zmiennej losowej X. Przy liniowym modelu zależności, warunkowa
wartość oczekiwana zmiennej Y pod warunkiem, że X = x jest funkcją
liniową x
E(Y|X=x) =α + βx
Dla pewnej wartości x zmiennej losowej X, zmienna losowa Y ma pewien
warunkowy rozkład wokół wartości oczekiwanej i pewną warunkową
wariancję σy2. W wielu analizach statystycznych zakłada się, że ten
warunkowy rozkład jest normalny o wariancji zależnej od konkretnej
wartości x . Jeśli zmienne X i Y podlegają pewnemu dwuwymiarowemu
rozkładowi normalnemu, to
(x-μx)
Łatwo zauważyć, że:
β=ρ(σy/σx) oraz α=μy-βμx
gdzie:
μy i μx- brzegowe wartości oczekiwane zmiennych losowych X i Y,
σy i σx - brzegowe odchylenia standardowe zmiennych losowych X i Y,
ρ - współczynnik korelacji między zmiennymi losowymi X i Y.
Zauważmy, że jeśli przyjmiemy iż dla każdego xi zmienne Yi są
normalnymi zmiennymi losowymi o wartościach oczekiwanych α + βxi i
tej samej wariancji σ, to wówczas można także założyć, że
odchylenia losowe Ei mają identyczny rozkład normalny N(0, σ).
Z tego, że X i Y są zmiennymi losowymi wynika, że można rozpatrywać
alternatywny problem prognozy E(X|Y=y) = α’ + β’x. Czy jest to
celowe zależy od tego w jaki sposób zależność będzie
wykorzystywana w praktyce. Czy będzie się prognozować wartość
zmiennej X mając dane wartości Y = y , czy też odwrotnie trzeba
będzie prognozować wartość zmiennej Y na podstawie X = x .
Zależność zmiennej losowej X względem zmiennej losowej Y jest
określona wzorem
(y-μy)
Równanie to nie przedstawia tej samej prostej na wykresie co
zależność określająca E(Y|X=x). Współczynnik nachylenia do osi
x-ów w tym przypadku jest równy (1/ ρ) (σy/σx), a poprzednio był
ρ(σy/σx) .
Różnica w obu typach modeli zależności polega na interpretacji x ;
czy przedstawia ona sobą z góry określoną wartość
deterministyczną, czy też reprezentuje wartość obserwowaną zmiennej
losowej X. W każdym przypadku podstawowym założeniem modelu jest
fakt, że dla danych liczb wartość oczekiwana E(Y) jest liniowa
względem x, a więc równa α + βx. W obu przypadkach może być
stosowana do estymacji, współczynników zależności analiza regresji,
chociaż gdy X i Y są zmiennymi losowymi, estymacja pięciu parametrów
μx, μy, σx, σy i ρ również jest właściwa i taka procedura
nazywana jest statystyczną analizą korelacji.
Analiza regresji obejmuje zasadniczo dwie grupy zagadnień: estymację
współczynników zależności i weryfikację uzyskanej zależności. W
najprostszym modelu zależności liniowej estymacji podlegają trzy
parametry: współczynnik α , współczynnik kierunkowy β i wariancja
σ2. Natomiast przy weryfikacji zależności podstawowe pytacie brzmi:
czy dane wskazują na istotną zależność średniej zmiennej losowej Y
od zmiennej x? Czyli sprawdza się hipotezę zerową H0: β = 0 . Jeśli
zależność okaże się nieistotna, to model może być uproszczony
przez pominięcie zmiennej x i traktowanie zmiennej Y jako zwykłej
zmiennej losowej. Podobnie może być sprawdzona hipoteza o
nieistotności wyrazu wolnego α = 0 .
Naturalnie przy większej liczbie zmiennych niezależnych model
zależności może być przedstawiony w postaci
E(Y|x)=β0+β1x1+β2x2+...+βkxk
Wówczas metoda analizy statystycznej takiego modelu nosi nazwę analizy
regresji wielokrotnej.
Kiedy w analizie regresji mówi się, że model jest liniowy bądź
nieliniowy, odnosi się to do liniowości lub nieliniowości względem
współczynników. Wartość najwyższej potęgi zmiennej niezależnej
modelu nazywa się stopniem modelu. Na przykład, zakładając że
związek między zmienną zależną Y a zmienną niezależną x jest w
postaci modelu nieliniowego multiplikatywnego
Y = α xβ ε
gdzie ε jest odchyleniem losowym. Wówczas poprzez logarytmowanie
można przekształcić ten model do postaci liniowej
In Y = ln α + β ln x + ln ε
i analizować go przy użyciu metod regresji liniowej.
Podobnie model wykładniczy
Y = exp( α + β x) przekształca się do ln Y = α + β x
i model odwrotny
Y = 1/ α + β x przekształca się do 1/Y = α + β x
3. Regresja jednej zmiennej niezależnej
3.1. Opis metody
Powszechnie stosowaną metodą estymacji współczynników α i β w
modelu regresji liniowej jest metoda najmniejszych kwadratów. Niech
(x1, y2), (x2, y2), ... , (xn, yn) będzie ciągiem wyników obserwacji.
Zgodnie z metodą najmniejszych kwadratów oszacowania a i b
współczynników α i β minimalizują sumę kwadratów odchyleń
obserwacji od prostej regresji, określoną w następujący sposób
[yi - ( a + b xi )]2
Estymatory a i b współczynników regresji α i β otrzymane metodą
najmniejszych kwadratów są
określone wzorami
gdzie:
są odpowiednio średnimi arytmetycznymi wyników obserwacji xi i yi .
Sprawdzenie czy zależność miedzy zmienną zależną Y a zmienną
niezależną x jest istotna statystycznie polega na weryfikacji hipotezy
H0: β = 0 o nieistotności zależności wobec hipotezy alternatywnej
H1: β <> 0 w oparciu o statystykę
T=b/sb
gdzie: sb - odchylenie standardowe estymatora b współczynnika β
gdzie: s2 - oszacowanie wariancji σ zmiennej losowej Y.
podzielonych przez liczbę stopni swobody
Statystyka t , przy założeniu prawdziwości hipotezy H0, ma rozkład
t-Studenta o f = n - 2 stopniach swobody Hipotezę Ho odrzuca się,
jeśli wartość |t| przekracza wartość krytyczną tα/2,f, f przy
zadanym poziomie istotności α .
Weryfikację hipotezy Ho: β = 0 można też przeprowadzić w oparciu o
analizę wariancji zależności regresyjnej. Przyjmując następujące
oznaczenia:
- suma kwadratów poza średnią (zmienność całkowita),
- suma kwadratów w regresji (zmienność wynikająca z przyjętego
modelu),
- suma kwadratów poza regresją (zmienność resztowa),
można udowodnić następującą tożsamość
SG = SM + SR
Równanie to pokazuje, że wśród zmienności y-ków względem ich
średniej wartości część zmienności może być przypisana linii
regresji, a część faktowi, że nie wszystkie obserwacje leżą na
linii regresji, gdyby bowiem wszystkie leżały to suma kwadratów poza
regresją byłaby równa zero. Z powyższego wynika, że ustalenie jak
dalece linia regresji będzie przydatna do prognozowania sprowadza się
do stwierdzenia jak duża część sumy SG zawarta jest w sumie SM, a
jak duża w sumie SR. Będziemy zadowoleni jeśli SM będzie dużo
większe od SR ,lub co na jedno wychodzi, stosunek
R2 = SM / SG
nie odbiega zbyt wiele od jedności. Stosunek R2 jest w tym przypadku
kwadratem współczynnika korelacji z próby pomiędzy zmiennymi x i Y
Z definicji wynika, że współczynnik R2 może być traktowany jako
miara stopnia dopasowania prostej regresji do danych doświadczalnych.
Jego wartość należy do przedziału domkniętego [0, 1]. Gdy R2 = 1 to
przewidywanie jest idealne. Można też wykazać; że jeśli β = 0 to
statystyka
ma rozkład F-Snedecora z 1 stopniem swobody dla licznika i n - 2
stopniami swobody dla mianownika. Hipotezę H0 odrzuca się, gdy
wartość obliczona statystyki F przekracza wartość krytyczną
Fα,1,n-2 , przy zadanym poziomie istotności α. Dla lepszego
zobrazowania zależności między wielkościami omawianymi powyżej,
przedstawia się je w postaci tabeli analizy wariancji (tabela 1). W tym
przypadku przy doborze linii prostej test F jest dokładnie tym samym
czym test t dla β = 0 podany wcześniej
Tabela 1. Tabela analizy wariancji dla zależności regresyjnej
Źródło zmienności Suma kwadratów Stopnie swobody Średni kwadrat
Wartość F
W modelu regresji SM 1 SM/1 F = SM/s2
Poza regresją (reszta) SR n-2 s2 = SR/(n-2)
Łącznie (względem średniej) SG n-1
Ponieważ w wyniku estymacji współczynników zależności regresyjnej
otrzymuje się ocenę punktową Y celowym jest wyznaczyć przedział
ufności dla oczekiwanej wartości E(Y) dla określonej wartości x0 ,
który wyrażony jest wzorem
, tym większy jest przedział ufności dla wartości oczekiwanej,
czyli mniejsza jest precyzja prognozy.
Skoro pojedyncza wartość obserwowana Y może zmieniać się wokół
prawdziwej wartości oczekiwanej z wariancją σ2 , to przedział
ufności dla pojedynczej obserwacji będzie określony wzorem
Przedział ten jest oczywiście szerszy od przedziału dla wartości
oczekiwanej E(Y|x0) dla danego x0 , ponieważ jest to przedział w
którym należy się spodziewać (1 - α) 100% przyszłych obserwacji
zmiennej losowej Y w punkcie x0.
4.Regresja wielokrotna - wybór zmiennych .
4.1. Opis metody
Dotychczas rozważane modele regresji były modelami pierwszego stopnia
jednej zmiennej niezależnej. Bardziej ogólny typ modelu liniowego
zmiennych x1 , x2 , ..., xk może być przedstawiony w postaci
E(Y|x) = β0 + β1 x1 (x) + β2 x2 (x) + ... + βm xm (x)
Każda funkcja f(x), i = 1, 2, ..., m jest ogólnie funkcją zmiennych
niezależnych xT = (x1, x2, ..., xk) i może przybierać dowolną
postać. W najprostszym przypadku każda fi (x) może zawierać tylko
jedną zmienną x. Nieznane współczynniki β0, β1, ..., βm nazywa
się współczynnikami regresji wielokrotnej. Interesują nas
następujące problemy:
- wybór podzbioru (f1(x), f2(x), ..., fm(x)) funkcji zmiennych
niezależnych do modelu regresji z pewnego zadanego zbioru,
oszacowanie współczynników regresji β0, β1, ..., βm i weryfikacja
hipotez H0i: βi = 0, i = 0, 1,..., m,
ocena stopnia dopasowania zależności zawierającej wybrane funkcje
zmiennych niezależnych do danych.
n. Jedną z metod wyboru podzbioru funkcji f(x) zmiennych
niezależnych jest metoda odrzucania. Zasadnicze etapy tej procedury są
następujące:
Oblicza się oszacowania współczynników regresji w modelu
zawierającym wszystkie możliwe Funkcje zmiennych niezależnych,
stosując metodę najmniejszych kwadratów zdefiniowaną w następujący
sposób
2. Niech b0, b1, ..., bm będą oszacowaniami nieznanych
współczynników regresji β0, β1, ..., βm . Dla każdego
współczynnika bi oblicza się statystykę
ti = bi / sbi2
gdzie sbi2 jest wariancją oszacowania współczynnika βi . Statystyka
ta służy do weryfikacji hipotezy H0i: βi = 0 , określającej że
udział zmiennej fi(x) w modelu regresji jest nieistotny. Zakładając,
że zmienna zależna Y ma rozkład normalny i hipoteza H0 jest
prawdziwa, to statystyka t; ma rozkład t-Studenta z f=n-m-1 stopniami
swobody. Hipotezę H0 odrzuca się, jeżeli wartość obliczona |ti|
przekracza wartość krytyczną tα/2,f, przy zadanym poziomie
istotności α.
3. Znajduje się najmniejszą wartość tmin = min ti i porównuje się
ją z wartością krytyczną tα/2,f rozkładu t-Studenta.
tα/2,f to otrzymane równanie regresji zawiera tylko istotne funkcje
zmiennych niezależnych i uważa się je za ostateczne.
Jeśli tmin<tα/2,f to funkcję zmiennej niezależnej fi(x) usuwa się z
równania, ponownie oblicza oszacowania współczynników równania
regresji z pozostałymi funkcjami zmiennych niezależnych i wraca do
etapu 2.
Ocenę stopnia dopasowania wyznaczonego równania regresji do danych
przeprowadza się w oparciu o tabelę analizy wariancji podobnie jak dla
regresji jednej zmiennej niezależnej. Oblicza się więc następujące
wielkości
- zmienność całkowita,
- zmienność wynikająca z przyjętego modelu regresji,
- zmienność resztowa,
R2 = SM / SG
Współczynnik R2 nazywany jest ,.współczynnikiem determinacji i jest
on kwadratem współczynnika korelacji wielokrotnej z próby R.
Wartość R2 należy do przedziału domkniętego [0, 1] i może być
traktowana jako miara stopnia dopasowania powierzchni regresji do danych
doświadczalnych.
Hipoteza H0: R2 = 0 stwierdza, że udział zmiennych niezależnych w
modelu regresji jest nieistotny i jest równoważna hipotezie H0: β1 =
β2 = ... = βμ = 0. Przy prawdziwości hipotezy H0 statystyka
ma rozkład F-Snedecora z m stopniami swobody dla licznika i n-m-1
stopniami swobody dla mianownika. Hipotezę H0 odrzuca się, jeżeli
obliczona wartość F przekracza wartość krytyczną Fα , przy
przyjętym poziomie istotności α. Podobnie jak w regresji jednej
zmiennej niezależnej wielkości te przedstawiane są w postaci tabeli
analizy wariancji
Tabela 6. Tabela analizy wariancji dla regresji wielokrotnej
Źródło zmienności Suma kwadratów Stopnie swobody Średni kwadrat
Statystyka F
W modelu regresji
Poza regresją (reszta) SM
SR m
n-m-1 MS=SSM/m
s2=SR/(n-m-1)
F=MS/s2
Łącznie
(względem średniej) SG n-1
Procedura eliminacji zmiennych ma tą niedogodność, że po odrzuceniu
kolejnej funkcji może okazać się, ze któraś z wcześniej
odrzuconych funkcji stanie się istotna (z powodu korelacji między
funkcjami zmiennych). Powinna być zatem włączona do zależności. Tak
zmodyfikowana procedura odrzucania, że po każdym odrzuceniu funkcji
analizowane są funkcje, które wcześniej były odrzucone i jeśli
znajdzie się funkcję istotną, włączana jest ona do zależności,
nazywa się regresją krokową z odrzucaniem zmiennych.
Jeżeli przewidywana liczba funkcji zmiennych niezależnych w końcowym
równaniu regresji jest znacznie mniejsza od liczby funkcji w zbiorze
wyjściowym, bardziej korzystna może okazać się inna metoda wyboru
funkcji fi(x), tzw. metoda regresji krokowej z dołączaniem zmiennych.
Wówczas obliczenia przebiegają zgodnie z następującymi krokami:
Startuje się z modelem E(Y|x) = β0 , który nie zawiera żadnej z
funkcji zmiennych niezależnych fi(x), i = 1, 2, ..., m.
Dla każdej funkcji fi(x) z postulowanego zbioru oblicza się
oszacowania b0 i bi współczynników β0 i βi modelu regresji E(Ylx) =
β0 + βi fi(x) . Następnie oblicza się następujące wielkości:
Do równania regresji wybiera się funkcję zmiennej niezależnej dla
której wartość Fi jest największa i przekracza wartość krytyczną
Fα rozkładu F-Snedecora z 1 i n - 2 stopniami swobody. Oczywiście
jeżeli dla żadnej z funkcji zmiennych wartość Fi nie przekracza
wartości krytycznej Fα to przyjmuje się model E(Y|x) = b0
Jeżeli funkcja fi(x) została włączona do równania to w następnym
kroku poszukuje się kolejnej funkcji fk(x), która mogłaby być
włączona do równania. W tym celu oblicza się oszacowania b0, bi, bk
współczynników (0, (i, (k E(Y(x) = b0 + bi fi (x) + bk
gdzie
Do równania regresji dołącza się funkcję fk(x) dla której
wartość Fi,k jest największa i przekracza wartość krytyczną F(
rozkładu F-Snedecora z 1 i n - 3 stopniami swobody.
4. Jeżeli dla żadnej z funkcji zmiennych niezależnych wartość Fi,k
nie przekracza wartości krytycznej F( to otrzymane równanie E(Y(x) =
(0 + (i fi(x) uważa się za ostateczne.
Dalsze postępowanie polega na poszukiwaniu kolejnej funkcji, która
mogłaby być dołączona
do podzbioru [fi(x), fk(x)] według zasad opisanych w krokach 3 i 4 aż
do ustalenia końcowego zbioru funkcji zmiennych niezależnych
wchodzących do równania regresji. Należy podkreślić, że w każdym
kroku dołączania funkcji do podzbioru może wystąpić konieczność
wyeliminowania jednej z wcześniej dołączonych funkcji. Spowodowane to
jest korelacją między poszczególnymi funkcjami w wyniku czego po
dołączeniu pewnej funkcji inna funkcja będąca już w równaniu może
okazać się nieistotna.
regresja_teoria
1. Cel ćwiczenia
Celem ćwiczenia jest zapoznanie się ze sposobami określania
zależności między zmienną zależną i jedną lub wieloma zmiennymi
niezależnymi.
2. Wprowadzenie
W najprostszym przypadku model regresji określa liniową zależność
funkcyjną wartości oczekiwanej (średniej) zmiennej losowej Y od
nielosowej zmiennej x, która może zmieniać się z doświadczenia na
doświadczenie. Zależność tę zapisuje się wzorem
E(Y|x) =α + βx
W każdym oddzielnym doświadczeniu x przyjmuje pewną wartość xi ,
więc wartością oczekiwaną Yi będzie α + βxi. Sama zmienna Yi
może być przedstawiona jako:
Yi = α + βxi + Ei
gdzie Ei jest zmienną losową o średniej zero, nazywaną odchyleniem
losowym. Oprócz tego zakłada się, że wszystkie wyniki doświadczeń
yi są niezależne oraz podlegają rozkładowi normalnemu o pewnej
nieznanej wartości oczekiwanej E(Y) i pewnej wariancji σy niezależnej
od wartości x.
W innej klasie zagadnień zainteresowanie skupia się na przewidywaniu
wartości jednej zmiennej losowej Y na podstawie obserwacji innej
zmiennej losowej X. Przy liniowym modelu zależności, warunkowa
wartość oczekiwana zmiennej Y pod warunkiem, że X = x jest funkcją
liniową x
E(Y|X=x) =α + βx
Dla pewnej wartości x zmiennej losowej X, zmienna losowa Y ma pewien
warunkowy rozkład wokół wartości oczekiwanej i pewną warunkową
wariancję σy2. W wielu analizach statystycznych zakłada się, że ten
warunkowy rozkład jest normalny o wariancji zależnej od konkretnej
wartości x . Jeśli zmienne X i Y podlegają pewnemu dwuwymiarowemu
rozkładowi normalnemu, to
(x-μx)
Łatwo zauważyć, że:
β=ρ(σy/σx) oraz α=μy-βμx
gdzie:
μy i μx- brzegowe wartości oczekiwane zmiennych losowych X i Y,
σy i σx - brzegowe odchylenia standardowe zmiennych losowych X i Y,
ρ - współczynnik korelacji między zmiennymi losowymi X i Y.
Zauważmy, że jeśli przyjmiemy iż dla każdego xi zmienne Yi są
normalnymi zmiennymi losowymi o wartościach oczekiwanych α + βxi i
tej samej wariancji σ, to wówczas można także założyć, że
odchylenia losowe Ei mają identyczny rozkład normalny N(0, σ).
Z tego, że X i Y są zmiennymi losowymi wynika, że można rozpatrywać
alternatywny problem prognozy E(X|Y=y) = α’ + β’x. Czy jest to
celowe zależy od tego w jaki sposób zależność będzie
wykorzystywana w praktyce. Czy będzie się prognozować wartość
zmiennej X mając dane wartości Y = y , czy też odwrotnie trzeba
będzie prognozować wartość zmiennej Y na podstawie X = x .
Zależność zmiennej losowej X względem zmiennej losowej Y jest
określona wzorem
(y-μy)
Równanie to nie przedstawia tej samej prostej na wykresie co
zależność określająca E(Y|X=x). Współczynnik nachylenia do osi
x-ów w tym przypadku jest równy (1/ ρ) (σy/σx), a poprzednio był
ρ(σy/σx) .
Różnica w obu typach modeli zależności polega na interpretacji x ;
czy przedstawia ona sobą z góry określoną wartość
deterministyczną, czy też reprezentuje wartość obserwowaną zmiennej
losowej X. W każdym przypadku podstawowym założeniem modelu jest
fakt, że dla danych liczb wartość oczekiwana E(Y) jest liniowa
względem x, a więc równa α + βx. W obu przypadkach może być
stosowana do estymacji, współczynników zależności analiza regresji,
chociaż gdy X i Y są zmiennymi losowymi, estymacja pięciu parametrów
μx, μy, σx, σy i ρ również jest właściwa i taka procedura
nazywana jest statystyczną analizą korelacji.
Analiza regresji obejmuje zasadniczo dwie grupy zagadnień: estymację
współczynników zależności i weryfikację uzyskanej zależności. W
najprostszym modelu zależności liniowej estymacji podlegają trzy
parametry: współczynnik α , współczynnik kierunkowy β i wariancja
σ2. Natomiast przy weryfikacji zależności podstawowe pytacie brzmi:
czy dane wskazują na istotną zależność średniej zmiennej losowej Y
od zmiennej x? Czyli sprawdza się hipotezę zerową H0: β = 0 . Jeśli
zależność okaże się nieistotna, to model może być uproszczony
przez pominięcie zmiennej x i traktowanie zmiennej Y jako zwykłej
zmiennej losowej. Podobnie może być sprawdzona hipoteza o
nieistotności wyrazu wolnego α = 0 .
Naturalnie przy większej liczbie zmiennych niezależnych model
zależności może być przedstawiony w postaci
E(Y|x)=β0+β1x1+β2x2+...+βkxk
Wówczas metoda analizy statystycznej takiego modelu nosi nazwę analizy
regresji wielokrotnej.
Kiedy w analizie regresji mówi się, że model jest liniowy bądź
nieliniowy, odnosi się to do liniowości lub nieliniowości względem
współczynników. Wartość najwyższej potęgi zmiennej niezależnej
modelu nazywa się stopniem modelu. Na przykład, zakładając że
związek między zmienną zależną Y a zmienną niezależną x jest w
postaci modelu nieliniowego multiplikatywnego
Y = α xβ ε
gdzie ε jest odchyleniem losowym. Wówczas poprzez logarytmowanie
można przekształcić ten model do postaci liniowej
In Y = ln α + β ln x + ln ε
i analizować go przy użyciu metod regresji liniowej.
Podobnie model wykładniczy
Y = exp( α + β x) przekształca się do ln Y = α + β x
i model odwrotny
Y = 1/ α + β x przekształca się do 1/Y = α + β x
3. Regresja jednej zmiennej niezależnej
3.1. Opis metody
Powszechnie stosowaną metodą estymacji współczynników α i β w
modelu regresji liniowej jest metoda najmniejszych kwadratów. Niech
(x1, y2), (x2, y2), ... , (xn, yn) będzie ciągiem wyników obserwacji.
Zgodnie z metodą najmniejszych kwadratów oszacowania a i b
współczynników α i β minimalizują sumę kwadratów odchyleń
obserwacji od prostej regresji, określoną w następujący sposób
[yi - ( a + b xi )]2
Estymatory a i b współczynników regresji α i β otrzymane metodą
najmniejszych kwadratów są
określone wzorami
gdzie:
są odpowiednio średnimi arytmetycznymi wyników obserwacji xi i yi .
Sprawdzenie czy zależność miedzy zmienną zależną Y a zmienną
niezależną x jest istotna statystycznie polega na weryfikacji hipotezy
H0: β = 0 o nieistotności zależności wobec hipotezy alternatywnej
H1: β <> 0 w oparciu o statystykę
T=b/sb
gdzie: sb - odchylenie standardowe estymatora b współczynnika β
gdzie: s2 - oszacowanie wariancji σ zmiennej losowej Y.
podzielonych przez liczbę stopni swobody
Statystyka t , przy założeniu prawdziwości hipotezy H0, ma rozkład
t-Studenta o f = n - 2 stopniach swobody Hipotezę Ho odrzuca się,
jeśli wartość |t| przekracza wartość krytyczną tα/2,f, f przy
zadanym poziomie istotności α .
Weryfikację hipotezy Ho: β = 0 można też przeprowadzić w oparciu o
analizę wariancji zależności regresyjnej. Przyjmując następujące
oznaczenia:
- suma kwadratów poza średnią (zmienność całkowita),
- suma kwadratów w regresji (zmienność wynikająca z przyjętego
modelu),
- suma kwadratów poza regresją (zmienność resztowa),
można udowodnić następującą tożsamość
SG = SM + SR
Równanie to pokazuje, że wśród zmienności y-ków względem ich
średniej wartości część zmienności może być przypisana linii
regresji, a część faktowi, że nie wszystkie obserwacje leżą na
linii regresji, gdyby bowiem wszystkie leżały to suma kwadratów poza
regresją byłaby równa zero. Z powyższego wynika, że ustalenie jak
dalece linia regresji będzie przydatna do prognozowania sprowadza się
do stwierdzenia jak duża część sumy SG zawarta jest w sumie SM, a
jak duża w sumie SR. Będziemy zadowoleni jeśli SM będzie dużo
większe od SR ,lub co na jedno wychodzi, stosunek
R2 = SM / SG
nie odbiega zbyt wiele od jedności. Stosunek R2 jest w tym przypadku
kwadratem współczynnika korelacji z próby pomiędzy zmiennymi x i Y
Z definicji wynika, że współczynnik R2 może być traktowany jako
miara stopnia dopasowania prostej regresji do danych doświadczalnych.
Jego wartość należy do przedziału domkniętego [0, 1]. Gdy R2 = 1 to
przewidywanie jest idealne. Można też wykazać; że jeśli β = 0 to
statystyka
ma rozkład F-Snedecora z 1 stopniem swobody dla licznika i n - 2
stopniami swobody dla mianownika. Hipotezę H0 odrzuca się, gdy
wartość obliczona statystyki F przekracza wartość krytyczną
Fα,1,n-2 , przy zadanym poziomie istotności α. Dla lepszego
zobrazowania zależności między wielkościami omawianymi powyżej,
przedstawia się je w postaci tabeli analizy wariancji (tabela 1). W tym
przypadku przy doborze linii prostej test F jest dokładnie tym samym
czym test t dla β = 0 podany wcześniej
Tabela 1. Tabela analizy wariancji dla zależności regresyjnej
Źródło zmienności Suma kwadratów Stopnie swobody Średni kwadrat
Wartość F
W modelu regresji SM 1 SM/1 F = SM/s2
Poza regresją (reszta) SR n-2 s2 = SR/(n-2)
Łącznie (względem średniej) SG n-1
Ponieważ w wyniku estymacji współczynników zależności regresyjnej
otrzymuje się ocenę punktową Y celowym jest wyznaczyć przedział
ufności dla oczekiwanej wartości E(Y) dla określonej wartości x0 ,
który wyrażony jest wzorem
, tym większy jest przedział ufności dla wartości oczekiwanej,
czyli mniejsza jest precyzja prognozy.
Skoro pojedyncza wartość obserwowana Y może zmieniać się wokół
prawdziwej wartości oczekiwanej z wariancją σ2 , to przedział
ufności dla pojedynczej obserwacji będzie określony wzorem
Przedział ten jest oczywiście szerszy od przedziału dla wartości
oczekiwanej E(Y|x0) dla danego x0 , ponieważ jest to przedział w
którym należy się spodziewać (1 - α) 100% przyszłych obserwacji
zmiennej losowej Y w punkcie x0.
4.Regresja wielokrotna - wybór zmiennych .
4.1. Opis metody
Dotychczas rozważane modele regresji były modelami pierwszego stopnia
jednej zmiennej niezależnej. Bardziej ogólny typ modelu liniowego
zmiennych x1 , x2 , ..., xk może być przedstawiony w postaci
E(Y|x) = β0 + β1 x1 (x) + β2 x2 (x) + ... + βm xm (x)
Każda funkcja f(x), i = 1, 2, ..., m jest ogólnie funkcją zmiennych
niezależnych xT = (x1, x2, ..., xk) i może przybierać dowolną
postać. W najprostszym przypadku każda fi (x) może zawierać tylko
jedną zmienną x. Nieznane współczynniki β0, β1, ..., βm nazywa
się współczynnikami regresji wielokrotnej. Interesują nas
następujące problemy:
- wybór podzbioru (f1(x), f2(x), ..., fm(x)) funkcji zmiennych
niezależnych do modelu regresji z pewnego zadanego zbioru,
oszacowanie współczynników regresji β0, β1, ..., βm i weryfikacja
hipotez H0i: βi = 0, i = 0, 1,..., m,
ocena stopnia dopasowania zależności zawierającej wybrane funkcje
zmiennych niezależnych do danych.
n. Jedną z metod wyboru podzbioru funkcji f(x) zmiennych
niezależnych jest metoda odrzucania. Zasadnicze etapy tej procedury są
następujące:
Oblicza się oszacowania współczynników regresji w modelu
zawierającym wszystkie możliwe Funkcje zmiennych niezależnych,
stosując metodę najmniejszych kwadratów zdefiniowaną w następujący
sposób
2. Niech b0, b1, ..., bm będą oszacowaniami nieznanych
współczynników regresji β0, β1, ..., βm . Dla każdego
współczynnika bi oblicza się statystykę
ti = bi / sbi2
gdzie sbi2 jest wariancją oszacowania współczynnika βi . Statystyka
ta służy do weryfikacji hipotezy H0i: βi = 0 , określającej że
udział zmiennej fi(x) w modelu regresji jest nieistotny. Zakładając,
że zmienna zależna Y ma rozkład normalny i hipoteza H0 jest
prawdziwa, to statystyka t; ma rozkład t-Studenta z f=n-m-1 stopniami
swobody. Hipotezę H0 odrzuca się, jeżeli wartość obliczona |ti|
przekracza wartość krytyczną tα/2,f, przy zadanym poziomie
istotności α.
3. Znajduje się najmniejszą wartość tmin = min ti i porównuje się
ją z wartością krytyczną tα/2,f rozkładu t-Studenta.
tα/2,f to otrzymane równanie regresji zawiera tylko istotne funkcje
zmiennych niezależnych i uważa się je za ostateczne.
Jeśli tmin<tα/2,f to funkcję zmiennej niezależnej fi(x) usuwa się z
równania, ponownie oblicza oszacowania współczynników równania
regresji z pozostałymi funkcjami zmiennych niezależnych i wraca do
etapu 2.
Ocenę stopnia dopasowania wyznaczonego równania regresji do danych
przeprowadza się w oparciu o tabelę analizy wariancji podobnie jak dla
regresji jednej zmiennej niezależnej. Oblicza się więc następujące
wielkości
- zmienność całkowita,
- zmienność wynikająca z przyjętego modelu regresji,
- zmienność resztowa,
R2 = SM / SG
Współczynnik R2 nazywany jest ,.współczynnikiem determinacji i jest
on kwadratem współczynnika korelacji wielokrotnej z próby R.
Wartość R2 należy do przedziału domkniętego [0, 1] i może być
traktowana jako miara stopnia dopasowania powierzchni regresji do danych
doświadczalnych.
Hipoteza H0: R2 = 0 stwierdza, że udział zmiennych niezależnych w
modelu regresji jest nieistotny i jest równoważna hipotezie H0: β1 =
β2 = ... = βμ = 0. Przy prawdziwości hipotezy H0 statystyka
ma rozkład F-Snedecora z m stopniami swobody dla licznika i n-m-1
stopniami swobody dla mianownika. Hipotezę H0 odrzuca się, jeżeli
obliczona wartość F przekracza wartość krytyczną Fα , przy
przyjętym poziomie istotności α. Podobnie jak w regresji jednej
zmiennej niezależnej wielkości te przedstawiane są w postaci tabeli
analizy wariancji
Tabela 6. Tabela analizy wariancji dla regresji wielokrotnej
Źródło zmienności Suma kwadratów Stopnie swobody Średni kwadrat
Statystyka F
W modelu regresji
Poza regresją (reszta) SM
SR m
n-m-1 MS=SSM/m
s2=SR/(n-m-1)
F=MS/s2
Łącznie
(względem średniej) SG n-1
Procedura eliminacji zmiennych ma tą niedogodność, że po odrzuceniu
kolejnej funkcji może okazać się, ze któraś z wcześniej
odrzuconych funkcji stanie się istotna (z powodu korelacji między
funkcjami zmiennych). Powinna być zatem włączona do zależności. Tak
zmodyfikowana procedura odrzucania, że po każdym odrzuceniu funkcji
analizowane są funkcje, które wcześniej były odrzucone i jeśli
znajdzie się funkcję istotną, włączana jest ona do zależności,
nazywa się regresją krokową z odrzucaniem zmiennych.
Jeżeli przewidywana liczba funkcji zmiennych niezależnych w końcowym
równaniu regresji jest znacznie mniejsza od liczby funkcji w zbiorze
wyjściowym, bardziej korzystna może okazać się inna metoda wyboru
funkcji fi(x), tzw. metoda regresji krokowej z dołączaniem zmiennych.
Wówczas obliczenia przebiegają zgodnie z następującymi krokami:
Startuje się z modelem E(Y|x) = β0 , który nie zawiera żadnej z
funkcji zmiennych niezależnych fi(x), i = 1, 2, ..., m.
Dla każdej funkcji fi(x) z postulowanego zbioru oblicza się
oszacowania b0 i bi współczynników β0 i βi modelu regresji E(Ylx) =
β0 + βi fi(x) . Następnie oblicza się następujące wielkości:
Do równania regresji wybiera się funkcję zmiennej niezależnej dla
której wartość Fi jest największa i przekracza wartość krytyczną
Fα rozkładu F-Snedecora z 1 i n - 2 stopniami swobody. Oczywiście
jeżeli dla żadnej z funkcji zmiennych wartość Fi nie przekracza
wartości krytycznej Fα to przyjmuje się model E(Y|x) = b0
Jeżeli funkcja fi(x) została włączona do równania to w następnym
kroku poszukuje się kolejnej funkcji fk(x), która mogłaby być
włączona do równania. W tym celu oblicza się oszacowania b0, bi, bk
współczynników (0, (i, (k E(Y(x) = b0 + bi fi (x) + bk
gdzie
Do równania regresji dołącza się funkcję fk(x) dla której
wartość Fi,k jest największa i przekracza wartość krytyczną F(
rozkładu F-Snedecora z 1 i n - 3 stopniami swobody.
4. Jeżeli dla żadnej z funkcji zmiennych niezależnych wartość Fi,k
nie przekracza wartości krytycznej F( to otrzymane równanie E(Y(x) =
(0 + (i fi(x) uważa się za ostateczne.
Dalsze postępowanie polega na poszukiwaniu kolejnej funkcji, która
mogłaby być dołączona
do podzbioru [fi(x), fk(x)] według zasad opisanych w krokach 3 i 4 aż
do ustalenia końcowego zbioru funkcji zmiennych niezależnych
wchodzących do równania regresji. Należy podkreślić, że w każdym
kroku dołączania funkcji do podzbioru może wystąpić konieczność
wyeliminowania jednej z wcześniej dołączonych funkcji. Spowodowane to
jest korelacją między poszczególnymi funkcjami w wyniku czego po
dołączeniu pewnej funkcji inna funkcja będąca już w równaniu może
okazać się nieistotna.