Przeglądaj wersję html pliku:
Model regresji określa liniową zależność funk.wart.
oczekiw.(śred)zmiennej los.Y od nielos.zmien.x, która może zmieniać
się z doświadczenia na dośw.:
E(Y/x)=α+βx. W każdym oddzielnym doświad.x przyjmuje pewną wart.xi
więc wart.oczekiw.Yi będzie α+βxi.Sama zmienna Yi może być
przedstawiona jako Yi= α+βxi+Ei, gdzie Ei jest zmienną losową o
średniej zero nazywaną odchyleniem losowym. Oprócz tego zakłada
się, żę wszystkie wyniki doświad.yi są niezależne i podlegają
rozkł.normalnemu o pewnej nieznanej wartości oczekiwanej E(Y) i pewnej
wariancji σ2 niezależnej od wartości x. W innej klasie zagadnień
zainteresowanie skupia się na przewidywaniu wart.jednej zmiennej los.Y
na podst.obserwacjii innej zmiennej losowej X. Przy liniowym modelu
zależ.,warunkowa wart.oczek.zmiennej Y pod warunkiem, że X=x jest
średnią liniową x: E(Y/X=x) = α+βx. Dla pewnej wartości zmiennej
losowej X, zmienna losowa Y ma pewien warunkowy rozkład wokół
wartości oczekiwanej i pewną warunkową wariancję σy2. W wielu
analizach statyst.zakłada się, że ten warunkowy rozkład jest norm.o
wariancji zależnej od konkretnej wartości x. Jeśli zmienne X i Y
podlegają pewnemu dwuwymiarowemu rozkładowi normalnemu to:
Łatwo zauważyć, że: β=ρ(σy/σx) oraz α=μy-βμx, gdzie: μy i
μx – brzegowe wart.oczekiw.zmiennych los.XiY, σy i σx – brzegowe
odchylenia stand.zmienn. los.XiY, ρ – współ.korelacji między
zmiennymi los. X i Y. Z tego, że XiY są zmiennymi los. wynika, że
można rozpatrywać alternatywny problem prognozy E(X/Y=y) =
α’+β’x. Zależność zmiennej los.X względem zmiennej los.Y jest
określona wzorem:
Różnica w obu typach modeli zależności polega na interpretacji x;
czy reprezentuje wartość obserwowaną zmiennej los.X. W każdym
przypadku podstawowym zał.modelu jest fakt, że dla danych liczb x
wart.oczek.E(Y) jest liniowa wzgl.x, a więc równa α+βx. W obu
przypadkach może być stsowana
Do estymacji współ.zależności analiza regresji, chociaż gdy XiY są
zmiennymi los, estymacja 5 parametrów: μy,μx,σy ,σx,ρ również
jest właściwa i taka procedura nazywana jest statys.analizą
korelacji. Analiza regresji obejmuje zasadniczo dwie
gr.zagadnień:estymację współ.zależności i weryfikację uzyskanej
zależności. W najprostszym modelu zależności liniowej estymacji
podlegają 3 parmaetry: współ.α, współ.kier.β i wariancja σ2.
Natomiast przy weryfikacji zależności sprawdza się hipot.zer.H0:
β=0. Kiedy w analizie regresji mówi się, że model jest liniowe
bądź nieliniowy, odnosi się to do liniowości lub niel.względem
współ. Wartość najwyższej potęgi zmiennej niezależ.modelu nazywa
się stopniem modelu. Np. zakładając, że związek między zmienną
zależną Y a zmienną niezależ.x,jest w postaci modelu
nieliniow.multiplikatywnego: Y=αxβε, gdzie ε-odchylenie los.
Wówczas poprzez logarytm.można przekształcić ten model do postaci
liniowej: lnY=lnα+βlnx+lnε i analizować go przy użyciu metod
regresji liniowej. Podobnie model wykład.: Y=exp(α+βx), przekształca
się do: lnY=α+βx i model odwrotny: Y=1/α+βx w 1/Y=α+βx Regresja
jednej zmiennej niezależnej
Powszechnie stosowaną metodą estymacji wspól.α i β w modelu
regresji liniowej jest metoda najmniejszych kwadratów. Niech
(x1,y1)...(xn,yn) będzie ciągiem wyników obserwacji. Zgodnie z tą
metodą oszacowania a i b współ. α i β minimalizują sumę
kwadratów odchyleń obserwacji od prostej regresji, określono:
Estymatory a i b współ. α i β otrzymane tą metodą są określone
wzorami.
Gdzie:
Są odpowiednio średnimi arytm.wynikó obserwacji xi i yi. Sprawdzenie
czy zależność między zmienną zależną Y, a zmienną niezależną x
jest istotna statyst. polega na weryfikacji hip.H0 β=0 o nieistotności
zależności wobec hipot.alternatyw. H0 β=0 w oparciu o statyst.:
t=b/sb, gdzie sb-odchyl.stand.estymatora b współ.β.
Gdzie s2-oszacow.wariancji σ2 zmiennej.losY. Zwykle jako tego
oszacowania używa się sumy kwadr.odchyleń obserwowoanych wart. yi od
wart.estrymowanych ŷi podzielonych przez licz.stopni swobody:
Statstyka t, przy założ.prawdziwości hipot.Ho ma rozkład t-Studenta
o f=n-2 stopniach swobody. Hipotezę Ho odrzuca się, jeśli wart.!t!
przekracza wart.kryt.przy zadanym poziomie istotności α. Weryfikację
hipotezy Ho; β=0 można też przeprowadzić w oparciu o analizę
wariancji zależności regrysyjnej. Przyjmuje się oznaczenia
Suma kwadratów poza średnią (zmienność całk)
Suma kwadratów regresji (zmiennośc wynikająca z przyjętego modelu)
Suma kwadr.poza regresją (zmienność resztowa)
Można udowodnić tożsamość SG=SM+SR. Równanie to pokazuje, że
wśród zmienności y względem ich średniej wart.część zmienności
może być przypisana linii regresji, a część faktowi, że nie
wszystkie obserwacje leżą na linii regresji, gdyby bowiem wszystkie
leżały to suma kw.poza regresją=0 Z powyższego wynika, że ustalenie
jak dalece linia regresji będzie przydatna do prognozowania sprowadza
się do stwierdzenia jak duża część sumy SG zawarta jest w sumie SM
a jak duża w sumie SR. Będziemy zadowoleni jeśli SM będzie dużo
większe od SR, lub co na jedno wychodzi stosun R2=SM/SG nie odbiega
zbyt wiele od jedności. Stosunek R2 jest tu kwadr.współ.korelacji z
próby pomiędzy zmienn.x i Y.
Z definicji wynika, że współ.R2 może być traktowany jako miara
stopnia dopasowania prostej regresji do danych doświad. Jego wartość
należy do przedziału domkniętego [0,1]/ Gdy R2=1 to przewidywanie
jest idealne. Można też wykazać, że jeśli β=0 to statysty.
Ma rozkład F-Snedecora z 1 stopniem swobody dla licznika i n-2
stopniami swobody dla mianow.hipotez H0 odrzuca się gdy wart.obliczona
statyst.F przekracza wart.krytyczną przy zadanym poziomie istostności
α.
Ponieważ w wyniku estymacji współ zależności regresyjnej otrzymuje
się ocenę punktową Y celowym jest wyznaczyć przedział ufności dla
oczekiwanej wart.E(Y) dla określ.wart.x0, który wyrażony jest wzorem
Przedział ten jest najmniejszy jeśli x0=x i zwiększa się przy
oddaleniu się x0 od x w dowolnym kierunku. Więc im większa jest
odległość xo od x tym większy jest przedział ufności dla
wart.oczekiw, czyli mniejsza jest precyzja prognozy. Skoro pojedyncza
wart.obserwowana Y może zmienić się wokół prawdziwej wartości
oczekiwanej z wariancją σ2, to przezdiał ufności dla pojedynczej
obserwacji będzie określony wzorem :
Przedział ten jest oczywiście szerszy od przedziału dla wart.oczekiw.
E(Y/x0) dla danego x0 ponieważ jest to przezdiał w którym należy
się spodziewać (1-α)100% przyszłych obserwacji zmiennej los.Y w
punkcie xo.
Regresja wielokrotna – wybór zmiennych
Dotychczas rozważane modele regresji były modelami pierwszego stopnia
jednej zmiennej niezależnej. Bardziej ogólny typ modelu liniowego
zmiennych x1 ...xn może być przedstawiony w postaci E(Y/x)=β0-β1
f1(x) + β2 f2(x)+ ........+βmf(x)Każda funkcja fi(x),i
=1,2.....,mjest ogólnie funkcja zmiennych niezależnych xt
=(x1,x2.......xk0i może przybierać dowolną postać.W najprostrzym
przypadku każda f1(x) może zawierać tylko jedną zmienną x.Nieznane
współcz.β0,β1....βmnazywa się wspól.regresji
wielokrotnej.Interesują nas następ. Problemy-wybór
podzbioru(F1(x),f2(x),....fm(x) )funkcji zmiennych niezależnych do
modelu z pewnego zadanego zbioru.-oszacowanie współ.regresji
β0,β1.....βm,i weryfikacja hipotezHoi:βi=0,i =0, 1....m,
-ocena stopnia dopasowania zależności zawierajacej wybrane funkcje
zmiennych niezależnych do danych.Niech
(x11,x12,...x1k,y1),...,(xx1,xx2,...,xnk,yn)będzie ciągiem n wektorów
obserwacji zmiennych niezależnych x1,x2,....., xkoraz zmiennej
zależnej Y.Przyjmuje się, że zbior funkcji f1(x),f2(x),...fm(x) jest
zadany,przy czym liczba funkcji w tym zbiorze m+ 1≤n.Jedną z metod
wyboru podzbioru funkcji f(x) zmiennych niezależnych jest metoda
odrzucenia,Zasadnicze etapy tej prpcedury są następujące;
1.Oblicza się oszacowania współcz.regresji w modelu zawierającym
wszystkie możliwe funkcje zmiennych niezależnych,stosując metodę
najmniejszcych kwadratów zdefiniowaną w następ.sposób
2.Niech b0,bt,...bmbędą oszacowaniami nieznanych współczy. Regresji
β0,β1,...βnDla każdego współ.bi blicza się statystykę ti=bi/
sbi gdzie sbi2 jest wariancją oszacowania współczynnika
βi.Statystyka ta służy do weryfikacji hioptezy H0i; β1= 0,
okreslającej że udział zmiennej fi(x) w modelu regresji jest
nieistotny.że zmienna zależna Y ma rozkład normalny i hipoteza H0jest
prawdziwa,to statystyka ti ma rozkład t-Studenta z f=n-m-1 stopniami
swobody.Hipotezę odrzuca się, jeżeli wartośc obliczona ti przekracza
wartośc krytyczną ,przy zadanym poziomie istotności α 3.Znajduje
się najmniejszą wartość tmin.=min ti i porównuje się ją z
wartością krytyczną tα2f rozkładu t-Studenta.4.Jeśli tmin
≥kryt. To otrzymane równanie regresji zawiera tylko istotne funkcje
zmiennych niezależnych i uważa się je za ostateczne.5.Jeśli tmin<
kryt. To funkcję zmiennej niezależnej fi(x)usuwa się z równ.ponownie
oblicza się oszacowania współ.równania regresji z pozostałymi
funkcjami zmiennych niezależnych i wraca do etapu2..Ocenę stopnia
dopasowania wyznaczonego równania regresji do danych przeprowadza się
w oparciu o tebelę analizy wariancji podobnie jek dla regresji jednej
zmiennej niezależnej,Oblica się więc następujące wielkości
-zmienność całkowita
-zmiennośc wynikająca z przyjętego modelu regresji
-zmienność resztowa,
R2= SM/ SG
Współczynnik R2nazywamy współ.determinacji i jest on kwadratem
współ. Korelacji wielokrotnej z próby R.Wartość R2 należy do
przedziału domkniętego [0,1] i może być traktowana jako miwra
stopnia dpoasowania powierzchni regresji do danych
doświadczalnych.Hipoteza Ho; R2 =0 stwierdza, że udział zmiennych
niezależnych w modelu regresji jest nieistotny i jest równoważna
hipotezie H0;β1=β2=....βn=0 .Przy prawdziwości hipotezy H0
statystyka
Ma rozkład F-Snedecora z m stopniami swobody dla licznika i n-m-1
stopniami swobody dla mianownika Hipotezę H0 odrzuca się, jeżeli
obliczona wartośc F przekracza wartośc krytyczną F i, przy przyjętym
poziomie istotności α Podobnie jak w regresji jednej zmiennek
niezależnej wielkości te przedstawiane są w postaci tabeli analizy
wariancji.Procedura eliminacji zmiennych ma tą niedogodnośc, że po
odrzuceniu kolejnej funkcji może okazać się,że któraś z wcześnie
odrzuconych funkcji stanie się istotna ( z powodu korelacji między
funkcjami zmiennych)Powinna być zatem włączona do zależności.Tak
zmodefikowana procedura odrzucania,że po każdym odrzucaniu funkcji
analizowane są funkcje, które wczesniej były odrzucone i jeśli
znajdzie się funkcję istotną, włączona jest ona do zależności,
nazywa się regresją krokową z odrzucaniem zmiennych.Jeśli
przewidywana liczba funkcji zmiennych niezależnych w końcowym
równaniu regresji jest znacznie mniejsza od liczby funkcji w zbiorze
wyjściowym,bardziej korzystna może okazać się inna metoda wyboru
funkcji fi(x) , tzw.metoda regresji krokowej z dołączeniem zmiennych.
Wówczas obliczenia przebiegają zgodnie z następującymi krokami.
startuje się z modelem E(Y/x)=β0, który nie zawiera żadnej funkcji
zmiennych niezależnych fi(x), i=1...m.
dla każdej funkcji fi(x) z postulowanego zbioru oblicza się
oszacowania b0 i bi współczynników β0 i βi modelu regresji
E(Y/x)=β0+βi fi(x).Następnie oblicza się następujące wielkości:
Do równania regresji wybiera się funkcję zmiennej niezależnej dla
której wartość Fi jest największa i przekracza wartość krytyczną
Fα rozkładu F-Snedecora z 1 i n-2 stopniami swobody. Oczywiście
jeżeli dla żadnej z funkcji zmiennych wartość Fi nie przekracza
wartości krytycznej Fα to przyjmuje się model E(Y/x)=b0.
Jeżeli funkcja fi(x) została włączona do równania to w następnym
kroku poszukuje się kolejnej funkcji fk(x), która mogłaby być
włączona do równania. W tym celu oblicza się oszacowania bo,bi,bk
współczynników β0, βi, βk, E(Y/x)=b0+bifi(x)+bkfk(x)
Do równania regresji dołącza się funkcję fk(x) dla której
wartość Fi,k jest największa i przekracza wartość krytyczną Fα
rozkładu F-Snedecora z 1 i n-3 stopniami swobody.
4. jeżeli dla żadnej z funkcji zmiennych niezależnych wartość Fi,k
nie przekracza wartości krytycznej Fα to otrzymane równanie
E(Y/x)=β0+βifi(x) uważa się za ostateczne. Dalsze postępowanie
polega na poszukiwaniu kolejnej funkcji, która mogłaby być
dołączona do podzbioru [fi(x);fk(x)] według zasad opisanych w krokach
3 i 4 aż do ustalenia końcowego zbioru funkcji zmiennych niezależnych
wchodzących do równania regresji. Należy podkreślić, że w każdym
kroku dołączania funkcji do podzbioru może wystąpić konieczność
wyeliminowania jednej z wcześniej dołączonych funkcji. Spowodowane to
jest korelacją między poszczególnymi funkcjami w wyniku czego po
dołączeniu pewnej funkcji inna funkcja będąca już w równaniu może
okazać się nieistotna.
sciaga lab 4 5
Model regresji określa liniową zależność funk.wart.
oczekiw.(śred)zmiennej los.Y od nielos.zmien.x, która może zmieniać
się z doświadczenia na dośw.:
E(Y/x)=α+βx. W każdym oddzielnym doświad.x przyjmuje pewną wart.xi
więc wart.oczekiw.Yi będzie α+βxi.Sama zmienna Yi może być
przedstawiona jako Yi= α+βxi+Ei, gdzie Ei jest zmienną losową o
średniej zero nazywaną odchyleniem losowym. Oprócz tego zakłada
się, żę wszystkie wyniki doświad.yi są niezależne i podlegają
rozkł.normalnemu o pewnej nieznanej wartości oczekiwanej E(Y) i pewnej
wariancji σ2 niezależnej od wartości x. W innej klasie zagadnień
zainteresowanie skupia się na przewidywaniu wart.jednej zmiennej los.Y
na podst.obserwacjii innej zmiennej losowej X. Przy liniowym modelu
zależ.,warunkowa wart.oczek.zmiennej Y pod warunkiem, że X=x jest
średnią liniową x: E(Y/X=x) = α+βx. Dla pewnej wartości zmiennej
losowej X, zmienna losowa Y ma pewien warunkowy rozkład wokół
wartości oczekiwanej i pewną warunkową wariancję σy2. W wielu
analizach statyst.zakłada się, że ten warunkowy rozkład jest norm.o
wariancji zależnej od konkretnej wartości x. Jeśli zmienne X i Y
podlegają pewnemu dwuwymiarowemu rozkładowi normalnemu to:
Łatwo zauważyć, że: β=ρ(σy/σx) oraz α=μy-βμx, gdzie: μy i
μx – brzegowe wart.oczekiw.zmiennych los.XiY, σy i σx – brzegowe
odchylenia stand.zmienn. los.XiY, ρ – współ.korelacji między
zmiennymi los. X i Y. Z tego, że XiY są zmiennymi los. wynika, że
można rozpatrywać alternatywny problem prognozy E(X/Y=y) =
α’+β’x. Zależność zmiennej los.X względem zmiennej los.Y jest
określona wzorem:
Różnica w obu typach modeli zależności polega na interpretacji x;
czy reprezentuje wartość obserwowaną zmiennej los.X. W każdym
przypadku podstawowym zał.modelu jest fakt, że dla danych liczb x
wart.oczek.E(Y) jest liniowa wzgl.x, a więc równa α+βx. W obu
przypadkach może być stsowana
Do estymacji współ.zależności analiza regresji, chociaż gdy XiY są
zmiennymi los, estymacja 5 parametrów: μy,μx,σy ,σx,ρ również
jest właściwa i taka procedura nazywana jest statys.analizą
korelacji. Analiza regresji obejmuje zasadniczo dwie
gr.zagadnień:estymację współ.zależności i weryfikację uzyskanej
zależności. W najprostszym modelu zależności liniowej estymacji
podlegają 3 parmaetry: współ.α, współ.kier.β i wariancja σ2.
Natomiast przy weryfikacji zależności sprawdza się hipot.zer.H0:
β=0. Kiedy w analizie regresji mówi się, że model jest liniowe
bądź nieliniowy, odnosi się to do liniowości lub niel.względem
współ. Wartość najwyższej potęgi zmiennej niezależ.modelu nazywa
się stopniem modelu. Np. zakładając, że związek między zmienną
zależną Y a zmienną niezależ.x,jest w postaci modelu
nieliniow.multiplikatywnego: Y=αxβε, gdzie ε-odchylenie los.
Wówczas poprzez logarytm.można przekształcić ten model do postaci
liniowej: lnY=lnα+βlnx+lnε i analizować go przy użyciu metod
regresji liniowej. Podobnie model wykład.: Y=exp(α+βx), przekształca
się do: lnY=α+βx i model odwrotny: Y=1/α+βx w 1/Y=α+βx Regresja
jednej zmiennej niezależnej
Powszechnie stosowaną metodą estymacji wspól.α i β w modelu
regresji liniowej jest metoda najmniejszych kwadratów. Niech
(x1,y1)...(xn,yn) będzie ciągiem wyników obserwacji. Zgodnie z tą
metodą oszacowania a i b współ. α i β minimalizują sumę
kwadratów odchyleń obserwacji od prostej regresji, określono:
Estymatory a i b współ. α i β otrzymane tą metodą są określone
wzorami.
Gdzie:
Są odpowiednio średnimi arytm.wynikó obserwacji xi i yi. Sprawdzenie
czy zależność między zmienną zależną Y, a zmienną niezależną x
jest istotna statyst. polega na weryfikacji hip.H0 β=0 o nieistotności
zależności wobec hipot.alternatyw. H0 β=0 w oparciu o statyst.:
t=b/sb, gdzie sb-odchyl.stand.estymatora b współ.β.
Gdzie s2-oszacow.wariancji σ2 zmiennej.losY. Zwykle jako tego
oszacowania używa się sumy kwadr.odchyleń obserwowoanych wart. yi od
wart.estrymowanych ŷi podzielonych przez licz.stopni swobody:
Statstyka t, przy założ.prawdziwości hipot.Ho ma rozkład t-Studenta
o f=n-2 stopniach swobody. Hipotezę Ho odrzuca się, jeśli wart.!t!
przekracza wart.kryt.przy zadanym poziomie istotności α. Weryfikację
hipotezy Ho; β=0 można też przeprowadzić w oparciu o analizę
wariancji zależności regrysyjnej. Przyjmuje się oznaczenia
Suma kwadratów poza średnią (zmienność całk)
Suma kwadratów regresji (zmiennośc wynikająca z przyjętego modelu)
Suma kwadr.poza regresją (zmienność resztowa)
Można udowodnić tożsamość SG=SM+SR. Równanie to pokazuje, że
wśród zmienności y względem ich średniej wart.część zmienności
może być przypisana linii regresji, a część faktowi, że nie
wszystkie obserwacje leżą na linii regresji, gdyby bowiem wszystkie
leżały to suma kw.poza regresją=0 Z powyższego wynika, że ustalenie
jak dalece linia regresji będzie przydatna do prognozowania sprowadza
się do stwierdzenia jak duża część sumy SG zawarta jest w sumie SM
a jak duża w sumie SR. Będziemy zadowoleni jeśli SM będzie dużo
większe od SR, lub co na jedno wychodzi stosun R2=SM/SG nie odbiega
zbyt wiele od jedności. Stosunek R2 jest tu kwadr.współ.korelacji z
próby pomiędzy zmienn.x i Y.
Z definicji wynika, że współ.R2 może być traktowany jako miara
stopnia dopasowania prostej regresji do danych doświad. Jego wartość
należy do przedziału domkniętego [0,1]/ Gdy R2=1 to przewidywanie
jest idealne. Można też wykazać, że jeśli β=0 to statysty.
Ma rozkład F-Snedecora z 1 stopniem swobody dla licznika i n-2
stopniami swobody dla mianow.hipotez H0 odrzuca się gdy wart.obliczona
statyst.F przekracza wart.krytyczną przy zadanym poziomie istostności
α.
Ponieważ w wyniku estymacji współ zależności regresyjnej otrzymuje
się ocenę punktową Y celowym jest wyznaczyć przedział ufności dla
oczekiwanej wart.E(Y) dla określ.wart.x0, który wyrażony jest wzorem
Przedział ten jest najmniejszy jeśli x0=x i zwiększa się przy
oddaleniu się x0 od x w dowolnym kierunku. Więc im większa jest
odległość xo od x tym większy jest przedział ufności dla
wart.oczekiw, czyli mniejsza jest precyzja prognozy. Skoro pojedyncza
wart.obserwowana Y może zmienić się wokół prawdziwej wartości
oczekiwanej z wariancją σ2, to przezdiał ufności dla pojedynczej
obserwacji będzie określony wzorem :
Przedział ten jest oczywiście szerszy od przedziału dla wart.oczekiw.
E(Y/x0) dla danego x0 ponieważ jest to przezdiał w którym należy
się spodziewać (1-α)100% przyszłych obserwacji zmiennej los.Y w
punkcie xo.
Regresja wielokrotna – wybór zmiennych
Dotychczas rozważane modele regresji były modelami pierwszego stopnia
jednej zmiennej niezależnej. Bardziej ogólny typ modelu liniowego
zmiennych x1 ...xn może być przedstawiony w postaci E(Y/x)=β0-β1
f1(x) + β2 f2(x)+ ........+βmf(x)Każda funkcja fi(x),i
=1,2.....,mjest ogólnie funkcja zmiennych niezależnych xt
=(x1,x2.......xk0i może przybierać dowolną postać.W najprostrzym
przypadku każda f1(x) może zawierać tylko jedną zmienną x.Nieznane
współcz.β0,β1....βmnazywa się wspól.regresji
wielokrotnej.Interesują nas następ. Problemy-wybór
podzbioru(F1(x),f2(x),....fm(x) )funkcji zmiennych niezależnych do
modelu z pewnego zadanego zbioru.-oszacowanie współ.regresji
β0,β1.....βm,i weryfikacja hipotezHoi:βi=0,i =0, 1....m,
-ocena stopnia dopasowania zależności zawierajacej wybrane funkcje
zmiennych niezależnych do danych.Niech
(x11,x12,...x1k,y1),...,(xx1,xx2,...,xnk,yn)będzie ciągiem n wektorów
obserwacji zmiennych niezależnych x1,x2,....., xkoraz zmiennej
zależnej Y.Przyjmuje się, że zbior funkcji f1(x),f2(x),...fm(x) jest
zadany,przy czym liczba funkcji w tym zbiorze m+ 1≤n.Jedną z metod
wyboru podzbioru funkcji f(x) zmiennych niezależnych jest metoda
odrzucenia,Zasadnicze etapy tej prpcedury są następujące;
1.Oblicza się oszacowania współcz.regresji w modelu zawierającym
wszystkie możliwe funkcje zmiennych niezależnych,stosując metodę
najmniejszcych kwadratów zdefiniowaną w następ.sposób
2.Niech b0,bt,...bmbędą oszacowaniami nieznanych współczy. Regresji
β0,β1,...βnDla każdego współ.bi blicza się statystykę ti=bi/
sbi gdzie sbi2 jest wariancją oszacowania współczynnika
βi.Statystyka ta służy do weryfikacji hioptezy H0i; β1= 0,
okreslającej że udział zmiennej fi(x) w modelu regresji jest
nieistotny.że zmienna zależna Y ma rozkład normalny i hipoteza H0jest
prawdziwa,to statystyka ti ma rozkład t-Studenta z f=n-m-1 stopniami
swobody.Hipotezę odrzuca się, jeżeli wartośc obliczona ti przekracza
wartośc krytyczną ,przy zadanym poziomie istotności α 3.Znajduje
się najmniejszą wartość tmin.=min ti i porównuje się ją z
wartością krytyczną tα2f rozkładu t-Studenta.4.Jeśli tmin
≥kryt. To otrzymane równanie regresji zawiera tylko istotne funkcje
zmiennych niezależnych i uważa się je za ostateczne.5.Jeśli tmin<
kryt. To funkcję zmiennej niezależnej fi(x)usuwa się z równ.ponownie
oblicza się oszacowania współ.równania regresji z pozostałymi
funkcjami zmiennych niezależnych i wraca do etapu2..Ocenę stopnia
dopasowania wyznaczonego równania regresji do danych przeprowadza się
w oparciu o tebelę analizy wariancji podobnie jek dla regresji jednej
zmiennej niezależnej,Oblica się więc następujące wielkości
-zmienność całkowita
-zmiennośc wynikająca z przyjętego modelu regresji
-zmienność resztowa,
R2= SM/ SG
Współczynnik R2nazywamy współ.determinacji i jest on kwadratem
współ. Korelacji wielokrotnej z próby R.Wartość R2 należy do
przedziału domkniętego [0,1] i może być traktowana jako miwra
stopnia dpoasowania powierzchni regresji do danych
doświadczalnych.Hipoteza Ho; R2 =0 stwierdza, że udział zmiennych
niezależnych w modelu regresji jest nieistotny i jest równoważna
hipotezie H0;β1=β2=....βn=0 .Przy prawdziwości hipotezy H0
statystyka
Ma rozkład F-Snedecora z m stopniami swobody dla licznika i n-m-1
stopniami swobody dla mianownika Hipotezę H0 odrzuca się, jeżeli
obliczona wartośc F przekracza wartośc krytyczną F i, przy przyjętym
poziomie istotności α Podobnie jak w regresji jednej zmiennek
niezależnej wielkości te przedstawiane są w postaci tabeli analizy
wariancji.Procedura eliminacji zmiennych ma tą niedogodnośc, że po
odrzuceniu kolejnej funkcji może okazać się,że któraś z wcześnie
odrzuconych funkcji stanie się istotna ( z powodu korelacji między
funkcjami zmiennych)Powinna być zatem włączona do zależności.Tak
zmodefikowana procedura odrzucania,że po każdym odrzucaniu funkcji
analizowane są funkcje, które wczesniej były odrzucone i jeśli
znajdzie się funkcję istotną, włączona jest ona do zależności,
nazywa się regresją krokową z odrzucaniem zmiennych.Jeśli
przewidywana liczba funkcji zmiennych niezależnych w końcowym
równaniu regresji jest znacznie mniejsza od liczby funkcji w zbiorze
wyjściowym,bardziej korzystna może okazać się inna metoda wyboru
funkcji fi(x) , tzw.metoda regresji krokowej z dołączeniem zmiennych.
Wówczas obliczenia przebiegają zgodnie z następującymi krokami.
startuje się z modelem E(Y/x)=β0, który nie zawiera żadnej funkcji
zmiennych niezależnych fi(x), i=1...m.
dla każdej funkcji fi(x) z postulowanego zbioru oblicza się
oszacowania b0 i bi współczynników β0 i βi modelu regresji
E(Y/x)=β0+βi fi(x).Następnie oblicza się następujące wielkości:
Do równania regresji wybiera się funkcję zmiennej niezależnej dla
której wartość Fi jest największa i przekracza wartość krytyczną
Fα rozkładu F-Snedecora z 1 i n-2 stopniami swobody. Oczywiście
jeżeli dla żadnej z funkcji zmiennych wartość Fi nie przekracza
wartości krytycznej Fα to przyjmuje się model E(Y/x)=b0.
Jeżeli funkcja fi(x) została włączona do równania to w następnym
kroku poszukuje się kolejnej funkcji fk(x), która mogłaby być
włączona do równania. W tym celu oblicza się oszacowania bo,bi,bk
współczynników β0, βi, βk, E(Y/x)=b0+bifi(x)+bkfk(x)
Do równania regresji dołącza się funkcję fk(x) dla której
wartość Fi,k jest największa i przekracza wartość krytyczną Fα
rozkładu F-Snedecora z 1 i n-3 stopniami swobody.
4. jeżeli dla żadnej z funkcji zmiennych niezależnych wartość Fi,k
nie przekracza wartości krytycznej Fα to otrzymane równanie
E(Y/x)=β0+βifi(x) uważa się za ostateczne. Dalsze postępowanie
polega na poszukiwaniu kolejnej funkcji, która mogłaby być
dołączona do podzbioru [fi(x);fk(x)] według zasad opisanych w krokach
3 i 4 aż do ustalenia końcowego zbioru funkcji zmiennych niezależnych
wchodzących do równania regresji. Należy podkreślić, że w każdym
kroku dołączania funkcji do podzbioru może wystąpić konieczność
wyeliminowania jednej z wcześniej dołączonych funkcji. Spowodowane to
jest korelacją między poszczególnymi funkcjami w wyniku czego po
dołączeniu pewnej funkcji inna funkcja będąca już w równaniu może
okazać się nieistotna.