Przeglądaj wersję html pliku:
POLITECHNIKA SZCZECIŃSKA
LABORATORIUM STATYSTYKI MATEMATYCZNEJ
SPRAWOZDANIE NR 1
Ćwiczenie nr 1 Temat: Statystyka opisowa. Estymacja parametrów
zmiennej losowej
Zestaw nr 2
Nazwisko i Imię:
Budzyński Marcin Wydział Mechaniczny Grupa
Data wykonania ćwiczenia: Ocena:
Prowadzący ćwiczenie:
Podpis:
l. Cel ćwiczenia
Celem ćwiczenia jest zapoznanie się ze sposobami opisu istotnych cech
zmiennej losowej na podstawie danych z próby, obliczenie podstawowych
wielkości charakteryzujących te dane oraz estymacja wartości
oczekiwanej i wariancji zmiennej losowej.
2. Statystyka opisowa
Analiza zebranych danych doświadczalnych powinna umożliwić
określenie istotnych właściwości badanej zmiennej losowej na
podstawie zebranych danych. Niech
x1,x2...,xn będzie ciągiem n obserwacji zmiennej losowej. Do
podstawowych charakterystyk opisujących zmienną należą:
-średnia arytmetyczna:
mediana: wielkość w uporządkowanym ciągu obserwacji, poniżej
której leży 50% danych
-wariancja:
- odchylenie standardowe:
błąd standardowy średniej:
rozstęp:
dolny kwartyl: wielkość w uporządkowanym ciągu obserwacji, poniżej
której leży
25% danych,
górny kwartyl: wielkość w uporządkowanym ciągu obserwacji, poniżej
której leży 75% danych,
- współczynnik asymetrii (skośność):
współczynnik skupienia (kurtoza):
Średnia, mediana i kwartyle należą do grupy charakterystyk nazywanych
miarami położenia. Określają one średni lub typowy poziom wartości
zmiennej, czyli przedstawiają przeciętny poziom badanej cechy.
Rozstęp, wariancja i odchylenie standardowe charakteryzują zmienność
(rozproszenie) badanej cechy i dlatego nazywane są miarami zmienności.
Współczynnik asymetrii (skośność) określa kierunek i siłę
asymetrii rozkładu danych. Współczynnik asymetrii równy zero (g1 =
0) wskazuje na symetrię rozkładu zmiennej. Wartość dodatnia (g1 > 0)
oznacza asymetrię prawostronną (rozkład ma dłuższy prawy "ogon"),
natomiast wartość ujemna (gi < 0) oznacza asymetrię lewostronną
(rozkład ma dłuższy lewy "ogon").
Współczynnik skupienia (kurtoza) opisuje koncentrację wartości
badanej cechy wokół średniej. Jeżeli kurtoza jest ujemna (K < 0), to
rozkład jest bardziej spłaszczony od rozkładu normalnego, a jeżeli
kurtoza jest dodatnia (K > 0) to rozkład jest bardziej wysmukły niż
normalny. Im większa jest wartość kurtozy tym rozkład jest bardziej
wysmukły, czyli występuje większa koncentracja cechy wokół
wartości średniej.
Wygodnym sposobem przedstawienia danych obserwowanych pozwalających na
wizualne poznanie rozkładu danych jest ich prezentacja graficzna, w tym
celu, przy dostatecznie dużej liczbie danych (n>30), można je
przedstawić w postaci tzw. szeregu rozdzielczego (tabeli liczebności).
Tworzy się go dzieląc przedział zmienności [Xmin-, Xmax] na zadaną
liczbę k klas o równej długości i obliczając liczbę danych n,
(liczebność) należących do kolejnych klas. Wybór liczby klas jest w
zasadzie dowolny. Należy jednak pamiętać, że zbyt duża liczba klas
(tym samym zbyt wąskie przedziały klasowe) nie daje przejrzystego
obrazu, ujawniają się przypadkowe odchylenia. Zbyt mała liczba klas
zaciera istotne szczegóły zawarte w danych. Można tutaj skorzystać z
podawanego w piśmiennictwie wzoru na liczbę klas k = 1+ 3,3 log n.
Graficznym sposobem przedstawienia informacji zawartych w szeregu
rozdzielczym jest histogram liczebności (częstości). Jest to wykres
słupkowy, w którym wysokość słupka jest proporcjonalna do
liczebności. Jeżeli liczby obserwacji w klasach zostaną podzielone
przez całkowitą liczbę danych n , otrzyma się alternatywną formę
interpretacji danych zwaną histogramem liczebności względnej. Często
też korzysta się z szeregu rozdzielczego w postaci skumulowanej, w
którym liczebność danej klasy zastępuje się liczbą obserwacji
należących do danej klasy i wszystkich poprzedzających ją. Wówczas
dane mogą być przedstawione w postaci histogramu liczebności
skumulowanej lub histogramu skumulowanej liczebności względnej.
3. Wyniki obliczeń i wnioski
Omówienie wyników zadania 1.
Otrzymane wyniki przedstawiliśmy w tabeli 1. W celu wykonania tabeli
liczebności i histogramu przyjęliśmy liczbę klas k=7 obliczoną ze
wzoru:
k = 1 + 3,3logn
k=1+3,3*log82=7,315
Wyniki obliczeń dla przybliżonej liczby klas k=7 przedstawiliśmy w
tabeli 2 i na rysunku 1. Ocena punktowa wartości oczekiwanej czasu
przepalania się wkładki bezpiecznika wynosi x=57,439 a wariancja
s2=46,520. Ocena przedziałowa wartości oczekiwanej, 95% przedział
ufności wynosi od 55.940 do 58.937 i oznacza iż ten przedział
liczbowy z prawdopodobieństwem 95% pokrywa nieznaną wartość
przeciętną czasu przepalania się bezpieczników.
Statystyki opisowe Czas przepalania się bezpieczników
N ważnych 82
Średnia 57,439
P. ufności -95,000% 55,940
P. ufności +95,000% 58,937
Mediana 58,000
Suma 4710,000
Minimum 41,000
Maksimum 75,000
Dolny kwartyl 53,000
Górny kwartyl 62,000
Rozstęp 34,000
Rozstęp kwartyl 9,000
Wariancja 46,520
Odchyłka Std. 6,820
Błąd standardowy 0,753
Skośność 0,100
Bł std. skośności 0,265
Kurtoza 0,284
Bł. std. kurtoza 0,525
Tabela liczebności
Podst. statyst. Liczność Skumul
Liczność Proc.
ważnych % skumul
ważnych
30<x<=40 0 0 0,000 0,000
40<x<=50 12 12 14,634 14,634
50<x<=60 45 57 54,878 69,512
60<x<=70 22 80 28,048 97,561
70<x<=80 2 82 2,439 100,000
BD 0 82 0,000 ---------------
Na podstawie obliczonych wartości charakterystyk i histogramów można
stwierdzić że rozkład danych w próbce jest jednomaodalny. Wartość
mediany jest większa od wartości średniej oraz skośność jest
dodatnia czyli rozkład jest lekko niesymetryczny o prawostronnej
asymetrii. Kurtoza jest dodatnia, a więc rozkład jest bardziej
wysmukły od normalnego.
rys.1 Histogram liczebności
Dla danych z zadania 1 wykonaliśmy trzy histogramy dla liczby klas k=7,
k=3, k=14
Rys.2 Histogram dla klas k=7
Rys.3 Histogram dla liczby klas k=3
Rys.4 Histogram dla liczby klas k=14
Histogram przedstawiony na rys. 2 wykonaliśmy dla liczby klas k=7,
różni się od histogramu na rys. 3 na którym rzeczywista liczba klas
jest równa 3. Na rys.2 są lepiej widoczne istotne cechy badanej
zmiennej, przede wszystkim wyraźnie zaznaczona jest asymetria danych i
dokładniej określone rozłożenie wartości najmniejszych i
największych. Na rys. 4 przedstawiono histogram o dwukrotnie większej
liczbie klas niż jest zalecana. Obraz rozkładu danych jest w tym
przypadku z zniekształcony przez zbyt silne zaznaczenie lokalnych zmian
oraz przez pojawiające się klasy puste.
Omówienie wyników zadania 2.
Wyniki przedstawione są w tabeli 3.
Ocena punktowa wartości oczekiwanej wynosi x=9,790 natomiast z oceny
przedziałowej wynika że 95% przedziału ufności wynosi od 9,780 do
9,799. Nieobciążona ocena wariancji błędu przyrządu pomiarowego
równa jest s2=0,000171.
Tabela 3.
Statystyki opisowe Zmienna (wydajność)
N - ważnych 10
Średnia 9,7901
P. ufn. –95.000% 9,780758
P. ufn. +95.000% 9,799442
Wariancja 0,000171
Statystyka opisowa 1_4
POLITECHNIKA SZCZECIŃSKA
LABORATORIUM STATYSTYKI MATEMATYCZNEJ
SPRAWOZDANIE NR 1
Ćwiczenie nr 1 Temat: Statystyka opisowa. Estymacja parametrów
zmiennej losowej
Zestaw nr 2
Nazwisko i Imię:
Budzyński Marcin Wydział Mechaniczny Grupa
Data wykonania ćwiczenia: Ocena:
Prowadzący ćwiczenie:
Podpis:
l. Cel ćwiczenia
Celem ćwiczenia jest zapoznanie się ze sposobami opisu istotnych cech
zmiennej losowej na podstawie danych z próby, obliczenie podstawowych
wielkości charakteryzujących te dane oraz estymacja wartości
oczekiwanej i wariancji zmiennej losowej.
2. Statystyka opisowa
Analiza zebranych danych doświadczalnych powinna umożliwić
określenie istotnych właściwości badanej zmiennej losowej na
podstawie zebranych danych. Niech
x1,x2...,xn będzie ciągiem n obserwacji zmiennej losowej. Do
podstawowych charakterystyk opisujących zmienną należą:
-średnia arytmetyczna:
mediana: wielkość w uporządkowanym ciągu obserwacji, poniżej
której leży 50% danych
-wariancja:
- odchylenie standardowe:
błąd standardowy średniej:
rozstęp:
dolny kwartyl: wielkość w uporządkowanym ciągu obserwacji, poniżej
której leży
25% danych,
górny kwartyl: wielkość w uporządkowanym ciągu obserwacji, poniżej
której leży 75% danych,
- współczynnik asymetrii (skośność):
współczynnik skupienia (kurtoza):
Średnia, mediana i kwartyle należą do grupy charakterystyk nazywanych
miarami położenia. Określają one średni lub typowy poziom wartości
zmiennej, czyli przedstawiają przeciętny poziom badanej cechy.
Rozstęp, wariancja i odchylenie standardowe charakteryzują zmienność
(rozproszenie) badanej cechy i dlatego nazywane są miarami zmienności.
Współczynnik asymetrii (skośność) określa kierunek i siłę
asymetrii rozkładu danych. Współczynnik asymetrii równy zero (g1 =
0) wskazuje na symetrię rozkładu zmiennej. Wartość dodatnia (g1 > 0)
oznacza asymetrię prawostronną (rozkład ma dłuższy prawy "ogon"),
natomiast wartość ujemna (gi < 0) oznacza asymetrię lewostronną
(rozkład ma dłuższy lewy "ogon").
Współczynnik skupienia (kurtoza) opisuje koncentrację wartości
badanej cechy wokół średniej. Jeżeli kurtoza jest ujemna (K < 0), to
rozkład jest bardziej spłaszczony od rozkładu normalnego, a jeżeli
kurtoza jest dodatnia (K > 0) to rozkład jest bardziej wysmukły niż
normalny. Im większa jest wartość kurtozy tym rozkład jest bardziej
wysmukły, czyli występuje większa koncentracja cechy wokół
wartości średniej.
Wygodnym sposobem przedstawienia danych obserwowanych pozwalających na
wizualne poznanie rozkładu danych jest ich prezentacja graficzna, w tym
celu, przy dostatecznie dużej liczbie danych (n>30), można je
przedstawić w postaci tzw. szeregu rozdzielczego (tabeli liczebności).
Tworzy się go dzieląc przedział zmienności [Xmin-, Xmax] na zadaną
liczbę k klas o równej długości i obliczając liczbę danych n,
(liczebność) należących do kolejnych klas. Wybór liczby klas jest w
zasadzie dowolny. Należy jednak pamiętać, że zbyt duża liczba klas
(tym samym zbyt wąskie przedziały klasowe) nie daje przejrzystego
obrazu, ujawniają się przypadkowe odchylenia. Zbyt mała liczba klas
zaciera istotne szczegóły zawarte w danych. Można tutaj skorzystać z
podawanego w piśmiennictwie wzoru na liczbę klas k = 1+ 3,3 log n.
Graficznym sposobem przedstawienia informacji zawartych w szeregu
rozdzielczym jest histogram liczebności (częstości). Jest to wykres
słupkowy, w którym wysokość słupka jest proporcjonalna do
liczebności. Jeżeli liczby obserwacji w klasach zostaną podzielone
przez całkowitą liczbę danych n , otrzyma się alternatywną formę
interpretacji danych zwaną histogramem liczebności względnej. Często
też korzysta się z szeregu rozdzielczego w postaci skumulowanej, w
którym liczebność danej klasy zastępuje się liczbą obserwacji
należących do danej klasy i wszystkich poprzedzających ją. Wówczas
dane mogą być przedstawione w postaci histogramu liczebności
skumulowanej lub histogramu skumulowanej liczebności względnej.
3. Wyniki obliczeń i wnioski
Omówienie wyników zadania 1.
Otrzymane wyniki przedstawiliśmy w tabeli 1. W celu wykonania tabeli
liczebności i histogramu przyjęliśmy liczbę klas k=7 obliczoną ze
wzoru:
k = 1 + 3,3logn
k=1+3,3*log82=7,315
Wyniki obliczeń dla przybliżonej liczby klas k=7 przedstawiliśmy w
tabeli 2 i na rysunku 1. Ocena punktowa wartości oczekiwanej czasu
przepalania się wkładki bezpiecznika wynosi x=57,439 a wariancja
s2=46,520. Ocena przedziałowa wartości oczekiwanej, 95% przedział
ufności wynosi od 55.940 do 58.937 i oznacza iż ten przedział
liczbowy z prawdopodobieństwem 95% pokrywa nieznaną wartość
przeciętną czasu przepalania się bezpieczników.
Statystyki opisowe Czas przepalania się bezpieczników
N ważnych 82
Średnia 57,439
P. ufności -95,000% 55,940
P. ufności +95,000% 58,937
Mediana 58,000
Suma 4710,000
Minimum 41,000
Maksimum 75,000
Dolny kwartyl 53,000
Górny kwartyl 62,000
Rozstęp 34,000
Rozstęp kwartyl 9,000
Wariancja 46,520
Odchyłka Std. 6,820
Błąd standardowy 0,753
Skośność 0,100
Bł std. skośności 0,265
Kurtoza 0,284
Bł. std. kurtoza 0,525
Tabela liczebności
Podst. statyst. Liczność Skumul
Liczność Proc.
ważnych % skumul
ważnych
30<x<=40 0 0 0,000 0,000
40<x<=50 12 12 14,634 14,634
50<x<=60 45 57 54,878 69,512
60<x<=70 22 80 28,048 97,561
70<x<=80 2 82 2,439 100,000
BD 0 82 0,000 ---------------
Na podstawie obliczonych wartości charakterystyk i histogramów można
stwierdzić że rozkład danych w próbce jest jednomaodalny. Wartość
mediany jest większa od wartości średniej oraz skośność jest
dodatnia czyli rozkład jest lekko niesymetryczny o prawostronnej
asymetrii. Kurtoza jest dodatnia, a więc rozkład jest bardziej
wysmukły od normalnego.
rys.1 Histogram liczebności
Dla danych z zadania 1 wykonaliśmy trzy histogramy dla liczby klas k=7,
k=3, k=14
Rys.2 Histogram dla klas k=7
Rys.3 Histogram dla liczby klas k=3
Rys.4 Histogram dla liczby klas k=14
Histogram przedstawiony na rys. 2 wykonaliśmy dla liczby klas k=7,
różni się od histogramu na rys. 3 na którym rzeczywista liczba klas
jest równa 3. Na rys.2 są lepiej widoczne istotne cechy badanej
zmiennej, przede wszystkim wyraźnie zaznaczona jest asymetria danych i
dokładniej określone rozłożenie wartości najmniejszych i
największych. Na rys. 4 przedstawiono histogram o dwukrotnie większej
liczbie klas niż jest zalecana. Obraz rozkładu danych jest w tym
przypadku z zniekształcony przez zbyt silne zaznaczenie lokalnych zmian
oraz przez pojawiające się klasy puste.
Omówienie wyników zadania 2.
Wyniki przedstawione są w tabeli 3.
Ocena punktowa wartości oczekiwanej wynosi x=9,790 natomiast z oceny
przedziałowej wynika że 95% przedziału ufności wynosi od 9,780 do
9,799. Nieobciążona ocena wariancji błędu przyrządu pomiarowego
równa jest s2=0,000171.
Tabela 3.
Statystyki opisowe Zmienna (wydajność)
N - ważnych 10
Średnia 9,7901
P. ufn. –95.000% 9,780758
P. ufn. +95.000% 9,799442
Wariancja 0,000171