Przeglądaj wersję html pliku:

Statystyka opisowa 1_4


POLITECHNIKA SZCZECIŃSKA

LABORATORIUM STATYSTYKI MATEMATYCZNEJ

SPRAWOZDANIE NR 1

Ćwiczenie nr 1 Temat: Statystyka opisowa. Estymacja parametrów
zmiennej losowej

Zestaw nr 2

Nazwisko i Imię:

Budzyński Marcin Wydział Mechaniczny Grupa

Data wykonania ćwiczenia: Ocena:

Prowadzący ćwiczenie:

Podpis:





l. Cel ćwiczenia

Celem ćwiczenia jest zapoznanie się ze sposobami opisu istotnych cech
zmiennej losowej na podstawie danych z próby, obliczenie podstawowych
wielkości charakteryzujących te dane oraz estymacja wartości
oczekiwanej i wariancji zmiennej losowej.

2. Statystyka opisowa

Analiza zebranych danych doświadczalnych powinna umożliwić
określenie istotnych właściwości badanej zmiennej losowej na
podstawie zebranych danych. Niech

x1,x2...,xn będzie ciągiem n obserwacji zmiennej losowej. Do
podstawowych charakterystyk opisujących zmienną należą:

-średnia arytmetyczna:

mediana: wielkość w uporządkowanym ciągu obserwacji, poniżej
której leży 50% danych

-wariancja:

- odchylenie standardowe:

błąd standardowy średniej:

rozstęp:

dolny kwartyl: wielkość w uporządkowanym ciągu obserwacji, poniżej
której leży

25% danych,

górny kwartyl: wielkość w uporządkowanym ciągu obserwacji, poniżej
której leży 75% danych,

- współczynnik asymetrii (skośność):

współczynnik skupienia (kurtoza):



Średnia, mediana i kwartyle należą do grupy charakterystyk nazywanych
miarami położenia. Określają one średni lub typowy poziom wartości
zmiennej, czyli przedstawiają przeciętny poziom badanej cechy.

Rozstęp, wariancja i odchylenie standardowe charakteryzują zmienność
(rozproszenie) badanej cechy i dlatego nazywane są miarami zmienności.

Współczynnik asymetrii (skośność) określa kierunek i siłę
asymetrii rozkładu danych. Współczynnik asymetrii równy zero (g1 =
0) wskazuje na symetrię rozkładu zmiennej. Wartość dodatnia (g1 > 0)
oznacza asymetrię prawostronną (rozkład ma dłuższy prawy "ogon"),
natomiast wartość ujemna (gi < 0) oznacza asymetrię lewostronną
(rozkład ma dłuższy lewy "ogon").

Współczynnik skupienia (kurtoza) opisuje koncentrację wartości
badanej cechy wokół średniej. Jeżeli kurtoza jest ujemna (K < 0), to
rozkład jest bardziej spłaszczony od rozkładu normalnego, a jeżeli
kurtoza jest dodatnia (K > 0) to rozkład jest bardziej wysmukły niż
normalny. Im większa jest wartość kurtozy tym rozkład jest bardziej
wysmukły, czyli występuje większa koncentracja cechy wokół
wartości średniej.

Wygodnym sposobem przedstawienia danych obserwowanych pozwalających na
wizualne poznanie rozkładu danych jest ich prezentacja graficzna, w tym
celu, przy dostatecznie dużej liczbie danych (n>30), można je
przedstawić w postaci tzw. szeregu rozdzielczego (tabeli liczebności).
Tworzy się go dzieląc przedział zmienności [Xmin-, Xmax] na zadaną
liczbę k klas o równej długości i obliczając liczbę danych n,
(liczebność) należących do kolejnych klas. Wybór liczby klas jest w
zasadzie dowolny. Należy jednak pamiętać, że zbyt duża liczba klas
(tym samym zbyt wąskie przedziały klasowe) nie daje przejrzystego
obrazu, ujawniają się przypadkowe odchylenia. Zbyt mała liczba klas
zaciera istotne szczegóły zawarte w danych. Można tutaj skorzystać z
podawanego w piśmiennictwie wzoru na liczbę klas k = 1+ 3,3 log n.

Graficznym sposobem przedstawienia informacji zawartych w szeregu
rozdzielczym jest histogram liczebności (częstości). Jest to wykres
słupkowy, w którym wysokość słupka jest proporcjonalna do
liczebności. Jeżeli liczby obserwacji w klasach zostaną podzielone
przez całkowitą liczbę danych n , otrzyma się alternatywną formę
interpretacji danych zwaną histogramem liczebności względnej. Często
też korzysta się z szeregu rozdzielczego w postaci skumulowanej, w
którym liczebność danej klasy zastępuje się liczbą obserwacji
należących do danej klasy i wszystkich poprzedzających ją. Wówczas
dane mogą być przedstawione w postaci histogramu liczebności
skumulowanej lub histogramu skumulowanej liczebności względnej.

3. Wyniki obliczeń i wnioski

Omówienie wyników zadania 1.

Otrzymane wyniki przedstawiliśmy w tabeli 1. W celu wykonania tabeli
liczebności i histogramu przyjęliśmy liczbę klas k=7 obliczoną ze
wzoru:

k = 1 + 3,3logn

k=1+3,3*log82=7,315



Wyniki obliczeń dla przybliżonej liczby klas k=7 przedstawiliśmy w
tabeli 2 i na rysunku 1. Ocena punktowa wartości oczekiwanej czasu
przepalania się wkładki bezpiecznika wynosi x=57,439 a wariancja
s2=46,520. Ocena przedziałowa wartości oczekiwanej, 95% przedział
ufności wynosi od 55.940 do 58.937 i oznacza iż ten przedział
liczbowy z prawdopodobieństwem 95% pokrywa nieznaną wartość
przeciętną czasu przepalania się bezpieczników.

Statystyki opisowe Czas przepalania się bezpieczników

N ważnych 82

Średnia 57,439

P. ufności -95,000% 55,940

P. ufności +95,000% 58,937

Mediana 58,000

Suma 4710,000

Minimum 41,000

Maksimum 75,000

Dolny kwartyl 53,000

Górny kwartyl 62,000

Rozstęp 34,000

Rozstęp kwartyl 9,000

Wariancja 46,520

Odchyłka Std. 6,820

Błąd standardowy 0,753

Skośność 0,100

Bł std. skośności 0,265

Kurtoza 0,284

Bł. std. kurtoza 0,525



Tabela liczebności

Podst. statyst. Liczność Skumul

Liczność Proc.

ważnych % skumul

ważnych

30<x<=40 0 0 0,000 0,000

40<x<=50 12 12 14,634 14,634

50<x<=60 45 57 54,878 69,512

60<x<=70 22 80 28,048 97,561

70<x<=80 2 82 2,439 100,000

BD 0 82 0,000 ---------------



Na podstawie obliczonych wartości charakterystyk i histogramów można
stwierdzić że rozkład danych w próbce jest jednomaodalny. Wartość
mediany jest większa od wartości średniej oraz skośność jest
dodatnia czyli rozkład jest lekko niesymetryczny o prawostronnej
asymetrii. Kurtoza jest dodatnia, a więc rozkład jest bardziej
wysmukły od normalnego.

rys.1 Histogram liczebności

Dla danych z zadania 1 wykonaliśmy trzy histogramy dla liczby klas k=7,
k=3, k=14

Rys.2 Histogram dla klas k=7

Rys.3 Histogram dla liczby klas k=3

Rys.4 Histogram dla liczby klas k=14

Histogram przedstawiony na rys. 2 wykonaliśmy dla liczby klas k=7,
różni się od histogramu na rys. 3 na którym rzeczywista liczba klas
jest równa 3. Na rys.2 są lepiej widoczne istotne cechy badanej
zmiennej, przede wszystkim wyraźnie zaznaczona jest asymetria danych i
dokładniej określone rozłożenie wartości najmniejszych i
największych. Na rys. 4 przedstawiono histogram o dwukrotnie większej
liczbie klas niż jest zalecana. Obraz rozkładu danych jest w tym
przypadku z zniekształcony przez zbyt silne zaznaczenie lokalnych zmian
oraz przez pojawiające się klasy puste.

Omówienie wyników zadania 2.



Wyniki przedstawione są w tabeli 3.

Ocena punktowa wartości oczekiwanej wynosi x=9,790 natomiast z oceny
przedziałowej wynika że 95% przedziału ufności wynosi od 9,780 do
9,799. Nieobciążona ocena wariancji błędu przyrządu pomiarowego
równa jest s2=0,000171.

Tabela 3.

Statystyki opisowe Zmienna (wydajność)

N - ważnych 10

Średnia 9,7901

P. ufn. –95.000% 9,780758

P. ufn. +95.000% 9,799442

Wariancja 0,000171



 
statystyka