Testowanie hipotezy rozkładu normalnego. Quiz: Rozkład chi-kwadrat i jego zastosowanie Według kryterium Pearsona

Test Pearsona

Test Pearsona, Lub test χ2- najczęściej stosowane kryterium testowania hipotezy o prawie dystrybucji. W wielu problemach praktycznych dokładne prawo rozkładu nie jest znane, czyli jest hipotezą wymagającą weryfikacji statystycznej.

Oznaczmy przez X badaną zmienną losową. Załóżmy, że chcemy przetestować hipotezę H 0, że ta zmienna losowa jest zgodna z prawem dystrybucji F(X) . Aby przetestować hipotezę, stworzymy próbę składającą się z n niezależnych obserwacji zmiennej losowej X. Na podstawie próbki możemy skonstruować rozkład empiryczny F * (X) badanej zmiennej losowej. Porównanie empiryczne F * (X), a rozkłady teoretyczne wykonuje się przy użyciu specjalnie wybranej zmiennej losowej – kryterium dobroci dopasowania. Jednym z tych kryteriów jest kryterium Pearsona.

Statystyka kryterium

Aby sprawdzić kryterium wprowadza się statystyki:

Gdzie - szacunkowe prawdopodobieństwo trafienia I-przedział, - odpowiadająca mu wartość empiryczna, N I- liczba przykładowych elementów z I-ty interwał.

Wielkość ta z kolei jest losowa (ze względu na losowość X) i musi odpowiadać rozkładowi χ 2.

Reguła kryterium

Przed sformułowaniem reguły przyjęcia lub odrzucenia hipotezy należy wziąć to pod uwagę Kryterium Pearsona ma prawostronny obszar krytyczny.

Reguła.
Jeżeli otrzymana statystyka przekracza kwantyl prawa rozkładu danego poziomu istotności ze stopniami swobody lub ze stopniami swobody, gdzie k jest liczbą obserwacji lub liczbą przedziałów (w przypadku szeregu wariacji przedziałowych), a p jest liczbę oszacowanych parametrów prawa dystrybucji, wówczas hipoteza zostaje odrzucona. W przeciwnym wypadku hipoteza jest przyjmowana na określonym poziomie istotności.

Literatura

  • Kendall M., Stewart A. Wnioski i powiązania statystyczne. - M.: Nauka, 1973.

Zobacz też

  • Kryterium Pearsona na stronie internetowej Nowosybirskiego Uniwersytetu Państwowego
  • Testy chi-kwadrat na stronie internetowej Państwowego Uniwersytetu Technicznego w Nowosybirsku (Zalecenia normalizacyjne R 50.1.033–2001)
  • O wyborze liczby interwałów na stronie internetowej Państwowego Uniwersytetu Technicznego w Nowosybirsku
  • O kryterium Nikulina na stronie internetowej Państwowego Uniwersytetu Technicznego w Nowosybirsku

Fundacja Wikimedia. 2010.

Zobacz, czym jest „kryterium Pearsona” w innych słownikach:

    Test Pearsona, czyli test χ² (Chi-kwadrat), jest najczęściej stosowanym kryterium testowania hipotezy o prawie dystrybucji. W wielu praktycznych problemach dokładne prawo dystrybucji nie jest znane, czyli jest hipotezą, że... ...Wikipedia

    Lub test dobroci dopasowania Kołmogorowa Smirnowa jest testem statystycznym używanym do określenia, czy dwa rozkłady empiryczne podlegają temu samemu prawu, lub czy powstały rozkład jest zgodny z założonym modelem... ... Wikipedia

    - (kryterium maksyminacyjne) jedno z kryteriów podejmowania decyzji w warunkach niepewności. Kryterium skrajnego pesymizmu. Historia Kryterium Walda zostało zaproponowane przez Abrahama Walda w 1955 roku dla próbek o jednakowej wielkości, a następnie rozszerzone na… Wikipedia

    Test Wallisa ma na celu sprawdzenie równości median kilku próbek. Kryterium to jest wielowymiarowym uogólnieniem testu Wilcoxona-Manna-Whitneya. Kryterium Kruskala Wallisa jest kryterium rangowym, zatem jest niezmienne w odniesieniu do dowolnej... ...Wikipedii

    - (test F, test φ*, test najmniejszej znaczącej różnicy) test statystyczny posteriori używany do porównania wariancji dwóch szeregów zmian, czyli do określenia istotnych różnic między średnimi grupowymi w ... ... Wikipedia

    Test Cochrana stosuje się przy porównywaniu trzech lub więcej próbek tej samej wielkości. Rozbieżność pomiędzy wariancjami uważa się za losową na wybranym poziomie istotności jeżeli: gdzie jest kwantyl zmiennej losowej z liczbą zsumowanych... ... Wikipedia

    Test statystyczny nazwany na cześć Huberta Lillieforsa, profesora statystyki na Uniwersytecie George'a Washingtona, będący modyfikacją testu Kołmogorowa – Smirnowa. Służy do testowania hipotezy zerowej, że próbka... ... Wikipedia

    Aby ulepszyć ten artykuł, wskazane jest?: Znajdź i uporządkuj w formie przypisów linki do wiarygodnych źródeł potwierdzających to, co zostało napisane. Dodaj ilustracje. T Kreta... Wikipedia

    W statystyce test dobroci dopasowania Kołmogorowa (znany również jako test dobroci dopasowania Kołmogorowa-Smirnowa) służy do ustalenia, czy dwa rozkłady empiryczne podlegają temu samemu prawu, lub do ustalenia, czy ... ... Wikipedia

    kryterium niezależności- dla tabel kontyngencji sprawdza hipotezę, że zmienne wierszowe i kolumnowe są niezależne. Do takich kryteriów zalicza się test niezależności chi-kwadrat (Pearsona) i dokładny test Fishera... Słownik statystyki socjologicznej

Książki

  • Kryteria sprawdzania odchyleń rozkładu od prawa jednolitego Poradnik do stosowania Monografia, Lemeshko B., Blinov P.. Książka przeznaczona jest dla specjalistów, którzy w mniejszym lub większym stopniu spotykają się w swojej działalności z zagadnieniami analizy danych statystycznych , z przetwarzaniem wyników eksperymentów, aplikacją ...
Test dobroci dopasowania Pearsona:

Sprawdź hipotezę rozkładu normalnego za pomocą testu Pearsona. Poziom istotności α=0,05. Podziel dane na 6 przedziałów.

Rozwiązanie znaleźć za pomocą kalkulatora. Szerokość przedziału będzie wynosić:

Xmax jest maksymalną wartością cechy grupującej w agregacie.
Xmin jest minimalną wartością charakterystyki grupującej.
Określmy granice grupy.

Numer grupyKonkluzjaGórna granica
1 43 45.83
2 45.83 48.66
3 48.66 51.49
4 51.49 54.32
5 54.32 57.15
6 57.15 60

Ta sama wartość atrybutu służy jako górna i dolna granica dwóch sąsiednich (poprzednich i kolejnych) grup.
Dla każdej wartości szeregu liczymy, ile razy mieści się ona w określonym przedziale. W tym celu sortujemy szereg rosnąco.
43 43 - 45.83 1
48.5 45.83 - 48.66 1
49 48.66 - 51.49 1
49 48.66 - 51.49 2
49.5 48.66 - 51.49 3
50 48.66 - 51.49 4
50 48.66 - 51.49 5
50.5 48.66 - 51.49 6
51.5 51.49 - 54.32 1
51.5 51.49 - 54.32 2
52 51.49 - 54.32 3
52 51.49 - 54.32 4
52 51.49 - 54.32 5
52 51.49 - 54.32 6
52 51.49 - 54.32 7
52 51.49 - 54.32 8
52 51.49 - 54.32 9
52.5 51.49 - 54.32 10
52.5 51.49 - 54.32 11
53 51.49 - 54.32 12
53 51.49 - 54.32 13
53 51.49 - 54.32 14
53.5 51.49 - 54.32 15
54 51.49 - 54.32 16
54 51.49 - 54.32 17
54 51.49 - 54.32 18
54.5 54.32 - 57.15 1
54.5 54.32 - 57.15 2
55.5 54.32 - 57.15 3
57 54.32 - 57.15 4
57.5 57.15 - 59.98 1
57.5 57.15 - 59.98 2
58 57.15 - 59.98 3
58 57.15 - 59.98 4
58.5 57.15 - 59.98 5
60 57.15 - 59.98 6
Wyniki grupowania przedstawimy w formie tabeli:
GrupyNr kolekcjiCzęstotliwość fi
43 - 45.83 1 1
45.83 - 48.66 2 1
48.66 - 51.49 3,4,5,6,7,8 6
51.49 - 54.32 9,10,11,12,13,14,15, 16,17,18,19,20,21, 22,23,24,25,26 18
54.32 - 57.15 27,28,29,30 4
57.15 - 59.98 31,32,33,34,35,36 6
Grupyx jaIlość, tjx i * f jaSkumulowana częstotliwość, S|x - x śr. |*f(x - x śr.) 2 *fCzęstotliwość, f i /n
43 - 45.83 44.42 1 44.42 1 8.88 78.91 0.0278
45.83 - 48.66 47.25 1 47.25 2 6.05 36.64 0.0278
48.66 - 51.49 50.08 6 300.45 8 19.34 62.33 0.17
51.49 - 54.32 52.91 18 952.29 26 7.07 2.78 0.5
54.32 - 57.15 55.74 4 222.94 30 9.75 23.75 0.11
57.15 - 59.98 58.57 6 351.39 36 31.6 166.44 0.17
36 1918.73 82.7 370.86 1

Aby ocenić szereg dystrybucji, znajdujemy następujące wskaźniki:
.
Średnia ważona


Moda
Moda jest najczęstszą wartością cechy wśród jednostek danej populacji.

gdzie x 0 jest początkiem przedziału modalnego; h – wartość przedziału; f 2 – częstotliwość odpowiadająca przedziałowi modowemu; f 1 – częstotliwość przedmodalna; f 3 – częstotliwość postmodalna.
Jako początek przedziału wybieramy 51,49, ponieważ ten przedział stanowi największą liczbę.

Najczęstszą wartością szeregu jest 52,8
Mediana
Mediana dzieli próbkę na dwie części: połowa to mniej niż mediana, połowa to więcej.
W szeregu rozkładu przedziałowego można od razu określić jedynie przedział, w którym będzie się znajdować mod lub mediana. Mediana odpowiada opcji znajdującej się pośrodku szeregu rankingowego. Mediana to przedział 51,49 - 54,32, ponieważ w tym przedziale skumulowana częstotliwość S jest większa od liczby mediany (mediana to pierwszy przedział, którego skumulowana częstotliwość S przekracza połowę całkowitej sumy częstotliwości).


Zatem 50% jednostek w populacji będzie miało mniejszą wielkość niż 53,06
Wskaźniki zmienności.
Bezwzględne wskaźniki zmienności.

R = X maks. - X min
R = 60 - 43 = 17
Średnie odchylenie liniowe – obliczane w celu uwzględnienia różnic wszystkich jednostek badanej populacji.


Każda wartość szeregu różni się od drugiej nie więcej niż o 2,3
Dyspersja – charakteryzuje miarę dyspersji wokół jej wartości średniej (miara dyspersji, czyli odchylenia od średniej).


Nieobciążony estymator wariancji jest spójnym estymatorem wariancji.


Odchylenie standardowe.

Każda wartość szeregu różni się od średniej wartości 53,3 nie więcej niż o 3,21
Oszacowanie odchylenia standardowego.

Miary względnej zmienności.
Względne wskaźniki zmienności obejmują: współczynnik oscylacji, liniowy współczynnik zmienności, względne odchylenie liniowe.
Współczynnik zmienności jest miarą względnego rozrzutu wartości populacji: pokazuje, jaka część średniej wartości tej wartości stanowi jej średni rozrzut.

Ponieważ v ≤ 30%, populacja jest jednorodna, a zróżnicowanie jest słabe. Uzyskanym wynikom można zaufać.
Liniowy współczynnik zmienności lub Względne odchylenie liniowe - charakteryzuje proporcję średniej wartości znaku bezwzględnych odchyleń od wartości średniej.

.
1. Sprawdźmy hipotezę, że X ma rozkład normalny, korzystając z testu dobroci dopasowania Pearsona.

gdzie p i jest prawdopodobieństwem znalezienia się w i-tym przedziale zmiennej losowej rozłożonej zgodnie z hipotetycznym prawem
Aby obliczyć prawdopodobieństwa pi, stosujemy wzór i tabelę funkcji Laplace'a

gdzie s = 3,21, x av = 53,3
Teoretyczna (oczekiwana) częstotliwość wynosi n i = np i , gdzie n = 36

Grupowanie interwałówObserwowana częstotliwość n ix 1 = (x i -x)/sx 2 = (x i+1 -x )/sF(x 1)F(x 2)Prawdopodobieństwo znalezienia się w i-tym przedziale, p i = Ф(x 2) - Ф(x 1)Oczekiwana częstotliwość, 36p tjWarunki statystyki Pearsona, K i
43 - 45.83 1 -3.16 -2.29 -0.5 -0.49 0.01 0.36 1.14
45.83 - 48.66 1 -2.29 -1.42 -0.49 -0.42 0.0657 2.37 0.79
48.66 - 51.49 6 -1.42 -0.56 -0.42 -0.21 0.21 7.61 0.34
51.49 - 54.32 18 -0.56 0.31 -0.21 0.13 0.34 12.16 2.8
54.32 - 57.15 4 0.31 1.18 0.13 0.38 0.26 9.27 3
57.15 - 59.98 6 1.18 2.06 0.38 0.48 0.0973 3.5 1.78
36 9.84



Jego granicę K kp = χ 2 (k-r-1;α) wyznacza się z tablic rozkładów χ 2 i podanych wartości s, k (liczba przedziałów), r=2 (parametry x cp i s są estymowane z próbka).
Kkp = 7,81473; Knabla = 9,84
Obserwowana wartość statystyki Pearsona mieści się w obszarze krytycznym: Knable > nie według normalnego prawa.


Przykład nr 2. Korzystając z testu Pearsona, na poziomie istotności 0,05 sprawdź, czy hipoteza o rozkładzie normalnym populacji X jest zgodna z rozkładem empirycznym próby n = 200.

Rozwiązanie znaleźć za pomocą kalkulatora.
Tabela do obliczania wskaźników.

x jaIlość, tjx ja fi jaSkumulowana częstotliwość, S(x-x) f(x-x) 2 f(x-x) 3 fCzęstotliwość, f i /n
5 15 75 15 114.45 873.25 -6662.92 0.075
7 26 182 41 146.38 824.12 -4639.79 0.13
9 25 225 66 90.75 329.42 -1195.8 0.13
11 30 330 96 48.9 79.71 -129.92 0.15
13 26 338 122 9.62 3.56 1.32 0.13
15 21 315 143 49.77 117.95 279.55 0.11
17 24 408 167 104.88 458.33 2002.88 0.12
19 20 380 187 127.4 811.54 5169.5 0.1
21 13 273 200 108.81 910.74 7622.89 0.065
200 2526 800.96 4408.62 2447.7 1
Wskaźniki centrów dystrybucji.
Średnia ważona


Wskaźniki zmienności.
.
Zakres zmienności to różnica między wartościami maksymalnymi i minimalnymi charakterystyki szeregu pierwotnego.
R = X maks. - X min
R = 21 - 5 = 16
Dyspersja- charakteryzuje miarę rozproszenia wokół jej wartości średniej (miara rozproszenia, czyli odchylenia od średniej).


Nieobciążony estymator wariancji- spójne oszacowanie wariancji.


Odchylenie standardowe.

Każda wartość szeregu różni się od średniej wartości 12,63 nie więcej niż o 4,7
Oszacowanie odchylenia standardowego.

Testowanie hipotez dotyczących rodzaju rozkładu.
1. Sprawdźmy hipotezę, że X jest rozłożone normalne prawo za pomocą testu dobroci dopasowania Pearsona.

gdzie n* i to częstotliwości teoretyczne:

Obliczmy częstości teoretyczne, biorąc pod uwagę, że:
n = 200, h=2 (szerokość przedziału), σ = 4,7, x av = 12,63
Ix jaty jaφinie*ja
1 5 -1.63 0,1057 9.01
2 7 -1.2 0,1942 16.55
3 9 -0.77 0,2943 25.07
4 11 -0.35 0,3752 31.97
5 13 0.0788 0,3977 33.88
6 15 0.5 0,3503 29.84
7 17 0.93 0,2565 21.85
8 19 1.36 0,1582 13.48
9 21 1.78 0,0804 6.85
Porównajmy częstotliwości empiryczne i teoretyczne. Stwórzmy tabelę obliczeniową, z której znajdziemy zaobserwowaną wartość kryterium:
Χ 2 =
In janie*jan i -n* i(n i -n* i) 2(n i -n* i) 2 /n* i
1 15 9.01 -5.99 35.94 3.99
2 26 16.55 -9.45 89.39 5.4
3 25 25.07 0.0734 0.00539 0.000215
4 30 31.97 1.97 3.86 0.12
5 26 33.88 7.88 62.14 1.83
6 21 29.84 8.84 78.22 2.62
7 24 21.85 -2.15 4.61 0.21
8 20 13.48 -6.52 42.53 3.16
9 13 6.85 -6.15 37.82 5.52
200 200 22.86
Wyznaczmy granicę obszaru krytycznego. Ponieważ statystyka Pearsona mierzy różnicę między rozkładami empirycznymi i teoretycznymi, im większa jest jej obserwowana wartość K obs, tym silniejszy jest argument przeciwko hipotezie głównej.
Dlatego region krytyczny dla tych statystyk jest zawsze praworęczny :) Nowo narodzony