Test Pearsona
Test Pearsona, Lub test χ2- najczęściej stosowane kryterium testowania hipotezy o prawie dystrybucji. W wielu problemach praktycznych dokładne prawo rozkładu nie jest znane, czyli jest hipotezą wymagającą weryfikacji statystycznej.
Oznaczmy przez X badaną zmienną losową. Załóżmy, że chcemy przetestować hipotezę H 0, że ta zmienna losowa jest zgodna z prawem dystrybucji F(X) . Aby przetestować hipotezę, stworzymy próbę składającą się z n niezależnych obserwacji zmiennej losowej X. Na podstawie próbki możemy skonstruować rozkład empiryczny F * (X) badanej zmiennej losowej. Porównanie empiryczne F * (X), a rozkłady teoretyczne wykonuje się przy użyciu specjalnie wybranej zmiennej losowej – kryterium dobroci dopasowania. Jednym z tych kryteriów jest kryterium Pearsona.
Statystyka kryterium
Aby sprawdzić kryterium wprowadza się statystyki:
Gdzie - szacunkowe prawdopodobieństwo trafienia I-przedział, - odpowiadająca mu wartość empiryczna, N I- liczba przykładowych elementów z I-ty interwał.
Wielkość ta z kolei jest losowa (ze względu na losowość X) i musi odpowiadać rozkładowi χ 2.
Reguła kryterium
Przed sformułowaniem reguły przyjęcia lub odrzucenia hipotezy należy wziąć to pod uwagę Kryterium Pearsona ma prawostronny obszar krytyczny.
Reguła. Jeżeli otrzymana statystyka przekracza kwantyl prawa rozkładu danego poziomu istotności ze stopniami swobody lub ze stopniami swobody, gdzie k jest liczbą obserwacji lub liczbą przedziałów (w przypadku szeregu wariacji przedziałowych), a p jest liczbę oszacowanych parametrów prawa dystrybucji, wówczas hipoteza zostaje odrzucona. W przeciwnym wypadku hipoteza jest przyjmowana na określonym poziomie istotności. |
Literatura
- Kendall M., Stewart A. Wnioski i powiązania statystyczne. - M.: Nauka, 1973.
Zobacz też
- Kryterium Pearsona na stronie internetowej Nowosybirskiego Uniwersytetu Państwowego
- Testy chi-kwadrat na stronie internetowej Państwowego Uniwersytetu Technicznego w Nowosybirsku (Zalecenia normalizacyjne R 50.1.033–2001)
- O wyborze liczby interwałów na stronie internetowej Państwowego Uniwersytetu Technicznego w Nowosybirsku
- O kryterium Nikulina na stronie internetowej Państwowego Uniwersytetu Technicznego w Nowosybirsku
Fundacja Wikimedia. 2010.
Zobacz, czym jest „kryterium Pearsona” w innych słownikach:
Test Pearsona, czyli test χ² (Chi-kwadrat), jest najczęściej stosowanym kryterium testowania hipotezy o prawie dystrybucji. W wielu praktycznych problemach dokładne prawo dystrybucji nie jest znane, czyli jest hipotezą, że... ...Wikipedia
Lub test dobroci dopasowania Kołmogorowa Smirnowa jest testem statystycznym używanym do określenia, czy dwa rozkłady empiryczne podlegają temu samemu prawu, lub czy powstały rozkład jest zgodny z założonym modelem... ... Wikipedia
- (kryterium maksyminacyjne) jedno z kryteriów podejmowania decyzji w warunkach niepewności. Kryterium skrajnego pesymizmu. Historia Kryterium Walda zostało zaproponowane przez Abrahama Walda w 1955 roku dla próbek o jednakowej wielkości, a następnie rozszerzone na… Wikipedia
Test Wallisa ma na celu sprawdzenie równości median kilku próbek. Kryterium to jest wielowymiarowym uogólnieniem testu Wilcoxona-Manna-Whitneya. Kryterium Kruskala Wallisa jest kryterium rangowym, zatem jest niezmienne w odniesieniu do dowolnej... ...Wikipedii
- (test F, test φ*, test najmniejszej znaczącej różnicy) test statystyczny posteriori używany do porównania wariancji dwóch szeregów zmian, czyli do określenia istotnych różnic między średnimi grupowymi w ... ... Wikipedia
Test Cochrana stosuje się przy porównywaniu trzech lub więcej próbek tej samej wielkości. Rozbieżność pomiędzy wariancjami uważa się za losową na wybranym poziomie istotności jeżeli: gdzie jest kwantyl zmiennej losowej z liczbą zsumowanych... ... Wikipedia
Test statystyczny nazwany na cześć Huberta Lillieforsa, profesora statystyki na Uniwersytecie George'a Washingtona, będący modyfikacją testu Kołmogorowa – Smirnowa. Służy do testowania hipotezy zerowej, że próbka... ... Wikipedia
Aby ulepszyć ten artykuł, wskazane jest?: Znajdź i uporządkuj w formie przypisów linki do wiarygodnych źródeł potwierdzających to, co zostało napisane. Dodaj ilustracje. T Kreta... Wikipedia
W statystyce test dobroci dopasowania Kołmogorowa (znany również jako test dobroci dopasowania Kołmogorowa-Smirnowa) służy do ustalenia, czy dwa rozkłady empiryczne podlegają temu samemu prawu, lub do ustalenia, czy ... ... Wikipedia
kryterium niezależności- dla tabel kontyngencji sprawdza hipotezę, że zmienne wierszowe i kolumnowe są niezależne. Do takich kryteriów zalicza się test niezależności chi-kwadrat (Pearsona) i dokładny test Fishera... Słownik statystyki socjologicznej
Książki
- Kryteria sprawdzania odchyleń rozkładu od prawa jednolitego Poradnik do stosowania Monografia, Lemeshko B., Blinov P.. Książka przeznaczona jest dla specjalistów, którzy w mniejszym lub większym stopniu spotykają się w swojej działalności z zagadnieniami analizy danych statystycznych , z przetwarzaniem wyników eksperymentów, aplikacją ...
Sprawdź hipotezę rozkładu normalnego za pomocą testu Pearsona. Poziom istotności α=0,05. Podziel dane na 6 przedziałów.
Rozwiązanie znaleźć za pomocą kalkulatora. Szerokość przedziału będzie wynosić:
Xmax jest maksymalną wartością cechy grupującej w agregacie.
Xmin jest minimalną wartością charakterystyki grupującej.
Określmy granice grupy.
Numer grupy | Konkluzja | Górna granica |
1 | 43 | 45.83 |
2 | 45.83 | 48.66 |
3 | 48.66 | 51.49 |
4 | 51.49 | 54.32 |
5 | 54.32 | 57.15 |
6 | 57.15 | 60 |
Ta sama wartość atrybutu służy jako górna i dolna granica dwóch sąsiednich (poprzednich i kolejnych) grup.
Dla każdej wartości szeregu liczymy, ile razy mieści się ona w określonym przedziale. W tym celu sortujemy szereg rosnąco.
43 | 43 - 45.83 | 1 |
48.5 | 45.83 - 48.66 | 1 |
49 | 48.66 - 51.49 | 1 |
49 | 48.66 - 51.49 | 2 |
49.5 | 48.66 - 51.49 | 3 |
50 | 48.66 - 51.49 | 4 |
50 | 48.66 - 51.49 | 5 |
50.5 | 48.66 - 51.49 | 6 |
51.5 | 51.49 - 54.32 | 1 |
51.5 | 51.49 - 54.32 | 2 |
52 | 51.49 - 54.32 | 3 |
52 | 51.49 - 54.32 | 4 |
52 | 51.49 - 54.32 | 5 |
52 | 51.49 - 54.32 | 6 |
52 | 51.49 - 54.32 | 7 |
52 | 51.49 - 54.32 | 8 |
52 | 51.49 - 54.32 | 9 |
52.5 | 51.49 - 54.32 | 10 |
52.5 | 51.49 - 54.32 | 11 |
53 | 51.49 - 54.32 | 12 |
53 | 51.49 - 54.32 | 13 |
53 | 51.49 - 54.32 | 14 |
53.5 | 51.49 - 54.32 | 15 |
54 | 51.49 - 54.32 | 16 |
54 | 51.49 - 54.32 | 17 |
54 | 51.49 - 54.32 | 18 |
54.5 | 54.32 - 57.15 | 1 |
54.5 | 54.32 - 57.15 | 2 |
55.5 | 54.32 - 57.15 | 3 |
57 | 54.32 - 57.15 | 4 |
57.5 | 57.15 - 59.98 | 1 |
57.5 | 57.15 - 59.98 | 2 |
58 | 57.15 - 59.98 | 3 |
58 | 57.15 - 59.98 | 4 |
58.5 | 57.15 - 59.98 | 5 |
60 | 57.15 - 59.98 | 6 |
Grupy | Nr kolekcji | Częstotliwość fi |
43 - 45.83 | 1 | 1 |
45.83 - 48.66 | 2 | 1 |
48.66 - 51.49 | 3,4,5,6,7,8 | 6 |
51.49 - 54.32 | 9,10,11,12,13,14,15, 16,17,18,19,20,21, 22,23,24,25,26 | 18 |
54.32 - 57.15 | 27,28,29,30 | 4 |
57.15 - 59.98 | 31,32,33,34,35,36 | 6 |
Grupy | x ja | Ilość, tj | x i * f ja | Skumulowana częstotliwość, S | |x - x śr. |*f | (x - x śr.) 2 *f | Częstotliwość, f i /n |
43 - 45.83 | 44.42 | 1 | 44.42 | 1 | 8.88 | 78.91 | 0.0278 |
45.83 - 48.66 | 47.25 | 1 | 47.25 | 2 | 6.05 | 36.64 | 0.0278 |
48.66 - 51.49 | 50.08 | 6 | 300.45 | 8 | 19.34 | 62.33 | 0.17 |
51.49 - 54.32 | 52.91 | 18 | 952.29 | 26 | 7.07 | 2.78 | 0.5 |
54.32 - 57.15 | 55.74 | 4 | 222.94 | 30 | 9.75 | 23.75 | 0.11 |
57.15 - 59.98 | 58.57 | 6 | 351.39 | 36 | 31.6 | 166.44 | 0.17 |
36 | 1918.73 | 82.7 | 370.86 | 1 |
Aby ocenić szereg dystrybucji, znajdujemy następujące wskaźniki:
.
Średnia ważona
Moda
Moda jest najczęstszą wartością cechy wśród jednostek danej populacji.
gdzie x 0 jest początkiem przedziału modalnego; h – wartość przedziału; f 2 – częstotliwość odpowiadająca przedziałowi modowemu; f 1 – częstotliwość przedmodalna; f 3 – częstotliwość postmodalna.
Jako początek przedziału wybieramy 51,49, ponieważ ten przedział stanowi największą liczbę.
Najczęstszą wartością szeregu jest 52,8
Mediana
Mediana dzieli próbkę na dwie części: połowa to mniej niż mediana, połowa to więcej.
W szeregu rozkładu przedziałowego można od razu określić jedynie przedział, w którym będzie się znajdować mod lub mediana. Mediana odpowiada opcji znajdującej się pośrodku szeregu rankingowego. Mediana to przedział 51,49 - 54,32, ponieważ w tym przedziale skumulowana częstotliwość S jest większa od liczby mediany (mediana to pierwszy przedział, którego skumulowana częstotliwość S przekracza połowę całkowitej sumy częstotliwości).
Zatem 50% jednostek w populacji będzie miało mniejszą wielkość niż 53,06
Wskaźniki zmienności.
Bezwzględne wskaźniki zmienności.
R = X maks. - X min
R = 60 - 43 = 17
Średnie odchylenie liniowe – obliczane w celu uwzględnienia różnic wszystkich jednostek badanej populacji.
Każda wartość szeregu różni się od drugiej nie więcej niż o 2,3
Dyspersja – charakteryzuje miarę dyspersji wokół jej wartości średniej (miara dyspersji, czyli odchylenia od średniej).
Nieobciążony estymator wariancji jest spójnym estymatorem wariancji.
Odchylenie standardowe.
Każda wartość szeregu różni się od średniej wartości 53,3 nie więcej niż o 3,21
Oszacowanie odchylenia standardowego.
Miary względnej zmienności.
Względne wskaźniki zmienności obejmują: współczynnik oscylacji, liniowy współczynnik zmienności, względne odchylenie liniowe.
Współczynnik zmienności jest miarą względnego rozrzutu wartości populacji: pokazuje, jaka część średniej wartości tej wartości stanowi jej średni rozrzut.
Ponieważ v ≤ 30%, populacja jest jednorodna, a zróżnicowanie jest słabe. Uzyskanym wynikom można zaufać.
Liniowy współczynnik zmienności lub Względne odchylenie liniowe - charakteryzuje proporcję średniej wartości znaku bezwzględnych odchyleń od wartości średniej.
.
1. Sprawdźmy hipotezę, że X ma rozkład normalny, korzystając z testu dobroci dopasowania Pearsona.
gdzie p i jest prawdopodobieństwem znalezienia się w i-tym przedziale zmiennej losowej rozłożonej zgodnie z hipotetycznym prawem
Aby obliczyć prawdopodobieństwa pi, stosujemy wzór i tabelę funkcji Laplace'a
gdzie s = 3,21, x av = 53,3
Teoretyczna (oczekiwana) częstotliwość wynosi n i = np i , gdzie n = 36
Grupowanie interwałów | Obserwowana częstotliwość n i | x 1 = (x i -x)/s | x 2 = (x i+1 -x )/s | F(x 1) | F(x 2) | Prawdopodobieństwo znalezienia się w i-tym przedziale, p i = Ф(x 2) - Ф(x 1) | Oczekiwana częstotliwość, 36p tj | Warunki statystyki Pearsona, K i |
43 - 45.83 | 1 | -3.16 | -2.29 | -0.5 | -0.49 | 0.01 | 0.36 | 1.14 |
45.83 - 48.66 | 1 | -2.29 | -1.42 | -0.49 | -0.42 | 0.0657 | 2.37 | 0.79 |
48.66 - 51.49 | 6 | -1.42 | -0.56 | -0.42 | -0.21 | 0.21 | 7.61 | 0.34 |
51.49 - 54.32 | 18 | -0.56 | 0.31 | -0.21 | 0.13 | 0.34 | 12.16 | 2.8 |
54.32 - 57.15 | 4 | 0.31 | 1.18 | 0.13 | 0.38 | 0.26 | 9.27 | 3 |
57.15 - 59.98 | 6 | 1.18 | 2.06 | 0.38 | 0.48 | 0.0973 | 3.5 | 1.78 |
36 | 9.84 |
Jego granicę K kp = χ 2 (k-r-1;α) wyznacza się z tablic rozkładów χ 2 i podanych wartości s, k (liczba przedziałów), r=2 (parametry x cp i s są estymowane z próbka).
Kkp = 7,81473; Knabla = 9,84
Obserwowana wartość statystyki Pearsona mieści się w obszarze krytycznym: Knable > nie według normalnego prawa.
Przykład nr 2. Korzystając z testu Pearsona, na poziomie istotności 0,05 sprawdź, czy hipoteza o rozkładzie normalnym populacji X jest zgodna z rozkładem empirycznym próby n = 200.
Rozwiązanie znaleźć za pomocą kalkulatora.
Tabela do obliczania wskaźników.
x ja | Ilość, tj | x ja fi ja | Skumulowana częstotliwość, S | (x-x) f | (x-x) 2 f | (x-x) 3 f | Częstotliwość, f i /n |
5 | 15 | 75 | 15 | 114.45 | 873.25 | -6662.92 | 0.075 |
7 | 26 | 182 | 41 | 146.38 | 824.12 | -4639.79 | 0.13 |
9 | 25 | 225 | 66 | 90.75 | 329.42 | -1195.8 | 0.13 |
11 | 30 | 330 | 96 | 48.9 | 79.71 | -129.92 | 0.15 |
13 | 26 | 338 | 122 | 9.62 | 3.56 | 1.32 | 0.13 |
15 | 21 | 315 | 143 | 49.77 | 117.95 | 279.55 | 0.11 |
17 | 24 | 408 | 167 | 104.88 | 458.33 | 2002.88 | 0.12 |
19 | 20 | 380 | 187 | 127.4 | 811.54 | 5169.5 | 0.1 |
21 | 13 | 273 | 200 | 108.81 | 910.74 | 7622.89 | 0.065 |
200 | 2526 | 800.96 | 4408.62 | 2447.7 | 1 |
Średnia ważona
Wskaźniki zmienności.
.
Zakres zmienności to różnica między wartościami maksymalnymi i minimalnymi charakterystyki szeregu pierwotnego.
R = X maks. - X min
R = 21 - 5 = 16
Dyspersja- charakteryzuje miarę rozproszenia wokół jej wartości średniej (miara rozproszenia, czyli odchylenia od średniej).
Nieobciążony estymator wariancji- spójne oszacowanie wariancji.
Odchylenie standardowe.
Każda wartość szeregu różni się od średniej wartości 12,63 nie więcej niż o 4,7
Oszacowanie odchylenia standardowego.
Testowanie hipotez dotyczących rodzaju rozkładu.
1. Sprawdźmy hipotezę, że X jest rozłożone normalne prawo za pomocą testu dobroci dopasowania Pearsona.
gdzie n* i to częstotliwości teoretyczne:
Obliczmy częstości teoretyczne, biorąc pod uwagę, że:
n = 200, h=2 (szerokość przedziału), σ = 4,7, x av = 12,63
I | x ja | ty ja | φi | nie*ja |
1 | 5 | -1.63 | 0,1057 | 9.01 |
2 | 7 | -1.2 | 0,1942 | 16.55 |
3 | 9 | -0.77 | 0,2943 | 25.07 |
4 | 11 | -0.35 | 0,3752 | 31.97 |
5 | 13 | 0.0788 | 0,3977 | 33.88 |
6 | 15 | 0.5 | 0,3503 | 29.84 |
7 | 17 | 0.93 | 0,2565 | 21.85 |
8 | 19 | 1.36 | 0,1582 | 13.48 |
9 | 21 | 1.78 | 0,0804 | 6.85 |
Χ 2 =
I | n ja | nie*ja | n i -n* i | (n i -n* i) 2 | (n i -n* i) 2 /n* i |
1 | 15 | 9.01 | -5.99 | 35.94 | 3.99 |
2 | 26 | 16.55 | -9.45 | 89.39 | 5.4 |
3 | 25 | 25.07 | 0.0734 | 0.00539 | 0.000215 |
4 | 30 | 31.97 | 1.97 | 3.86 | 0.12 |
5 | 26 | 33.88 | 7.88 | 62.14 | 1.83 |
6 | 21 | 29.84 | 8.84 | 78.22 | 2.62 |
7 | 24 | 21.85 | -2.15 | 4.61 | 0.21 |
8 | 20 | 13.48 | -6.52 | 42.53 | 3.16 |
9 | 13 | 6.85 | -6.15 | 37.82 | 5.52 |
∑ | 200 | 200 | 22.86 |
Dlatego region krytyczny dla tych statystyk jest zawsze praworęczny :) Nowo narodzony