Metoda vă permite să testați ipoteza că valorile medii a două populații generale din care sunt extrase cele comparate dependent selecțiile diferă unele de altele. Presupunerea dependenței înseamnă cel mai adesea că caracteristica este măsurată pe același eșantion de două ori, de exemplu, înainte de intervenție și după aceasta. În cazul general, fiecărui reprezentant al unui eșantion i se atribuie un reprezentant dintr-un alt eșantion (sunt combinați în perechi), astfel încât cele două serii de date să fie corelate pozitiv între ele. Tipuri mai slabe de dependență de eșantion: eșantionul 1 - soți, proba 2 - soțiile lor; proba 1 - copii de un an, proba 2 este formata din gemeni de copii din proba 1 etc.

Ipoteza statistica testabila, ca și în cazul precedent, H 0: M1 = M2(valorile medii din probele 1 și 2 sunt egale). Dacă este respinsă, se acceptă ipoteza alternativă că M 1 mai putin) M 2.

Ipotezele inițiale pentru testarea statistica:

Fiecare reprezentant al unui eșantion (dintr-o populație generală) este asociat cu un reprezentant al altui eșantion (din altă populație generală);

Datele din cele două probe sunt corelate pozitiv (form perechi);

Distribuția caracteristicii studiate în ambele eșantioane corespunde legii normale.

Structura datelor sursă: există două valori ale caracteristicii studiate pentru fiecare obiect (pentru fiecare pereche).

Restrictii: distribuția caracteristicii în ambele probe nu trebuie să difere semnificativ de normal; datele a două măsurători corespunzătoare uneia și celeilalte probe sunt corelate pozitiv.

Alternative: testul Wilcoxon T, dacă distribuția pentru cel puțin o probă diferă semnificativ de normal; t-Test Student pentru probe independente - dacă datele pentru două probe nu se corelează pozitiv.

Formulă căci valoarea empirică a testului t Student reflectă faptul că unitatea de analiză pentru diferenţe este diferenta (schimbarea) atribuiți valori pentru fiecare pereche de observații. În consecință, pentru fiecare dintre cele N perechi de valori de atribut, diferența este mai întâi calculată d i = x 1 i - x 2 i.

unde M d este diferența medie de valori; σ d - deviație standard diferențe.

Exemplu de calcul:

Să presupunem că în timpul testării eficienței instruirii, fiecăruia dintre cei 8 membri ai grupului i s-a adresat întrebarea „Cât de des coincide opinia ta cu opinia grupului?” - de două ori, înainte și după antrenament. Pentru răspunsuri a fost utilizată o scală de 10 puncte: 1 - niciodată, 5 - jumătate din timp, 10 - întotdeauna. S-a testat ipoteza conform căreia în urma antrenamentului ar crește stima de sine a conformității (dorința de a fi ca ceilalți din grup) a participanților (α = 0,05). Să creăm un tabel pentru calcule intermediare (Tabelul 3).


Tabelul 3

Media aritmetică a diferenței M d = (-6)/8 = -0,75. Scădeți această valoare din fiecare d (penultima coloană a tabelului).

Formula pentru abaterea standard diferă doar prin aceea că d apare în ea în loc de X. Să înlocuim totul valorile cerute, primim:

σ d = = 0,886.

Pasul 1. Calculați valoarea empirică a criteriului folosind formula (3): diferența medie Md= -0,75; deviație standard σ d = 0,886; t e = 2,39; df = 7.

Pasul 2. Folosind tabelul de valori critice ale criteriului t-Student, determinăm nivelul p de semnificație. Pentru df = 7 valoarea empirică este între valorile critice pentru R= 0,05 și R - 0,01. Prin urmare, R< 0,05.

df R
0,05 0,01 0,001
2,365 3,499 5,408

Pasul 3. Luăm o decizie statistică și formulăm o concluzie. Ipoteza statistică a egalității valorilor medii este respinsă. Concluzie: indicatorul de autoevaluare a conformității participanților după antrenament a crescut semnificativ statistic (la nivel de semnificație p< 0,05).

Metodele parametrice includ compararea varianţelor a două eşantioane conform criteriului F-Fisher. Uneori, această metodă conduce la concluzii valoroase și semnificative, iar în cazul comparării mediilor pentru eșantioane independente, compararea varianțelor este obligatoriu procedură.

A calcula F em trebuie să găsiți raportul dintre variațiile celor două eșantioane și astfel încât varianța mai mare să fie în numărător, iar cea mai mică să fie în numitor.

Comparația de variații. Metoda vă permite să testați ipoteza că varianțele celor două populații generale din care sunt extrase eșantioanele comparate diferă unele de altele. Ipoteza statistică testată H 0: σ 1 2 = σ 2 2 (varianța din eșantionul 1 este egală cu varianța din eșantionul 2). Dacă este respinsă, se acceptă ipoteza alternativă că o varianță este mai mare decât cealaltă.

Ipotezele inițiale: două eșantioane sunt extrase aleatoriu din populații diferite cu o distribuție normală a caracteristicii studiate.

Structura datelor sursă: caracteristica studiată se măsoară în obiecte (subiecți), fiecare aparținând unuia dintre cele două eșantioane fiind comparate.

Restrictii: distribuțiile trăsăturii în ambele eșantioane nu diferă semnificativ de cele normale.

Metoda alternativa: Testul lui Levene, a cărui utilizare nu necesită verificarea ipotezei de normalitate (utilizat în programul SPSS).

Formulă pentru valoarea empirică a testului F Fisher:

(4)

unde σ 1 2 dispersie mare, iar σ 2 2 - dispersie mai mică. Deoarece nu se știe în prealabil care dispersie este mai mare, atunci pentru a determina nivelul p se folosește Tabelul valorilor critice pentru alternativele nedirecționale. Dacă F e > F Kp pentru numărul corespunzător de grade de libertate, atunci R< 0,05 и статистическую гипотезу о равенстве дисперсий можно отклонить (для α = 0,05).

Exemplu de calcul:

Copiilor li s-au dat probleme obișnuite de aritmetică, după care unei jumătăți alese aleatoriu dintre elevi li s-a spus că au picat testul, iar celorlalți li s-a spus contrariul. Fiecare copil a fost întrebat apoi câte secunde i-ar lua pentru a rezolva o problemă similară. Experimentatorul a calculat diferența dintre timpul în care copilul a sunat și rezultatul sarcinii finalizate (în secunde). Era de așteptat ca mesajul eșecului să provoace o anumită inadecvare a stimei de sine a copilului. Ipoteza testată (la nivelul α = 0,005) a fost că varianța stimei de sine agregate nu depinde de rapoartele de succes sau eșec (H 0: σ 1 2 = σ 2 2).

S-au obtinut urmatoarele date:

Pasul 1. Calculați valoarea empirică a criteriului și numărul de grade de libertate folosind formulele (4):

Pasul 2. Conform tabelului cu valorile critice ale criteriului Fisher f pentru nedirectional alternative pentru care găsim valoarea critică numărul df= 11; df stiu= 11. Cu toate acestea, există o valoare critică numai pentru numărul df= 10 și df stiu = 12. Nu se poate lua un număr mai mare de grade de libertate, deci luăm valoarea critică pentru numărul df= 10: Pentru R= 0,05 F Kp = 3,526; Pentru R= 0,01 F Kp = 5,418.

Pasul 3. Acceptare solutie statisticași concluzie semnificativă. Deoarece valoarea empirică depăşeşte valoarea critică pentru R= 0,01 (și chiar mai mult pentru p = 0,05), atunci în acest caz p< 0,01 и принимается альтернативная гипо-теза: дисперсия в группе 1 превышает дисперсию в группе 2 (R< 0,01). În consecință, după un mesaj despre eșec, insuficiența stimei de sine este mai mare decât după un mesaj despre succes.

unde f este gradul de libertate, care este definit ca

Exemplu . Două grupuri de elevi au fost instruite folosind două metode diferite. La finalul instruirii, li s-a dat un test pe tot parcursul cursului. Este necesar să se evalueze cât de semnificative sunt diferențele în cunoștințele dobândite. Rezultatele testelor sunt prezentate în tabelul 4.

Tabelul 4

Să calculăm media eșantionului, varianța și abaterea standard:

Să determinăm valoarea lui t p folosind formula t p = 0,45

Folosind Tabelul 1 (vezi anexa) găsim valoarea critică t k pentru nivelul de semnificație p = 0,01

Concluzie: deoarece valoarea calculată a criteriului este mai mică decât valoarea critică de 0,45<2,88 гипотеза Но подтверждается и существенных различий в методиках обучения нет на уровне значимости 0,01.

Algoritm pentru calcularea testului t Student pentru eșantioane dependente de măsurători

1. Determinați valoarea calculată a testului t folosind formula

, Unde

2. Calculaţi gradul de libertate f

3. Determinați valoarea critică a testului t conform tabelului 1 din apendice.

4. Comparați valoarea calculată și cea critică a testului t. Dacă valoarea calculată este mai mare sau egală cu valoarea critică, atunci ipoteza de egalitate a valorilor medii în două eșantioane de modificări este respinsă (Ho). În toate celelalte cazuri, este acceptată la un anumit nivel de semnificație.

U- criteriuMană- Whitney

Scopul criteriului

Criteriul este destinat să evalueze diferențele dintre două eșantioane neparametrice în ceea ce privește nivelul oricărei caracteristici măsurate cantitativ. Vă permite să identificați diferențele dintre eșantioanele mici atunci când n< 30.

Descrierea criteriului

Această metodă determină dacă aria de suprapunere a valorilor dintre două serii este suficient de mică. Cu cât această zonă este mai mică, cu atât este mai probabil ca diferențele să fie semnificative. Valoarea empirică a criteriului U reflectă cât de mare este aria de acord între rânduri. Prin urmare, cu cât U este mai mic, cu atât este mai probabil ca diferențele să fie semnificative.

Ipoteze

DAR: Nivelul trăsăturii din grupul 2 nu este mai mic decât nivelul trăsăturii din grupul 1.

HI: Nivelul trăsăturii din grupul 2 este mai scăzut decât nivelul trăsăturii din grupul 1.

Algoritm pentru calcularea criteriului Mann-Whitney (u)

    Transferați datele tuturor subiecților de testare pe carduri individuale.

    Marcați cărțile subiecților din eșantionul 1 cu o culoare, să spunem roșu, și toate cărțile din proba 2 cu o altă culoare, de exemplu, albastru.

    Aranjați toate cărțile într-un singur rând în funcție de gradul de creștere al atributului, indiferent de probă căreia îi aparțin, de parcă am lucra cu un eșantion mare.


unde n 1 este numărul de subiecți din eșantionul 1;

n 2 – numărul de subiecți din eșantionul 2,

T x – cea mai mare dintre cele două sume rant;

n x – numărul de subiecți din grupul cu o sumă mai mare de ranguri.

9. Determinați valorile critice ale lui U conform tabelului 2 (vezi anexa).

Dacă U em.> U cr0.05, atunci se acceptă ipoteza But. Dacă U emp.≤ U cr, atunci este respins. Cum mai putin decat valoarea U, cu atât fiabilitatea diferențelor este mai mare.

Exemplu. Comparați eficacitatea a două metode de predare în două grupuri. Rezultatele testelor sunt prezentate în tabelul 5.

Tabelul 5

Să transferăm toate datele într-un alt tabel, evidențiind datele celui de-al doilea grup cu o subliniere și să facem o clasare a eșantionului general (a se vedea algoritmul de clasare din ghidurile pentru sarcina 3).

Valori

Să găsim suma rangurilor a două eșantioane și să o alegem pe cea mai mare: T x = 113

Să calculăm valoarea empirică a criteriului folosind formula 2: U p = 30.

Folosind tabelul 2 din anexă, determinăm valoarea critică a criteriului la nivelul de semnificație p = 0,05: U k = 19.

Concluzie: întrucât valoarea calculată a criteriuluiUeste mai mare decât critică la nivelul de semnificație p = 0,05 și 30 > 19, atunci ipoteza despre egalitatea de mijloace este acceptată și diferențele de metode de predare sunt nesemnificative.

Metoda vă permite să testați ipoteza că valorile medii a două populații generale din care sunt extrase cele comparate dependent probele diferă unele de altele. Presupunerea dependenței înseamnă cel mai adesea că trăsătura este măsurată pe același eșantion de două ori, de exemplu, înainte de intervenție și după aceasta. În cazul general, fiecărui reprezentant al unui eșantion i se atribuie un reprezentant dintr-un alt eșantion (sunt combinați în perechi), astfel încât cele două serii de date să fie corelate pozitiv între ele. Tipuri mai slabe de dependență de eșantion: eșantionul 1 - soți, proba 2 - soțiile lor; proba 1 - copii de un an, proba 2 este formata din gemeni de copii din proba 1 etc.

Ipoteza statistica testabila, ca și în cazul precedent, H 0: M1 = M2(valorile medii în probele 1 și 2 sunt egale). Dacă este respinsă, se acceptă ipoteza alternativă că M 1 mai putin) M 2.

Ipotezele inițiale pentru testarea statistica:

□ fiecare reprezentant al unui eșantion (dintr-o populație generală) este asociat cu un reprezentant al altui eșantion (din altă populație generală);

□ datele din două probe sunt corelate pozitiv (form perechi);

□ distribuţia caracteristicii studiate în ambele eşantioane corespunde legii normale.

Structura datelor sursă: există două valori ale caracteristicii studiate pentru fiecare obiect (pentru fiecare pereche).

Restrictii: distribuția caracteristicii în ambele probe nu trebuie să difere semnificativ de normal; datele celor două măsurători corespunzătoare ambelor probe sunt corelate pozitiv.

Alternative: Testul T Wilcoxon, dacă distribuția pentru cel puțin o probă diferă semnificativ de normal; t-Test Student pentru probe independente - dacă datele pentru cele două probe nu sunt corelate pozitiv.

Formulă căci valoarea empirică a testului t Student reflectă faptul că unitatea de analiză pentru diferenţe este diferenta (schimbarea) valori caracteristice pentru fiecare pereche de observații. În consecință, pentru fiecare dintre cele N perechi de valori de atribut, diferența este mai întâi calculată d i = x 1 i - x 2 i.

(3) unde M d – diferența medie de valori; σ d – abaterea standard a diferenţelor.

Exemplu de calcul:

Să presupunem că, în timpul testării eficienței instruirii, fiecăruia dintre cei 8 membri ai grupului i s-a pus întrebarea „Cât de des coincid opiniile dumneavoastră cu opiniile grupului?” - de două ori, înainte și după antrenament. Pentru răspunsuri a fost utilizată o scală de 10 puncte: 1 - niciodată, 5 - jumătate din timp, 10 - întotdeauna. S-a testat ipoteza conform căreia în urma antrenamentului ar crește stima de sine a conformității (dorința de a fi ca ceilalți din grup) a participanților (α = 0,05). Să creăm un tabel pentru calcule intermediare (Tabelul 3).

Tabelul 3

Media aritmetică pentru diferența M d = (-6)/8= -0,75. Scădeți această valoare din fiecare d (penultima coloană a tabelului).

Formula pentru abaterea standard diferă doar prin aceea că d apare în ea în loc de X. Înlocuim toate valorile necesare și obținem

σ d = = 0,886.

Pasul 1. Calculați valoarea empirică a criteriului folosind formula (3): diferența medie Md= -0,75; deviație standard σ d = 0,886; t e = 2,39; df = 7.

Pasul 2. Folosind tabelul de valori critice ale criteriului t-Student, determinăm nivelul p de semnificație. Pentru df = 7, valoarea empirică este între valorile critice pentru p = 0,05 și p - 0,01. Prin urmare, p< 0,05.

df R
0,05 0,01 0,001
2,365 3,499 5,408

Pasul 3. Luăm o decizie statistică și formulăm o concluzie. Ipoteza statistică a egalității de mijloace este respinsă. Concluzie: indicatorul de autoevaluare a conformității participanților după antrenament a crescut semnificativ statistic (la nivel de semnificație p< 0,05).

Metodele parametrice includ compararea varianţelor a două eşantioane conform criteriului F-Fisher. Uneori, această metodă conduce la concluzii valoroase și semnificative, iar în cazul comparării mediilor pentru eșantioane independente, compararea variațiilor este obligatoriu procedură.

A calcula F em trebuie să găsiți raportul dintre variațiile celor două eșantioane și astfel încât varianța mai mare să fie în numărător, iar cea mai mică să fie în numitor.

Comparația de variații. Metoda vă permite să testați ipoteza că variațiile celor două populații din care sunt extrase eșantioanele comparate diferă una de cealaltă. Ipoteza statistică testată H 0: σ 1 2 = σ 2 2 (varianța din eșantionul 1 este egală cu varianța din eșantionul 2). Dacă este respinsă, se acceptă ipoteza alternativă că o varianță este mai mare decât cealaltă.

Ipotezele inițiale: două eșantioane sunt extrase aleatoriu din populații diferite cu o distribuție normală a trăsăturii studiate.

Structura datelor sursă: caracteristica studiată se măsoară în obiecte (subiecți), fiecare aparținând unuia dintre cele două eșantioane fiind comparate.

Restrictii: distribuțiile trăsăturii în ambele eșantioane nu diferă semnificativ de cele normale.

Metoda alternativa: Testul lui Levene, a cărui utilizare nu necesită verificarea ipotezei de normalitate (utilizat în programul SPSS).

Formulă pentru valoarea empirică a testului F Fisher:

(4)

unde σ 1 2 - dispersie mare, iar σ 2 2 - dispersie mai mică. Deoarece nu se știe în prealabil care dispersie este mai mare, atunci pentru a determina nivelul p se folosește Tabelul valorilor critice pentru alternativele nedirecționale. Dacă F e > F Kp pentru numărul corespunzător de grade de libertate, atunci R < 0,05 и статистическую гипотезу о равенстве дисперсий можно отклонить (для α = 0,05).

Exemplu de calcul:

Copiilor li s-au dat probleme obișnuite de aritmetică, după care unei jumătăți alese aleatoriu dintre elevi li s-a spus că au picat testul, iar celorlalți li s-a spus contrariul. Fiecare copil a fost întrebat apoi câte secunde i-ar lua pentru a rezolva o problemă similară. Experimentatorul a calculat diferența dintre timpul în care copilul a sunat și rezultatul sarcinii finalizate (în secunde). Era de așteptat ca mesajul eșecului să provoace o anumită inadecvare a stimei de sine a copilului. Ipoteza testată (la nivelul α = 0,005) a fost că varianța stimei de sine agregate nu depinde de rapoartele de succes sau eșec (H 0: σ 1 2 = σ 2 2).

S-au obtinut urmatoarele date:


Pasul 1. Calculați valoarea empirică a criteriului și numărul de grade de libertate folosind formulele (4):

Pasul 2. Conform tabelului cu valorile critice ale criteriului Fisher f pentru nedirecţionată alternative pentru care găsim valoarea critică numărul df = 11; df stiu= 11. Cu toate acestea, există o valoare critică numai pentru numărul df= 10 și df stiu = 12. Este imposibil să luăm un număr mai mare de grade de libertate, așa că luăm valoarea critică pentru numărul df= 10: Pentru R = 0,05 F Kp = 3,526; Pentru R = 0,01 F Kp = 5,418.

Pasul 3. Luarea unei decizii statistice și concluzie semnificativă. Deoarece valoarea empirică depăşeşte valoarea critică pentru R= 0,01 (și chiar mai mult pentru p = 0,05), atunci în acest caz p< 0,01 и принимается альтернативная гипо­теза: дисперсия в группе 1 превышает дисперсию в группе 2 (R< 0,01). În consecință, după un mesaj despre eșec, insuficiența stimei de sine este mai mare decât după un mesaj despre succes.

/ statistici practice / materiale de referință / valori ale testului t student

Senst -Testul studentului la niveluri de semnificație de 0,10, 0,05 și 0,01

ν – grade de libertate de variație

Valorile testului t standard ale Studentului

Numărul de grade de libertate

Niveluri de semnificație

Numărul de grade de libertate

Niveluri de semnificație

Masa XI

Valorile testului Fisher standard utilizate pentru a evalua semnificația diferențelor dintre două eșantioane

Grade de libertate

Nivel de semnificație

Grade de libertate

Nivel de semnificație

Testul t al elevului

Testul t al elevului- o denumire generală pentru o clasă de metode de testare statistică a ipotezelor (teste statistice) bazate pe distribuția Student. Cele mai frecvente utilizări ale testului t implică testarea egalității mediilor în două eșantioane.

t-statisticile se construiesc de obicei după următoarele principiu general: numărătorul este o variabilă aleatorie cu așteptare matematică zero (dacă ipoteza nulă este îndeplinită), iar numitorul este deviația standard a eșantionului variabilă aleatorie, obtinut ca Rădăcină pătrată din estimarea varianței neconfundate.

Poveste

Acest criteriu a fost dezvoltat de William Gossett pentru a evalua calitatea berii la compania Guinness. În legătură cu obligațiile față de companie privind nedezvăluirea secretelor comerciale (conducerea Guinness a considerat ca atare utilizarea aparatului statistic în activitatea sa), articolul lui Gosset a fost publicat în 1908 în revista Biometrics sub pseudonimul „Student”.

Cerințe de date

Pentru a aplica acest criteriu, este necesar ca datele originale să aibă o distribuție normală. În cazul aplicării unui test cu două eșantioane pentru probe independente, este, de asemenea, necesar să se respecte condiția de egalitate a variațiilor. Există, totuși, alternative la testul t Student pentru situații cu varianțe inegale.

Cerința distribuției normale a datelor este necesară pentru un test t (\displaystyle t) precis. Cu toate acestea, chiar și cu alte distribuții de date, este posibil să se utilizeze t (\displaystyle t) -statistici. În multe cazuri, această statistică are în mod asimptotic o distribuție normală standard - N (0, 1) (\displaystyle N(0,1)) , astfel încât cuantilele acestei distribuții pot fi utilizate. Cu toate acestea, chiar și în acest caz, adesea cuantilele sunt utilizate nu ale distribuției normale standard, ci ale distribuției Student corespunzătoare, ca în testul exact t (\displaystyle t). Ele sunt echivalente asimptotic, dar în eșantioane mici intervalele de încredere ale distribuției Student sunt mai largi și mai fiabile.

Testul t cu un eșantion

Folosit pentru a testa ipoteza nulă H 0: E (X) = m (\displaystyle H_(0):E(X)=m) despre egalitatea așteptărilor matematice E (X) (\displaystyle E(X)) la o valoare cunoscută m ( \displaystyle m) .

Evident, dacă ipoteza nulă este îndeplinită, E (X ¯) = m (\displaystyle E((\overline (X)))=m) . Luând în considerare independența presupusă a observațiilor, V (X ¯) = σ 2 / n (\displaystyle V((\overline (X)))=\sigma ^(2)/n) . Folosind o estimare imparțială a varianței s X 2 = ∑ t = 1 n (X t − X ¯) 2 / (n − 1) (\displaystyle s_(X)^(2)=\sum _(t=1)^( n )(X_(t)-(\overline (X)))^(2)/(n-1)) obținem următoarele t-statistici:

t = X ¯ - m s X / n (\displaystyle t=(\frac ((\overline (X))-m)(s_(X)/(\sqrt (n)))))

În ipoteza nulă, distribuția acestei statistici este t (n − 1) (\displaystyle t(n-1)) . Prin urmare, dacă valoarea statistică este depășită valoare absolută valoarea critică a unei distribuții date (la un nivel de semnificație dat), ipoteza nulă este respinsă.

Test t cu două eșantioane pentru probe independente

Să existe două eșantioane independente de volume n 1, n 2 (\displaystyle n_(1)~,~n_(2)) de variabile aleatoare distribuite normal X 1, X 2 (\displaystyle X_(1),~X_(2) )). Este necesar să se testeze ipoteza nulă de egalitate a așteptărilor matematice ale acestor variabile aleatoare H 0: M 1 = M 2 (\displaystyle H_(0):~M_(1)=M_(2)) folosind date eșantion.

Luați în considerare diferența dintre mediile eșantionului Δ = X ¯ 1 − X ¯ 2 (\displaystyle \Delta =(\overline (X))_(1)-(\overline (X))_(2)) . Evident, dacă ipoteza nulă este adevărată E (Δ) = M 1 − M 2 = 0 (\displaystyle E(\Delta)=M_(1)-M_(2)=0) . Varianța acestei diferențe este egală, pe baza independenței eșantioanelor: V (Δ) = σ 1 2 n 1 + σ 2 2 n 2 (\displaystyle V(\Delta)=(\frac (\sigma _(1) )^(2))( n_(1)))+(\frac (\sigma _(2)^(2))(n_(2)))) . Apoi, folosind estimarea varianței nepărtinitoare s 2 = ∑ t = 1 n (X t − X ¯) 2 n − 1 (\displaystyle s^(2)=(\frac (\sum _(t=1)^(n)) ( X_(t)-(\overline (X)))^(2))(n-1))) obținem o estimare imparțială a varianței diferenței dintre mediile eșantionului: s Δ 2 = s 1 2 n 1 + s 2 2 n 2 (\ displaystyle s_(\Delta )^(2)=(\frac (s_(1)^(2))(n_(1)))+(\frac (s_(2)^( 2))(n_(2) ))) . Prin urmare, statistica t pentru testarea ipotezei nule este

T = X ¯ 1 − X ¯ 2 s 1 2 n 1 + s 2 2 n 2 (\displaystyle t=(\frac ((\overline (X))_(1)-(\overline (X))_( 2))(\sqrt ((\frac (s_(1))^(2))(n_(1))))+(\frac (s_(2)^(2))(n_(2))))) ))

Dacă ipoteza nulă este adevărată, această statistică are o distribuție t (d f) (\displaystyle t(df)), unde d f = (s 1 2 / n 1 + s 2 2 / n 2) 2 (s 1 2 / n 1) 2 / (n 1 - 1) + (s 2 2 / n 2) 2 / (n 2 - 1) (\displaystyle df=(\frac ((s_(1)^(2))/n_(1)) +s_(2 )^(2)/n_(2))^(2))((s_(1)^(2)/n_(1))^(2)/(n_(1)-1)+ (s_(2)^(2)/n_(2))^(2)/(n_(2)-1))))

Cazul de varianță egală

Dacă se presupune că varianțele eșantioanelor sunt egale, atunci

V (Δ) = σ 2 (1 n 1 + 1 n 2) (\displaystyle V(\Delta)=\sigma ^(2)\left((\frac (1)(n_(1)))+(\ frac (1)(n_(2)))\dreapta))

Atunci statistica t este:

T = X ¯ 1 − X ¯ 2 s X 1 n 1 + 1 n 2 , s X = (n 1 − 1) s 1 2 + (n 2 − 1) s 2 2 n 1 + n 2 − 2 (\ stilul de afișare t=(\frac ((\overline (X))_(1)-(\overline (X))_(2))(s_(X)(\sqrt ((\frac (1)(n_(1) )))+(\frac (1)(n_(2))))))~,~~s_(X)=(\sqrt (\frac ((n_(1)-1)s_(1)^ ( 2)+(n_(2)-1)s_(2)^(2))(n_(1)+n_(2)-2))))

Această statistică are distribuția t (n 1 + n 2 − 2) (\displaystyle t(n_(1)+n_(2)-2))

Test t cu două eșantioane pentru probe dependente

Pentru a calcula valoarea empirică a criteriului t (\displaystyle t) în situația testării unei ipoteze despre diferențele dintre două eșantioane dependente (de exemplu, două eșantioane ale aceluiași test cu un interval de timp), se utilizează următoarea formulă:

T = M re s d / n (\displaystyle t=(\frac (M_(d)))(s_(d)/(\sqrt (n)))))

unde M d (\displaystyle M_(d)) este diferența medie a valorilor, s d (\displaystyle s_(d)) este abaterea standard a diferențelor și n este numărul de observații

Această statistică are o distribuție t (n − 1) (\displaystyle t(n-1)) .

Testarea unei constrângeri liniare asupra parametrilor de regresie liniară

Testul t poate testa, de asemenea, o constrângere liniară arbitrară (unică) asupra parametrilor regresie liniara, estimat prin metoda uzuală cele mai mici pătrate. Să fie necesară testarea ipotezei H 0: c T b = a (\displaystyle H_(0):c^(T)b=a) . Evident, dacă ipoteza nulă este îndeplinită, E (c T b ^ − a) = c T E (b ^) − a = 0 (\displaystyle E(c^(T)(\hat (b))-a)= c^( T)E((\hat (b)))-a=0) . Aici folosim proprietatea estimărilor nepărtinitoare ale celor mai mici pătrate ale parametrilor modelului E (b ^) = b (\displaystyle E((\hat (b)))=b) . În plus, V (c T b ^ - a) = c T V (b ^) c = σ 2 c T (X T X) - 1 c (\displaystyle V(c^(T)(\hat (b))-a )=c^(T)V((\hat (b)))c=\sigma ^(2)c^(T)(X^(T)X)^(-1)c) . Folosind în loc de varianța necunoscută estimarea sa imparțială s 2 = E S S / (n − k) (\displaystyle s^(2)=ESS/(n-k)) obținem următoarele t-statistici:

T = c T b ^ - a s c T (X T X) - 1 c (\displaystyle t=(\frac (c^(T))(\hat (b))-a)(s(\sqrt (c^(T)) (X^(T)X)^(-1)c)))))

Această statistică, atunci când ipoteza nulă este satisfăcută, are o distribuție t (n − k) (\displaystyle t(n-k)) , deci dacă valoarea statisticii este mai mare decât valoarea critică, atunci ipoteza nulă a unei constrângeri liniare este respins.

Testarea ipotezelor despre coeficientul de regresie liniară

Un caz special al unei constrângeri liniare este testarea ipotezei că coeficientul de regresie b j (\displaystyle b_(j)) este egal cu o anumită valoare a (\displaystyle a) . În acest caz, statistica t corespunzătoare este:

T = b ^ j - a s b ^ j (\displaystyle t=(\frac ((\hat (b))_(j)-a)(s_((\hat (b))_(j)))))

unde s b ^ j (\displaystyle s_((\hat (b))_(j))) este eroarea standard a estimării coeficientului - rădăcina pătrată a elementului diagonal corespunzător al matricei de covarianță a estimărilor coeficientului.

Dacă ipoteza nulă este adevărată, distribuția acestei statistici este t (n − k) (\displaystyle t(n-k)) . Dacă valoarea absolută a statisticii este mai mare decât valoarea critică, atunci diferența dintre coeficient și a (\displaystyle a) este semnificativă din punct de vedere statistic (nealeatoriu), în caz contrar este nesemnificativă (aleatorie, adică coeficientul adevărat este probabil egală sau foarte aproape de valoarea estimată a lui a (\ stilul de afișare a))

cometariu

Un test cu un singur eșantion pentru așteptările matematice poate fi redus la testarea unei constrângeri liniare asupra parametrilor de regresie liniară. Într-un test cu un singur eșantion, aceasta este o „regresie” pe o constantă. Prin urmare, s 2 (\displaystyle s^(2)) de regresie este un eșantion de estimare a varianței variabilei aleatoare studiate, matricea X T X (\displaystyle X^(T)X) este egală cu n (\displaystyle n ) , iar estimarea „coeficientului” modelului este egală cu media eșantionului. De aici obținem expresia pentru statistica t dată mai sus pentru cazul general.

În mod similar, se poate demonstra că un test cu două eșantioane cu variații egale de eșantion se reduce, de asemenea, la testarea constrângerilor liniare. Într-un test cu două eșantioane, aceasta este o „regresie” pe o constantă și o variabilă inactivă care identifică subeșantionul în funcție de valoarea (0 sau 1): y = a + b D (\displaystyle y=a+bD) . Ipoteza despre egalitatea așteptărilor matematice ale eșantioanelor poate fi formulată ca o ipoteză despre egalitatea coeficientului b al acestui model la zero. Se poate demonstra că statistica t adecvată pentru testarea acestei ipoteze este egală cu statistica t dată pentru testul cu două eșantioane.

De asemenea, se poate reduce la verificarea constrângerii liniare în cazul diferitelor dispersii. În acest caz, varianța erorii de model ia două valori. Din aceasta puteți obține și o statistică t similară cu cea dată pentru testul cu două eșantioane.

Analogi neparametrici

Un analog al testului cu două eșantioane pentru probe independente este testul Mann-Whitney U. Pentru situația cu probe dependente, analogii sunt testul semnului și testul T Wilcoxon

Literatură

Student. Eroarea probabilă a unei medii. // Biometrica. 1908. Nr. 6 (1). P. 1-25.

Legături

Cu privire la criteriile de testare a ipotezelor despre omogenitatea mijloacelor de pe site-ul web al Universității Tehnice de Stat din Novosibirsk

Pe tot parcursul exemplului, vom folosi informații fictive pentru ca cititorul să poată face singur transformările necesare.

Deci, să spunem, în cursul cercetării, am studiat efectul medicamentului A asupra conținutului de substanță B (în mmol/g) în țesutul C și concentrația substanței D în sânge (în mmol/l) la pacienți. împărțit după un criteriu E în 3 grupe de volum egal (n = 10). Rezultatele unui astfel de studiu fictiv sunt prezentate în tabel:

Conținut de substanță B, mmol/g

Substanța D, mmol/l

creșterea concentrației


Dorim să vă avertizăm că luăm în considerare eșantioanele de dimensiunea 10 pentru ușurința prezentării datelor și a calculelor; în practică, o astfel de dimensiune a eșantionului nu este de obicei suficientă pentru a forma o concluzie statistică.

Ca exemplu, luați în considerare datele din prima coloană a tabelului.

Statisticile descriptive

Eșantion mediu

Media aritmetică, adesea numită pur și simplu „medie”, se obține prin adăugarea tuturor valorilor și împărțirea acelei sume la numărul de valori din mulțime. Acest lucru poate fi arătat folosind o formulă algebrică. Un set de n observații ale unei variabile x poate fi reprezentat ca x 1 , x 2 , x 3 , ..., x n

Formula pentru determinarea mediei aritmetice a observațiilor (pronunțată „X cu o linie”):

= (X 1 + X 2 + ... + X n) / n

= (12 + 13 + 14 + 15 + 14 + 13 + 13 + 10 + 11 + 16) / 10 = 13,1;

Varianta eșantionului

O modalitate de a măsura dispersia datelor este de a determina gradul în care fiecare observație se abate de la media aritmetică. Evident, cu cât abaterea este mai mare, cu atât variabilitatea, variabilitatea observațiilor este mai mare. Cu toate acestea, nu putem folosi media acestor abateri ca măsură de dispersie, deoarece abaterile pozitive compensează abaterile negative (suma lor este zero). Pentru a rezolva această problemă, pătratăm fiecare abatere și găsim media abaterilor pătrate; această cantitate se numește variație sau dispersie. Să luăm n observații x 1, x 2, x 3, ..., x n, medie care este egal cu. Calcularea varianței aceasta, denumită de obicei cas2,aceste observatii:

Varianța eșantionului acestui indicator este s 2 = 3,2.

Deviație standard

Abaterea standard (pătrată medie) este rădăcina pătrată pozitivă a varianței. Folosind n observații ca exemplu, arată astfel:

Ne putem gândi la abaterea standard ca la un fel de abatere medie a observațiilor de la medie. Se calculează în aceleași unități (dimensiuni) ca și datele originale.

s = sqrt (s 2) = sqrt (3,2) = 1,79.

Coeficientul de variație

Dacă împărțiți abaterea standard la media aritmetică și exprimați rezultatul ca procent, obțineți coeficientul de variație.

CV = (1,79 / 13,1) * 100% = 13,7

Eroare medie eșantion

1,79/sqrt(10) = 0,57;

Coeficientul t al studentului (testul t pentru un eșantion)

Folosit pentru a testa ipoteza că valoarea medie diferă de o anumită valoare valoare cunoscută m

Numărul de grade de libertate se calculează ca f=n-1.

În acest caz interval de încredere pentru medie se află între limitele 11,87 și 14,39.

Pentru nivel probabilitatea de încredere 95% m=11,87 sau m=14,39, adică= |13,1-11,82| = |13,1-14,38| = 1,28

În consecință, în acest caz, pentru numărul de grade de libertate f = 10 - 1 = 9 și nivelul de încredere de 95% t = 2,26.

Dialog Statistici de bază și tabele

În modul Statistici de bază și tabele hai sa alegem Statisticile descriptive.

Se va deschide o casetă de dialog Statisticile descriptive.

În câmp Variabile hai sa alegem Grupa 1.

Presare Bine, obținem tabele de rezultate cu statistici descriptive ale variabilelor selectate.

Se va deschide o casetă de dialog Testul t cu un eșantion.

Să presupunem că știm că conținutul mediu de substanță B în țesutul C este 11.

Tabelul de rezultate cu statistici descriptive și testul t Student este următorul:

A trebuit să respingem ipoteza că conținutul mediu de substanță B în țesutul C este 11.

Deoarece valoarea calculată a criteriului este mai mare decât valoarea tabelată (2.26), ipoteza nulă este respinsă la nivelul de semnificație selectat, iar diferențele dintre eșantion și valoarea cunoscută sunt considerate semnificative statistic. Astfel, concluzia despre existența diferențelor făcute cu ajutorul testului Student se confirmă prin această metodă.

Unul dintre cele mai cunoscute instrumente statistice este testul t Student. Este folosit pentru a măsura semnificația statistică a diferitelor cantități perechi. Microsoft Excel are o funcție specială pentru calcularea acestui indicator. Să învățăm cum să calculăm testul t al Studentului în Excel.

Dar mai întâi, să aflăm care este testul t al Studentului, în general. Acest indicator este utilizat pentru a verifica egalitatea valorilor medii a două eșantioane. Adică determină semnificația diferențelor dintre două grupuri de date. În același timp, se utilizează un întreg set de metode pentru a determina acest criteriu. Indicatorul poate fi calculat luând în considerare distribuția unilaterală sau bilaterală.

Calculul unui indicator în Excel

Acum să trecem direct la întrebarea cum să calculăm acest indicator în Excel. Se poate face prin intermediul funcției PROBA STUDENT. În 2007 și versiunile anterioare de Excel, a fost numit TESTUL. Cu toate acestea, a fost lăsat în versiunile ulterioare din motive de compatibilitate, dar în ele se recomandă totuși să se folosească una mai modernă - PROBA STUDENT. Această funcție poate fi utilizată în trei moduri, care vor fi discutate în detaliu mai jos.

Metoda 1: Expertul funcției

Cea mai ușoară modalitate de a calcula acest indicator este prin intermediul Expertului Funcție.


Se efectuează calculul, iar rezultatul este afișat pe ecran într-o celulă preselectată.

Metoda 2: Lucrul cu fila Formule

Funcţie PROBA STUDENT poate fi apelat și accesând fila "Formulele" folosind un buton special de pe panglică.


Metoda 3: Introducere manuală

Formulă PROBA STUDENT poate fi, de asemenea, introdus manual în orice celulă din foaia de lucru sau în rândul de funcții. Forma sa sintactică arată astfel:

TEST STUDENT (Matrice1, Matrice2, Cozi, Tip)

Ce înseamnă fiecare dintre argumente a fost luat în considerare la analiza primei metode. Aceste valori ar trebui înlocuite în această funcție.

După ce datele au fost introduse, apăsați butonul introduce pentru a afișa rezultatul pe ecran.

După cum puteți vedea, calcularea testului Student în Excel este foarte simplă și rapidă. Principalul lucru este că utilizatorul care efectuează calculele trebuie să înțeleagă ce este el și ce date de intrare sunt responsabile pentru ce. Programul efectuează singur calculul direct.