O serie de variații discrete este construită pentru caracteristici discrete.

Pentru a construi o serie de variații discrete, trebuie să efectuați următorii pași: 1) aranjați unitățile de observație în ordinea crescătoare a valorii studiate a caracteristicii,

2) determinați toate valorile posibile ale atributului x i, aranjați-le în ordine crescătoare,

valoarea atributului, i .

frecvența valorii atributului si denota f i . Suma tuturor frecvențelor unei serii este egală cu numărul de elemente din populația studiată.

Exemplul 1 .

Lista notelor primite de elevi la examene: 3; 4; 3; 5; 4; 2; 2; 4; 4; 3; 5; 2; 4; 5; 4; 3; 4; 3; 3; 4; 4; 2; 2; 5; 5; 4; 5; 2; 3; 4; 4; 3; 4; 5; 2; 5; 5; 4; 3; 3; 4; 2; 4; 4; 5; 4; 3; 5; 3; 5; 4; 4; 5; 4; 4; 5; 4; 5; 5; 5.

Iată numărul X - notaeste o variabilă aleatorie discretă, iar lista de estimări rezultată estedate statistice (observabile). .

    aranjați unitățile de observație în ordinea crescătoare a valorii caracteristice studiate:

2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2) determinați toate valorile posibile ale atributului x i, ordonați-le în ordine crescătoare:

În acest exemplu, toate estimările pot fi împărțite în patru grupe cu următoarele valori: 2; 3; 4; 5.

Se numește valoarea unei variabile aleatoare corespunzătoare unui anumit grup de date observate valoarea atributului, opțiune (opțiune) și desemnează x i .

Se numește un număr care arată de câte ori apare valoarea corespunzătoare a unei caracteristici într-un număr de observații frecvența valorii atributului si denota f i .

Pentru exemplul nostru

apare scorul 2 - de 8 ori,

apare scorul 3 - de 12 ori,

apare scorul 4 - de 23 de ori,

apare scorul 5 - de 17 ori.

Există 60 de evaluări în total.

4) scrieți datele primite într-un tabel de două rânduri (coloane) - x i și f i.

Pe baza acestor date, este posibil să se construiască o serie de variații discrete

Serii de variații discrete – acesta este un tabel în care valorile apărute ale caracteristicii studiate sunt indicate ca valori individuale în ordine crescătoare și frecvențele acestora

  1. Construirea unei serii de variații de interval

În plus față de seria de variații discrete, este adesea întâlnită o metodă de grupare a datelor, cum ar fi o serie de variații de interval.

O serie de intervale este construită dacă:

    semnul are o natură continuă de schimbare;

    Au fost o mulțime de valori discrete (mai mult de 10)

    frecvențele valorilor discrete sunt foarte mici (nu depășesc 1-3 cu un număr relativ mare de unități de observare);

    multe valori discrete ale unei caracteristici cu aceleași frecvențe.

O serie de variații de interval este o modalitate de grupare a datelor sub forma unui tabel care are două coloane (valorile caracteristicii sub forma unui interval de valori și frecvența fiecărui interval).

Spre deosebire de o serie discretă de valori ale atributelor serie de intervale sunt reprezentate nu de valori individuale, ci de un interval de valori ("de la - la").

Se numește numărul care arată câte unități de observație au căzut în fiecare interval selectat frecvența valorii atributului si denota f i . Suma tuturor frecvențelor unei serii este egală cu numărul de elemente (unități de observație) din populația studiată.

Dacă o unitate are o valoare caracteristică egală cu limita superioară a intervalului, atunci ar trebui să fie atribuită următorului interval.

De exemplu, un copil cu o înălțime de 100 cm va cădea în al 2-lea interval, și nu în primul; iar un copil cu o înălțime de 130 cm va cădea în ultimul interval, și nu în al treilea.

Pe baza acestor date, se poate construi o serie de variații de interval.

Fiecare interval are o limită inferioară (xn), o limită superioară (xw) și o lățime a intervalului ( i).

Limita intervalului este valoarea atributului care se află la granița a două intervale.

inaltimea copiilor (cm)

inaltimea copiilor (cm)

cantitatea de copii

mai mult de 130

Dacă un interval are o limită superioară și inferioară, atunci se numește interval închis. Dacă un interval are doar o limită inferioară sau numai superioară, atunci este - interval deschis. Numai primul sau ultimul interval poate fi deschis. În exemplul de mai sus, ultimul interval este deschis.

Lățimea intervalului (i) – diferența dintre limitele superioare și inferioare.

i = x n - x in

Se presupune că lățimea intervalului deschis este aceeași cu lățimea intervalului închis adiacent.

inaltimea copiilor (cm)

cantitatea de copii

Lățimea intervalului (i)

pentru calcule 130+20=150

20 (deoarece lățimea intervalului închis adiacent este de 20)

Toate seriile de intervale sunt împărțite în serii de intervale cu la intervale egaleși serii de intervale cu intervale inegale . În rândurile distanțate cu intervale egale, lățimea tuturor intervalelor este aceeași. În serii de intervale cu intervale inegale, lățimea intervalelor este diferită.

În exemplul luat în considerare - o serie de intervale cu intervale inegale.

Lucrare de laborator nr 1

Conform statisticii matematice

Tema: Prelucrarea primară a datelor experimentale

3. Scor în puncte. 1

5. Întrebări de test.. 2

6. Metoda de executare munca de laborator.. 3

Scopul lucrării

Dobândirea deprinderilor de prelucrare primară a datelor empirice folosind metode de statistică matematică.

Pe baza totalității datelor experimentale, finalizați următoarele sarcini:

Exercitiul 1. Construiți o serie de distribuție a variațiilor de interval.

Sarcina 2. Construiți o histogramă de frecvențe ale unei serii de variații de interval.

Sarcina 3. Creați o funcție de distribuție empirică și reprezentați un grafic.

a) mod și mediană;

b) momente iniţiale condiţionale;

c) media eşantionului;

d) varianța eșantionului, varianța corectată populatie, medie corectată deviație standard;

e) coeficientul de variaţie;

f) asimetrie;

g) curtoză;

Sarcina 5. Determinați limitele valorilor adevărate ale caracteristicilor numerice ale variabilei aleatoare studiate cu o fiabilitate dată.

Sarcina 6. Interpretarea bazată pe conținut a rezultatelor prelucrării primare în funcție de condițiile sarcinii.

Scor în puncte

Sarcinile 1-56 puncte

Sarcina 62 puncte

Apărarea lucrărilor de laborator(interviu oral pe întrebări de testare și lucrări de laborator) - 2 puncte

Lucrarea trebuie depusă în formă scrisă pe coli A4 și include:

1) Pagina titlu(Anexa 1)

2) Date inițiale.

3) Depunerea lucrărilor conform eșantionului specificat.

4) Rezultatele calculului (realizate manual și/sau folosind MS Excel) în ordinea specificată.

5) Concluzii - interpretarea semnificativă a rezultatelor prelucrării primare în funcție de condițiile sarcinii.

6) Interviu oral pe întrebări de lucru și de control.



5. Întrebări de test


Metodologia efectuării lucrărilor de laborator

Sarcina 1. Construiți o serie de distribuție variațională de interval

Pentru a prezenta datele statistice sub forma unei serii de variații cu opțiuni egal distanțate, este necesar:

1. În tabelul de date original, găsiți cele mai mici și cele mai mari valori.

2.Definește gama de variatie :

3. Determinați lungimea intervalului h, dacă proba conține până la 1000 de date, utilizați formula: , unde n – dimensiunea eșantionului – cantitatea de date din eșantion; pentru calcule ia lgn).

Raportul calculat este rotunjit la valoare întreagă convenabilă .

4. Pentru a determina începutul primului interval pentru un număr par de intervale, se recomandă să se ia valoarea ; iar pentru un număr impar de intervale .

5. Notați intervalele de grupare și aranjați-le în ordine crescătoare a limitelor

, ,………., ,

unde este limita inferioară a primului interval. Se ia un număr convenabil care nu este mai mare decât , limita superioară a ultimului interval nu trebuie să fie mai mică de . Se recomandă ca intervalele să conțină valorile inițiale ale variabilei aleatoare și să fie separate de 5 până la 20 intervale.

6. Notați datele inițiale privind intervalele de grupare, de ex. utilizați tabelul sursă pentru a calcula numărul de valori ale variabilelor aleatoare care se încadrează în intervalele specificate. Dacă unele valori coincid cu limitele intervalelor, apoi sunt atribuite fie numai intervalului anterior, fie numai intervalului următor.

Nota 1. Intervalele nu trebuie să fie egale ca lungime. În zonele în care valorile sunt mai dense, este mai convenabil să luați intervale mai mici, scurte, iar unde există intervale mai puțin frecvente, mai mari.

Nota 2.Dacă pentru unele valori se obțin valori „zero” sau de frecvență mică, atunci este necesară regruparea datelor, mărind intervalele (mărește pasul).

În multe cazuri, populația statistică a pisicii include un număr mare sau chiar mai mult număr infinit opțiunea, care se găsește cel mai adesea cu variație continuă, este practic imposibil și nepractic să se formeze un grup de unități pentru fiecare opțiune. În astfel de cazuri, combinarea unităților statistice în grupuri este posibilă numai pe baza unui interval, adică. un astfel de grup care are anumite limite pentru valorile unei caracteristici diferite. Aceste limite sunt indicate prin două numere care indică limitele superioare și inferioare ale fiecărui grup. Utilizarea intervalelor conduce la formarea unei serii de distribuție a intervalelor.

Interval rad este o serie de variații ale cărei variante sunt prezentate sub formă de intervale.

O serie de intervale poate fi formată cu intervale egale și inegale, în timp ce alegerea principiului de construire a acestei serii depinde în principal de gradul de reprezentativitate și comoditate a populației statistice. Dacă populația este suficient de mare (reprezentativă) din punct de vedere al numărului de unități și este complet omogenă în compoziția sa, atunci este recomandabil să se bazeze formarea unei serii de intervale pe egalitatea intervalelor. De obicei, folosind acest principiu, se formează o serie de intervale pentru acele populații în care intervalul de variație este relativ mic, adică. opțiunile maxime și minime diferă de obicei una de alta de mai multe ori. În acest caz, valoarea intervalelor egale este calculată prin raportul dintre intervalul de variație al unei caracteristici la un număr dat de intervale formate. Pentru a determina egal Și interval, poate fi utilizată formula Sturgess (de obicei cu o mică variație a caracteristicilor intervalului și un număr mare de unități în populația statistică):

unde x i - valoare de interval egal; X max, X min - opțiuni maxime și minime într-un agregat statistic; n . - numărul de unități în agregat.

Exemplu. Este recomandabil să se calculeze dimensiunea unui interval egal pentru densitatea contaminării radioactive cu cesiu - 137 în 100 de așezări din districtul Krasnopolsky din regiunea Mogilev, dacă se știe că opțiunea inițială (minimă) este egală cu I km / km 2, finala ( maxim) - 65 ki/km 2. Folosind formula 5.1. primim:

În consecință, pentru a forma o serie de intervale cu intervale egale în ceea ce privește densitatea contaminării cu cesiu - 137 de așezări din regiunea Krasnopolsky, dimensiunea intervalului egal poate fi de 8 ki/km 2 .

În condiții de distribuție inegală, de ex. când opțiunile maxime și minime sunt de sute de ori, când se formează o serie de intervale, puteți aplica principiul inegal intervale. Intervalele inegale cresc de obicei pe măsură ce trecem la valori mari semn.

Forma intervalelor poate fi închisă sau deschisă. Închis Se obișnuiește să se apeleze intervale care au atât limite inferioare, cât și superioare. Deschis intervalele au o singură limită: în primul interval există o limită superioară, în ultimul există o limită inferioară.

Este indicat să se evalueze serii de intervale, în special cu intervale inegale, ținând cont densitatea distributiei, cel mai simplu mod de a calcula care este raportul dintre frecvența (sau frecvența) locală și dimensiunea intervalului.

Pentru a forma practic o serie de intervale, puteți utiliza aspectul tabelului. 5.3.

Tabelul 5.3. Procedura de formare a unei serii interval de așezări în regiunea Krasnopolsky în funcție de densitatea contaminării radioactive cu cesiu -137

Principalul avantaj al seriei de intervale este maximul său compactitatea.în acelaşi timp în seria de distribuţie a intervalelor opțiuni individuale caracteristicile sunt ascunse în intervalele corespunzătoare

Când se descrie grafic o serie de intervale într-un sistem de coordonate dreptunghiulare, limitele superioare ale intervalelor sunt reprezentate grafic pe axa absciselor, iar frecvențele locale ale seriei sunt reprezentate pe axa ordonatelor. Construcția grafică a unei serii de intervale diferă de construcția unui poligon de distribuție prin aceea că fiecare interval are limite inferioare și superioare, iar două abscise corespund unei valori ordonate. Prin urmare, pe graficul unei serii de intervale nu este marcat un punct, ca într-un poligon, ci o linie care leagă două puncte. Aceste linii orizontale sunt conectate între ele prin linii verticale și se obține figura unui poligon în trepte, care se numește în mod obișnuit histogramă distribuția (Fig. 5.3).

Când se construiește grafic o serie de intervale pentru o populație statistică suficient de mare, histograma se apropie simetric forma de distributie. În acele cazuri în care populația statistică este mică, de regulă, asimetric diagramă cu bare.

În unele cazuri, este recomandabil să se formeze o serie de frecvențe acumulate, adică. cumulativ rând. O serie cumulativă poate fi formată pe baza unei serii de distribuție discretă sau pe intervale. Atunci când este reprezentată grafic o serie cumulativă într-un sistem de coordonate dreptunghiulare, variantele sunt reprezentate pe axa absciselor, iar frecvențele (frecvențele) acumulate sunt reprezentate pe axa ordonatelor. Linia curbă rezultată este de obicei numită cumulativ distribuția (Fig. 5.4).

Formare și reprezentare grafică tipuri variate seria de variații contribuie la un calcul simplificat al principalelor caracteristici statistice, care sunt discutate în detaliu în subiectul 6, ajută la înțelegerea mai bună a esenței legilor de distribuție a populației statistice. Analiza unei serii de variații capătă o importanță deosebită în cazurile în care este necesară identificarea și urmărirea relației dintre opțiuni și frecvențe (frecvențe). Această dependență se manifestă prin faptul că numărul de cazuri pe opțiune este într-un anumit fel legat de mărimea acestei opțiuni, i.e. cu valori crescânde ale caracteristicii variabile, frecvențele (frecvențele) acestor valori experimentează anumite schimbări sistematice. Aceasta înseamnă că numerele din coloana frecvență (frecvență) nu sunt supuse fluctuațiilor haotice, ci se schimbă într-o anumită direcție, în într-o anumită ordine si consistenta.

Dacă frecvențele arată o anumită sistematicitate în modificările lor, atunci aceasta înseamnă că suntem pe cale de a identifica un model. Sistemul, ordinea, succesiunea modificărilor de frecvențe este o reflectare a cauzelor generale, a condițiilor generale caracteristice întregii populații.

Nu trebuie să presupunem că modelul de distribuție este întotdeauna dat într-o formă gata făcută. Există destul de multe serii de variații în care frecvențele sar în mod bizar, uneori crescând, alteori descrezând. În astfel de cazuri, este recomandabil să aflați cu ce fel de distribuție are de-a face cercetătorul: fie această distribuție nu are deloc modele inerente, fie natura ei nu a fost încă dezvăluită: primul caz este rar, dar al doilea. cazul este un fenomen destul de comun și foarte răspândit.

Deci, atunci când se formează o serie de intervale numărul total unitățile statistice pot fi mici, iar fiecare interval conține un număr mic de opțiuni (de exemplu, 1-3 unități). În astfel de cazuri, nu se poate conta pe manifestarea oricărui tipar. Pentru a se obține un rezultat firesc pe baza unor observații aleatorii, este necesar ca legea să intre în vigoare numere mari, adică astfel încât pentru fiecare interval ar fi nu mai multe, ci zeci și sute de unități statistice. În acest scop, trebuie să încercăm să creștem cât mai mult numărul de observații. Acesta este cel mai mult calea cea buna detectarea tiparelor în procesele de masă. Daca nu pare oportunitate reală crește numărul de observații, apoi identificarea unui model se poate realiza prin reducerea numărului de intervale din seria de distribuție. Prin reducerea numărului de intervale dintr-o serie de variații, numărul de frecvențe din fiecare interval crește astfel. Aceasta înseamnă că fluctuațiile aleatorii ale fiecărei unități statistice sunt suprapuse una peste alta, „netezite”, transformându-se într-un model.

Formarea și construcția seriilor de variații ne permite să obținem doar o imagine generală, aproximativă, a distribuției populației statistice. De exemplu, o histogramă doar într-o formă grosieră exprimă relația dintre valorile unei caracteristici și frecvențele (frecvențele) acesteia. Prin urmare, seriile de variații sunt în esență doar baza pentru un studiu suplimentar și aprofundat al regularității interne a statiei. distributie.

ÎNTREBĂRI DE TEST PENTRU TEMA 5

1. Ce este variația? Ce cauzează variația unei trăsături într-o populație statistică?

2. Ce tipuri de caracteristici diferite pot apărea în statistici?

3. Ce este o serie de variații? Ce tipuri de serii de variații pot exista?

4. Ce este o serie clasificată? Care sunt avantajele și dezavantajele sale?

5. Ce este serie discretăși care sunt avantajele și dezavantajele sale?

6. Care este procedura de formare a unei serii de intervale, care sunt avantajele și dezavantajele acesteia?

7. Ce este o reprezentare grafică a serii de distribuție pe intervale, clasificate, discrete?

8. Ce este cumulul de distribuție și ce caracterizează acesta?

Statistici matematice- o ramură a matematicii dedicată metode matematice prelucrarea, sistematizarea și utilizarea datelor statistice pentru concluzii științifice și practice.

3.1. CONCEPTE DE BAZĂ ALE STATISTICII MATEMATICE

În problemele medicale și biologice este adesea necesar să se studieze distribuția unei anumite caracteristici pentru foarte un numar mare indivizii. La diferiți indivizi acest semn are sens diferit, deci este o variabilă aleatoare. De exemplu, orice medicament medicinal are eficiență diferită atunci când este aplicat la diferiți pacienți. Cu toate acestea, pentru a vă face o idee despre eficacitatea acestui medicament, nu este nevoie să îl aplicați toata lumea bolnav. Este posibil să urmăriți rezultatele utilizării medicamentului la un grup relativ mic de pacienți și, pe baza datelor obținute, să identificați caracteristicile esențiale (eficacitate, contraindicații) procesului de tratament.

Populația- un ansamblu de elemente omogene caracterizate de un anumit atribut de studiat. Acest semn este continuu variabilă aleatoare cu densitatea distribuției f(x).

De exemplu, dacă suntem interesați de prevalența unei boli într-o anumită regiune, atunci populația generală este întreaga populație a regiunii. Dacă dorim să aflăm separat susceptibilitatea bărbaților și femeilor la această boală, atunci ar trebui să luăm în considerare două populații generale.

Pentru a studia proprietățile unei populații generale, este selectată o anumită parte a elementelor acesteia.

Probă- o parte din populația generală selectată pentru examinare (tratament).

Dacă acest lucru nu provoacă confuzie, atunci o probă se numește ca un set de obiecte, selectat pentru sondaj și totalitate

valorile caracteristica studiată obţinută în timpul examinării. Aceste valori pot fi reprezentate în mai multe moduri.

Serii statistice simple - valorile caracteristicii studiate, înregistrate în ordinea în care au fost obținute.

Un exemplu de serie statistică simplă obținută prin măsurarea vitezei undelor de suprafață (m/s) în pielea frunții la 20 de pacienți este dat în tabel. 3.1.

Tabelul 3.1.Serii statistice simple

O serie statistică simplă este principala și cea mai mare drum completînregistrările rezultatelor examinării. Poate conține sute de elemente. Este foarte greu să arunci o privire asupra unei astfel de totalități dintr-o privire. Prin urmare, eșantioanele mari sunt de obicei împărțite în grupuri. Pentru a face acest lucru, zona de schimbare a caracteristicii este împărțită în mai multe (N) intervale lățime egală și calculați frecvențele relative (n/n) ale atributului care se încadrează în aceste intervale. Lățimea fiecărui interval este:

Limitele intervalului au următoarele semnificații:

Dacă orice element eșantion este limita dintre două intervale adiacente, atunci este clasificat ca stânga interval. Datele grupate în acest fel se numesc serii statistice de interval.

este un tabel care arată intervalele de valori ale atributelor și frecvențele relative de apariție a atributului în aceste intervale.

În cazul nostru, putem forma, de exemplu, următoarea serie statistică de intervale (N = 5, d= 4), tabel. 3.2.

Tabelul 3.2.Serii statistice de intervale

Aici, intervalul 28-32 include două valori egale cu 28 (Tabelul 3.1), iar intervalul 32-36 include valorile 32, 33, 34 și 35.

O serie statistică de interval poate fi reprezentată grafic. Pentru a face acest lucru, intervalele de valori ale atributelor sunt trasate de-a lungul axei absciselor și pe fiecare dintre ele, ca pe o bază, este construit un dreptunghi cu o înălțime egală cu frecvența relativă. Diagrama cu bare rezultată este numită histogramă.

Orez. 3.1. diagramă cu bare

În histogramă, modelele statistice ale distribuției caracteristicii sunt vizibile destul de clar.

Cu o dimensiune mare a eșantionului (câteva mii) și lățimi mici ale coloanei, forma histogramei este apropiată de forma graficului densitatea distributiei semn.

Numărul de coloane de histogramă poate fi selectat folosind următoarea formulă:

Construirea manuală a histogramei este un proces lung. De aceea dezvoltat programe de calculator pentru construcţia lor automată.

3.2. CARACTERISTICI NUMERICE ALE SERIELOR STATISTICE

Multe proceduri statistice utilizează estimări ale eșantionului pentru așteptarea și varianța populației (sau MSE).

Eșantion mediu(X) este media aritmetică a tuturor elementelor unei serii statistice simple:

Pentru exemplul nostru X= 37,05 (m/s).

Media eșantionului estecel mai bunestimare medie generalăM.

Varianta eșantionului s 2 egală cu suma abaterilor pătrate ale elementelor de la media eșantionului, împărțită la n- 1:

În exemplul nostru, s 2 = 25,2 (m/s) 2.

Vă rugăm să rețineți că atunci când se calculează varianța eșantionului, numitorul formulei nu este dimensiunea eșantionului n, ci n-1. Acest lucru se datorează faptului că atunci când se calculează abaterile în formula (3.3), în loc de așteptarea matematică necunoscută, se utilizează estimarea acesteia - eșantion mediu.

Varianta eșantionului este cel mai bun estimarea varianței generale (σ 2).

Deviația standard a eșantionului(s) este Rădăcină pătrată din varianța eșantionului:

Pentru exemplul nostru s= 5,02 (m/s).

Selectiv rădăcină medie pătrată abaterea este cea mai bună estimare a abaterii standard generale (σ).

Cu o creștere nelimitată a dimensiunii eșantionului, toate caracteristicile eșantionului tind spre caracteristicile corespunzătoare ale populației generale.

Formulele computerizate sunt utilizate pentru a calcula caracteristicile eșantionului. În Excel, aceste calcule realizează funcțiile statistice MEDIE, VARIAnță. DEVIAȚIE STANDARD

3.3. EVALUAREA INTERVALULUI

Toate caracteristicile eșantionului sunt variabile aleatoare. Aceasta înseamnă că pentru un alt eșantion de aceeași dimensiune, valorile caracteristicilor eșantionului vor fi diferite. Astfel, selectiv

caracteristicile sunt numai estimări caracteristicile relevante ale populației.

Dezavantajele evaluării selective sunt compensate de estimarea intervalului, reprezentând interval numericîn interiorul căruia cu o probabilitate dată R d se găseşte valoarea adevărată a parametrului estimat.

Lăsa U r - un parametru al populației generale (media generală, varianța generală etc.).

Estimarea intervalului parametrul U r se numește interval (U 1, U 2), satisfacerea conditiei:

P(U < Ur < U2) = Рд. (3.5)

Probabilitate R d numit probabilitatea de încredere.

Probabilitatea de încredere Pd - probabilitatea ca adevărata valoare a cantității estimate să fie interior intervalul specificat.

În acest caz, intervalul (U 1, U 2) numit interval de încredere pentru parametrul estimat.

Adesea, în locul probabilității de încredere, se folosește valoarea asociată α = 1 - Р d, care se numește nivelul de semnificație.

Nivel de semnificație este probabilitatea ca valoarea reală a parametrului estimat să fie in afarainterval de încredere.

Uneori α și P d sunt exprimate ca procente, de exemplu, 5% în loc de 0,05 și 95% în loc de 0,95.

În estimarea intervalului, mai întâi selectați cel potrivit probabilitatea de încredere (de obicei 0,95 sau 0,99), apoi găsiți intervalul adecvat de valori pentru parametrul estimat.

Să notăm câteva proprietăți generale estimări de interval.

1. Cu cât nivelul de semnificație este mai scăzut (cu atât mai mult R d), cu cât estimarea intervalului este mai largă. Deci, dacă la un nivel de semnificație de 0,05, intervalul estimat al mediei generale este 34,7< M< 39,4, то для уровня 0,01 она будет гораздо шире: 33,85 < M< 40,25.

2. Cu cât dimensiunea eșantionului este mai mare n, cu atât este mai restrânsă estimarea intervalului cu nivelul de semnificație selectat. Fie, de exemplu, 5 estimarea procentuală a mediei generale (β = 0,05) obținută dintr-un eșantion de 20 de elemente, apoi 34,7< M< 39,4.

Prin creșterea dimensiunii eșantionului la 80, obținem o estimare mai precisă la același nivel de semnificație: 35,5< M< 38,6.

ÎN caz general construirea unor estimări de încredere de încredere necesită cunoașterea legii conform căreia atributul aleator estimat este distribuit în populație. Să ne uităm la modul în care este construită o estimare de interval media generală caracteristică care este distribuită în populaţie în funcţie de normal lege.

3.4. ESTIMARE INTERVALĂ A MEDIEI GENERALE PENTRU LEGEA DE DISTRIBUȚIE NORMALĂ

Construirea unei estimări de interval a mediei generale M pentru o populație cu legea normală distribuția se bazează pe următoarea proprietate. Pentru volumul de eșantionare n atitudine

respectă distribuția Student cu numărul de grade de libertate ν = n- 1.

Aici X- medie eșantionului și s- abaterea standard selectivă.

Folosind tabelele de distribuție Student sau echivalentul lor pe computer, puteți găsi o valoare limită astfel încât, cu o probabilitate de încredere dată, să fie valabilă următoarea inegalitate:

Această inegalitate corespunde inegalității pentru M:

Unde ε - jumătate de lățime a intervalului de încredere.

Astfel, construirea unui interval de încredere pentru M se realizează în următoarea secvență.

1. Selectați o probabilitate de încredere Р d (de obicei 0,95 sau 0,99) și pentru aceasta, folosind tabelul de distribuție Student, găsiți parametrul t

2. Calculați jumătatea lățimii intervalului de încredere ε:

3. Obțineți o estimare de interval a mediei generale cu probabilitatea de încredere selectată:

Pe scurt este scris astfel:

Au fost dezvoltate proceduri computerizate pentru a găsi estimări de interval.

Să explicăm cum să folosim tabelul de distribuție Student. Acest tabel are două „intrări”: coloana din stânga, numită numărul de grade de libertate ν = n- 1, iar linia de sus este nivelul de semnificație α. La intersecția rândului și coloanei corespunzătoare, găsiți coeficientul Student t.

Să aplicăm această metodă eșantionului nostru. Un fragment din tabelul de distribuție Student este prezentat mai jos.

Tabelul 3.3. Fragment din tabelul de distribuție Student

O serie statistică simplă pentru un eșantion de 20 de persoane (n= 20, ν =19) este prezentată în tabel. 3.1. Pentru această serie, calculele folosind formulele (3.1-3.3) dau: X= 37,05; s= 5,02.

Să alegem α = 0,05 (Р d = 0,95). La intersecția rândului „19” și coloanei „0.05” găsim t= 2,09.

Să calculăm acuratețea estimării folosind formula (3.6): ε = 2,09?5,02/λ /20 = 2,34.

Să construim o estimare de interval: cu o probabilitate de 95%, media generală necunoscută satisface inegalitatea:

37,05 - 2,34 < M< 37,05 + 2,34, или M= 37,05 ± 2,34 (m/s), Rd = 0,95.

3.5. METODE DE TESTARE A IPOTEZELOR STATISTICE

Ipoteze statistice

Înainte de a formula ce este o ipoteză statistică, luați în considerare următorul exemplu.

Pentru a compara două metode de tratare a unei anumite boli, două grupuri de pacienți a câte 20 de persoane fiecare au fost selectate și tratate folosind aceste metode. Pentru fiecare pacient a fost înregistrat numărul de proceduri, după care s-a obţinut un efect pozitiv. Pe baza acestor date, mediile eșantionului (X), variațiile eșantionului au fost găsite pentru fiecare grup (s 2)și abaterile standard ale eșantionului (s).

Rezultatele sunt prezentate în tabel. 3.4.

Tabelul 3.4

Numărul de proceduri necesare pentru a obține un efect pozitiv este o variabilă aleatorie, toate informațiile despre care sunt activate acest moment conținute în eșantionul dat.

De la masă 3.4 arată că media eșantionului în primul grup este mai mică decât în ​​al doilea. Înseamnă aceasta că aceeași relație este valabilă pentru mediile generale: M 1< М 2 ? Достаточно ли статистических данных для такого вывода? Ответы на эти вопросы и дает testarea statistică a ipotezelor.

Ipoteza statistica- este o presupunere despre proprietăţile populaţiilor.

Vom lua în considerare ipoteze despre proprietăți Două populatiile generale.

Dacă populaţiile au celebru, identic distribuția valorii care se estimează, iar ipotezele se referă la valori vreun parametru a acestei distribuții, atunci se numesc ipotezele parametrice. De exemplu, eșantioanele sunt extrase din populații cu legea normală distribuție și varianță egală. Trebuie să aflu sunt la fel mediile generale ale acestor populaţii.

Dacă nu se știe nimic despre legile de distribuție a populațiilor generale, atunci se numesc ipoteze despre proprietățile lor neparametric. De exemplu, sunt la fel legile de distribuţie a populaţiilor generale din care se prelevează eşantioanele.

Ipoteze nule și alternative.

Sarcina de a testa ipoteze. Nivel de semnificație

Să ne familiarizăm cu terminologia folosită la testarea ipotezelor.

H 0 - ipoteza nulă (ipoteza scepticului) este o ipoteză despre absența diferențelorîntre probele comparate. Scepticul consideră că diferențele dintre estimările eșantionului obținute din rezultatele cercetării sunt aleatorii;

H 1- ipoteza alternativă (ipoteza optimistă) este o ipoteză despre prezența diferențelor între eșantioanele comparate. Un optimist consideră că diferențele dintre estimările eșantionului sunt cauzate de motive obiective și corespund diferențelor dintre populațiile generale.

Testarea ipotezelor statistice este fezabilă numai atunci când este posibil să se construiască unele mărimea(criteriu), a cărui lege de repartizare în caz de echitate H 0 celebru. Atunci pentru această cantitate putem specifica interval de încredere,în care cu o probabilitate dată R d valoarea sa scade. Acest interval se numește zona critica. Dacă valoarea criteriului se încadrează în regiunea critică, atunci ipoteza este acceptată N 0.În caz contrar, ipoteza H 1 este acceptată.

În cercetarea medicală se utilizează P d = 0,95 sau P d = 0,99. Aceste valori corespund niveluri de semnificațieα = 0,05 sau α = 0,01.

La testarea ipotezelor statisticenivelul de semnificație(α) este probabilitatea de a respinge ipoteza nulă atunci când aceasta este adevărată.

Vă rugăm să rețineți că, în esență, este vizată procedura de testare a ipotezelor detectarea diferențelorși să nu confirme absența acestora. Când valoarea criteriului depășește regiunea critică, putem spune cu inimă curată „scepticului” - ei bine, ce mai doriți?! Dacă nu ar exista diferențe, atunci cu o probabilitate de 95% (sau 99%) valoarea calculată ar fi în limitele specificate. Dar nu!..

Ei bine, dacă valoarea criteriului se încadrează în regiunea critică, atunci nu există niciun motiv să credem că ipoteza H 0 este corectă. Acest lucru indică cel mai probabil unul dintre cele două motive posibile.

1. Dimensiunile eșantionului nu sunt suficient de mari pentru a detecta diferențele. Este probabil ca experimentarea continuă să aducă succes.

2. Există diferențe. Dar sunt atât de mici încât nu au nicio semnificație practică. În acest caz, continuarea experimentelor nu are sens.

Să trecem la considerarea unor ipoteze statistice folosite în cercetarea medicală.

3.6. TESTAREA IPOTEZELOR DESPRE EGALITATEA VARIANȚEI, CRITERIU F FISCHER

În unele studii clinice, efectul pozitiv este evidențiat nu atât de mult magnitudinea a parametrului studiat, cât de mult din acesta stabilizare, reducându-şi fluctuaţiile. În acest caz, se pune întrebarea despre compararea a două variații generale pe baza rezultatelor unui sondaj prin sondaj. Această problemă poate fi rezolvată folosind Testul lui Fisher.

Formularea problemei

legea normală distribuţiile. Dimensiuni mostre -

n 1Și n2, A variațiile de eșantion egal s 1 și s 2 2 variaţii generale.

Ipoteze testabile:

H 0- variatii generale sunt la fel;

H 1- variatii generale sunt diferite.

Se arată dacă probele sunt prelevate din populații cu legea normală distribuție, atunci dacă ipoteza este adevărată H 0 raportul dintre variațiile eșantionului urmează distribuția Fisher. Prin urmare, ca criteriu de verificare a corectitudinii H 0 se ia valoarea F, calculat prin formula:

Unde s 1 și s 2 sunt variații ale eșantionului.

Acest raport se supune distribuției Fisher cu numărul de grade de libertate al numărătorului ν 1 = n 1- 1 și numărul de grade de libertate ale numitorului ν 2 = n 2 - 1. Limitele regiunii critice se găsesc folosind tabelele de distribuție Fisher sau folosind funcția de calculator BRASPOBR.

Pentru exemplul prezentat în tabel. 3.4, obținem: ν 1 = ν 2 = 20 - 1 = 19; F= 2,16/4,05 = 0,53. La α = 0,05, limitele regiunii critice sunt respectiv: = 0,40, = 2,53.

Valoarea criteriului se încadrează în regiunea critică, deci ipoteza este acceptată H 0: variațiile generale ale eșantionului sunt la fel.

3.7. TESTAREA IPOTEZELOR PRIVIND EGALITATEA MIJLOACELOR, CRITERIU t STUDENT

Sarcina de comparare in medie două populaţii generale apar atunci când semnificaţia practică este tocmai magnitudinea caracteristica studiată. De exemplu, când se compară durata tratamentului cu două metode diferite sau numărul de complicații care decurg din utilizarea lor. În acest caz, puteți utiliza testul t al Studentului.

Formularea problemei

S-au obţinut două probe (X 1) şi (X 2), extrase din populaţiile generale cu legea normală distribuţie şi varianțe identice. Dimensiunile eșantionului - n 1 și n 2, eșantion înseamnă sunt egale cu X 1 și X 2 și variațiile de eșantion- s 1 2 și s 2 2 respectiv. Trebuie comparat medii generale.

Ipoteze testabile:

H 0- medii generale sunt la fel;

H 1- medii generale sunt diferite.

Se arată că dacă ipoteza este adevărată H 0 valoarea t calculată prin formula:

distribuite conform legii lui Student cu numărul de grade de libertate ν = ν 1 + + ν2 - 2.

Aici unde ν 1 = n 1 - 1 - numărul de grade de libertate pentru prima probă; ν 2 = n 2 - 1 - număr de grade de libertate pentru a doua probă.

Limitele regiunii critice sunt găsite folosind tabele de distribuție t sau folosind funcția de calculator STUDRIST. Distribuția Student este simetrică față de zero, astfel încât limitele stânga și dreapta ale regiunii critice sunt identice ca mărime și opuse ca semn: -și

Pentru exemplul prezentat în tabel. 3.4, obținem:

ν 1 = ν 2 = 20 - 1 = 19; ν = 38, t= -2,51. La α = 0,05 = 2,02.

Valoarea criteriului depășește granița din stânga a regiunii critice, așa că acceptăm ipoteza H 1: medii generale sunt diferite.În același timp, media populației prima mostră MAI PUȚIN.

Aplicabilitatea testului t Student

Testul t Student este aplicabil numai probelor din normal se agrega cu variații generale identice. Dacă cel puțin una dintre condiții este încălcată, atunci aplicabilitatea criteriului este îndoielnică. Cerința de normalitate a populației generale este de obicei ignorată, citând teorema limitei centrale.Într-adevăr, diferența dintre mediile eșantionului din numărătorul (3.10) poate fi considerată distribuită normal pentru ν > 30. Dar problema egalității varianțelor nu poate fi verificată și nu pot fi luate referiri la faptul că testul Fisher nu a detectat diferențe. în considerare. Cu toate acestea, testul t este utilizat pe scară largă pentru a detecta diferențele în mediile populației, deși fără dovezi suficiente.

Mai jos este discutat criteriu neparametric, care este folosit cu succes în aceleași scopuri și care nu necesită niciunul normalitate, nici egalitatea varianţelor.

3.8. COMPARAȚIA NEPARAMETRICĂ A DOUĂ EȘANTIE: CRITERIU MANN-WHITNEY

Testele neparametrice sunt concepute pentru a detecta diferențele în legile de distribuție a două populații. Criterii care sunt sensibile la diferențe în general in medie, numite criterii schimb Criterii care sunt sensibile la diferențe în general dispersii, numite criterii scară. Testul Mann-Whitney se referă la criterii schimbși este utilizat pentru a detecta diferențe în mediile a două populații, eșantioane din care sunt prezentate în scala de clasare. Caracteristicile măsurate sunt situate pe această scară în ordine crescătoare, iar apoi numerotate cu numere întregi 1, 2... Aceste numere se numesc ranguri. Cantităților egale li se atribuie ranguri egale. Nu valoarea atributului în sine contează, ci numai loc ordinal pe care o plasează printre alte cantități.

În tabel 3.5. primul grup din tabelul 3.4 este prezentat în formă extinsă (linia 1), clasat (linia 2), iar apoi rândurile valorilor identice sunt înlocuite cu medii aritmetice. De exemplu, elementele 4 și 4 din primul rând au primit rangurile 2 și 3, care au fost apoi înlocuite cu aceleasi valori 2,5.

Tabelul 3.5

Formularea problemei

Mostre independente (X 1)Și (X 2) extrase din populații generale cu legi de distribuție necunoscute. Dimensiunile mostrelor n 1Și n 2 respectiv. Valorile elementelor eșantionului sunt prezentate în scala de clasare. Este necesar să se verifice dacă aceste populații generale diferă unele de altele?

Ipoteze testabile:

H 0- eșantioanele aparțin aceleiași populații generale; H 1- eșantioanele aparțin unor populații generale diferite.

Pentru a testa astfel de ipoteze, se folosește testul (/-Mann-Whitney.

În primul rând, un eșantion combinat (X) este compilat din cele două eșantioane, ale căror elemente sunt clasificate. Apoi se găsește suma rangurilor corespunzătoare elementelor primului eșantion. Această sumă este criteriul de testare a ipotezelor.

U= Suma rangurilor primului eșantion. (3,11)

Pentru mostre independente ale căror volume sunt mai mari de 20, valoarea U respectă distribuția normală, a cărei așteptare matematică și abatere standard sunt egale cu:

Prin urmare, limitele regiunii critice sunt găsite conform tabelelor de distribuție normale.

Pentru exemplul prezentat în tabel. 3.4, obținem: ν 1 = ν 2 = 20 - 1 = 19, U= 339, μ = 410, σ = 37. Pentru α = 0,05 obținem: stânga = 338 și dreapta = 482.

Valoarea criteriului depășește granița stângă a regiunii critice, prin urmare se acceptă ipoteza H 1: populațiile generale au legi de distribuție diferite. În același timp, media populației prima mostră MAI PUȚIN.

Ce este o grupare de date statistice și cum este legată de seria de distribuție, a fost discutat în această prelegere, unde puteți afla și despre ce este o serie de distribuție discretă și variațională.

Seriile de distribuție sunt una dintre varietățile seriilor statistice (pe lângă ele, serii de dinamică sunt folosite în statistică), sunt folosite pentru a analiza date despre fenomenele vieții sociale. Construirea seriei de variații este o sarcină destul de fezabilă pentru toată lumea. Cu toate acestea, există reguli care trebuie reținute.

Cum se construiește o serie de distribuție variațională discretă

Exemplul 1. Există date despre numărul de copii din 20 de familii chestionate. Construiți o serie de variații discrete repartizarea familiei după numărul de copii.

0 1 2 3 1
2 1 2 1 0
4 3 2 1 1
1 0 1 0 2

Soluţie:

  1. Să începem cu un aspect de tabel, în care vom introduce apoi datele. Deoarece rândurile de distribuție au două elemente, tabelul va fi format din două coloane. Prima coloană este întotdeauna o opțiune - ceea ce studiem - îi luăm numele de la sarcină (sfârșitul propoziției cu sarcina în condiții) - după numărul de copii– asta înseamnă că opțiunea noastră este numărul de copii.

A doua coloană este frecvența - cât de des apare varianta noastră în fenomenul studiat - luăm și numele coloanei din sarcină - repartizarea familiei – aceasta înseamnă că frecvența noastră este numărul de familii cu numărul corespunzător de copii.

  1. Acum din datele sursă selectăm acele valori care apar cel puțin o dată. În cazul nostru este

Și să aranjam aceste date în prima coloană a tabelului nostru în ordine logică, în acest caz crescând de la 0 la 4. Obținem

Și, în sfârșit, să numărăm de câte ori apare fiecare valoare a variantei.

0 1 2 3 1

2 1 2 1 0

4 3 2 1 1

1 0 1 0 2

Ca urmare, obținem un tabel completat sau rândul necesar de distribuție a familiilor după numărul de copii.

Exercițiu . Există date despre categoriile tarifare de 30 de lucrători la întreprindere. Construiți o serie de variații discrete pentru distribuția lucrătorilor pe categorii tarifare. 2 3 2 4 4 5 5 4 6 3

1 4 4 5 5 6 4 3 2 3

4 5 4 5 5 6 6 3 3 4

Cum se construiește o serie de distribuție variațională de interval

Să construim o serie de distribuție pe intervale și să vedem cum diferă construcția acesteia de o serie discretă.

Exemplul 2. Există date despre valoarea profitului primit de 16 întreprinderi, milioane de ruble. — 23 48 57 12 118 9 16 22 27 48 56 87 45 98 88 63. Construiţi o serie de variaţii pe intervale a distribuţiei întreprinderilor după volumul profitului, identificând 3 grupe cu intervale egale.

Principiul general de construire a seriei, desigur, va rămâne aceleași două coloane, aceleași opțiuni și frecvență, dar în acest caz opțiunile vor fi situate în interval și frecvențele vor fi numărate diferit.

Soluţie:

  1. Să începem similar cu sarcina anterioară prin construirea unui aspect de tabel, în care vom introduce apoi date. Deoarece rândurile de distribuție au două elemente, tabelul va fi format din două coloane. Prima coloană este întotdeauna o opțiune - ceea ce studiem - îi luăm numele de la sarcină (sfârșitul propoziției cu sarcina în condiții) - după valoarea profitului - ceea ce înseamnă că opțiunea noastră este suma profitului primit .

A doua coloană este frecvența - cât de des apare varianta noastră în fenomenul studiat - luăm și numele coloanei din sarcină - distribuția întreprinderilor - ceea ce înseamnă că frecvența noastră este numărul de întreprinderi cu profitul corespunzător, în acest caz incadrandu-se in interval.

Ca rezultat, aspectul tabelului nostru va arăta astfel:

unde i este valoarea sau lungimea intervalului,

Xmax și Xmin – valoarea maximă și minimă a atributului,

n este numărul necesar de grupuri în funcție de condițiile problemei.

Să calculăm dimensiunea intervalului pentru exemplul nostru. Pentru a face acest lucru, printre datele inițiale le vom găsi pe cele mai mari și mai mici

23 48 57 12 118 9 16 22 27 48 56 87 45 98 88 63 – valoarea maximă este de 118 milioane de ruble, iar cea minimă este de 9 milioane de ruble. Să efectuăm calculul folosind formula.

In calcul am obtinut numarul 36, (3) trei in perioada, in astfel de situatii valoarea intervalului trebuie rotunjita astfel incat in urma calculelor sa nu se piarda datele maxime, motiv pentru care in calcul valoarea de intervalul este de 36,4 milioane de ruble.

  1. Acum să construim intervale - opțiunile noastre în această problemă. Primul interval începe să fie construit de la valoarea minimă, la acesta se adaugă valoarea intervalului și se obține limita superioară a primului interval. Apoi limita superioară a primului interval devine limita inferioară a celui de-al doilea interval, i se adaugă valoarea intervalului și se obține al doilea interval. Și așa mai departe de câte ori este necesar pentru a construi intervale în funcție de condiție.

Să remarcăm că dacă nu am fi rotunjit valoarea intervalului la 36,4, ci l-am lăsa la 36,3, atunci ultima valoare ar fi fost 117,9. Pentru a evita pierderea datelor, este necesar să rotunjiți valoarea intervalului la o valoare mai mare.

  1. Să numărăm numărul de întreprinderi care se încadrează în fiecare interval specific. La procesarea datelor, trebuie să vă amintiți că valoarea superioară a intervalului într-un interval dat nu este luată în considerare (nu este inclusă în acest interval), ci este luată în considerare în intervalul următor (limita inferioară a intervalului este inclusă în acest interval, iar cel superior nu este inclus), cu excepția ultimului interval.

Când efectuați prelucrarea datelor, cel mai bine este să indicați datele selectate cu simboluri sau culori pentru a simplifica prelucrarea.

23 48 57 12 118 9 16 22

27 48 56 87 45 98 88 63

Notăm primul interval galben- și determinați câte date se încadrează în intervalul de la 9 la 45,4, în timp ce acest 45,4 va fi luat în considerare în al doilea interval (cu condiția să fie în date) - în final obținem 7 întreprinderi în primul interval. Și așa mai departe în toate intervalele.

  1. (acțiune suplimentară) Să calculăm suma totală a profitului primit de întreprinderi pentru fiecare interval și în general. Pentru a face acest lucru, adăugați datele marcate Culori diferiteși obțineți valoarea totală a profitului.

Pentru primul interval - 23 + 12 + 9 + 16 + 22 + 27 + 45 = 154 milioane de ruble.

Pentru al doilea interval - 48 + 57 + 48 + 56 + 63 = 272 milioane de ruble.

Pentru al treilea interval - 118 + 87 + 98 + 88 = 391 milioane de ruble.

Exercițiu . Există date despre valoarea depozitelor în banca a 30 de deponenți, mii de ruble. 150, 120, 300, 650, 1500, 900, 450, 500, 380, 440,

600, 80, 150, 180, 250, 350, 90, 470, 1100, 800,

500, 520, 480, 630, 650, 670, 220, 140, 680, 320

Construi serie de variații de interval repartizarea deponenților, în funcție de mărimea depozitului, identificând 4 grupe cu intervale egale. Pentru fiecare grup, calculați suma totală a depozitelor.