O persoană își poate recunoaște abilitățile doar încercând să le aplice. (Seneca)

Intervale de încredere

revizuire generală

Luând un eșantion din populație, obținem o estimare punctuală a parametrului de interes și calculăm eroarea standard pentru a indica precizia estimării.

Cu toate acestea, pentru majoritatea cazurilor, eroarea standard ca atare nu este acceptabilă. Este mult mai util să combinați această măsură de precizie cu o estimare de interval pentru parametrul populației.

Acest lucru se poate face prin utilizarea cunoștințelor distribuției teoretice de probabilitate a statisticii (parametrului) eșantionului pentru a calcula un interval de încredere (CI - Intervalul de încredere, CI - Intervalul de încredere) pentru parametru.

În general, un interval de încredere extinde estimările în ambele direcții cu un anumit multiplu al erorii standard (a unui parametru dat); cele două valori (limitele de încredere) care definesc intervalul sunt de obicei separate prin virgulă și cuprinse între paranteze.

Interval de încredere pentru medie

Folosind distribuția normală

Media eșantionului este distribuită în mod normal dacă dimensiunea eșantionului este mare, astfel încât să puteți aplica cunoștințele despre distribuția normală atunci când luați în considerare media eșantionului.

Mai exact, 95% din distribuția mediilor eșantionului se află în 1,96 deviații standard (SD) față de media populației.

Când avem doar un eșantion, îl numim eroarea standard a mediei (SEM) și calculăm intervalul de încredere de 95% pentru medie după cum urmează:

Dacă repetăm ​​acest experiment de mai multe ori, intervalul va conține media reală a populației în 95% din timp.

De obicei, acesta este un interval de încredere, cum ar fi intervalul de valori în care se află media reală a populației (media generală) cu o probabilitate de încredere de 95%.

Deși nu este în întregime riguros (media populației este o valoare fixă ​​și, prin urmare, nu poate avea o probabilitate atașată) să interpretăm un interval de încredere în acest fel, este conceptual mai ușor de înțeles.

Utilizare t- distributie

Puteți folosi distribuția normală dacă cunoașteți valoarea varianței în populație. De asemenea, atunci când dimensiunea eșantionului este mică, media eșantionului urmează o distribuție normală dacă datele populației subiacente sunt distribuite normal.

Dacă datele care stau la baza populației nu sunt distribuite în mod normal și/sau varianța populației este necunoscută, media eșantionului se supune Distribuția t a studentului.

Calculăm intervalul de încredere de 95% pentru media populației generale după cum urmează:

Unde este punctul procentual (percentila) t- Distribuția t a lui Student cu (n-1) grade de libertate, care dă o probabilitate cu două fețe de 0,05.

În general, oferă o gamă mai largă decât atunci când se utilizează distribuția normală, deoarece ia în considerare incertitudinea suplimentară care este introdusă la estimarea deviație standard populației și/sau datorită dimensiunii reduse a eșantionului.

Când dimensiunea eșantionului este mare (de ordinul a 100 sau mai mult), diferența dintre cele două distribuții ( t-Studentși normal) este nesemnificativă. Cu toate acestea, ele folosesc întotdeauna t- distribuția la calcularea intervalelor de încredere, chiar dacă dimensiunea eșantionului este mare.

De obicei este raportat IC de 95%. Alte intervale de încredere pot fi calculate, cum ar fi IC 99% pentru medie.

În loc de produsul erorii standard și valoarea tabelului t- distribuția, care corespunde unei probabilități cu două fețe de 0,05, înmulțiți-o (eroarea standard) cu valoarea care corespunde unei probabilități cu două fețe de 0,01. Acesta este un interval de încredere mai larg decât intervalul de încredere de 95%, deoarece reflectă o încredere crescută că intervalul include de fapt media populației.

Interval de încredere pentru proporție

Distribuția de eșantionare a proporțiilor are o distribuție binomială. Cu toate acestea, dacă dimensiunea eșantionului n este rezonabil de mare, atunci distribuția de eșantionare a proporției este aproximativ normală cu media .

Evaluăm prin raport selectiv p=r/n(Unde r- numărul de indivizi din eșantion cu cei care ne interesează trasaturi caracteristice), iar eroarea standard este estimată:

Intervalul de încredere de 95% pentru proporție este estimat:

Dacă dimensiunea eșantionului este mică (de obicei când n.p. sau n(1-p) Mai puțin 5 ), atunci este necesar să se utilizeze distribuția binomială pentru a calcula intervalele de încredere precise.

Rețineți că dacă p exprimat ca procent, atunci (1-p) inlocuit de (100-p).

Interpretarea intervalelor de încredere

Când interpretăm un interval de încredere, ne interesează următoarele întrebări:

Cât de larg este intervalul de încredere?

Un interval larg de încredere indică faptul că estimarea este imprecisă; îngust indică o estimare precisă.

Lățimea intervalului de încredere depinde de mărimea erorii standard, care, la rândul său, depinde de dimensiunea eșantionului și, atunci când se ia în considerare o variabilă numerică, variabilitatea datelor produce intervale de încredere mai largi decât studiile unui set mare de date cu puține variabile. .

CI include valori de interes deosebit?

Puteți verifica dacă valoarea probabilă pentru un parametru de populație se încadrează în intervalul de încredere. Dacă da, rezultatele sunt în concordanță cu această valoare probabilă. Dacă nu, atunci este puțin probabil (pentru un interval de încredere de 95% șansa este de aproape 5%) ca parametrul să aibă acea valoare.

Există două tipuri de estimări în statistică: punct și interval. Estimare punctuală este un singur eșantion statistic care este utilizat pentru a estima un parametru de populație. De exemplu, media eșantionului este o estimare punctuala așteptări matematice populația și varianța eșantionului S 2- estimarea punctuală a varianței populației σ 2. s-a demonstrat că media eșantionului este o estimare imparțială a așteptărilor matematice a populației. O medie a eșantionului se numește imparțial deoarece media tuturor mediilor eșantionului (cu aceeași dimensiune a eșantionului) n) este egală cu așteptarea matematică a populației generale.

Pentru variația eșantionului S 2 a devenit o estimare imparțială a varianței populației σ 2, numitorul varianței eșantionului trebuie setat egal cu n – 1 , dar nu n. Cu alte cuvinte, varianța populației este media tuturor variațiilor posibile ale eșantionului.

La estimarea parametrilor populației, ar trebui să se țină cont de faptul că statisticile eșantionului precum , depind de mostre specifice. A ține cont de acest fapt, a obține estimarea intervalului așteptarea matematică a populației generale, analizați distribuția mediilor eșantionului (pentru mai multe detalii, vezi). Intervalul construit este caracterizat de un anumit nivel de încredere, care reprezintă probabilitatea ca parametrul adevărat al populației să fie estimat corect. Intervale similare de încredere pot fi utilizate pentru a estima proporția unei caracteristici Rși principala masă distribuită a populației.

Descărcați nota în sau format, exemple în format

Construirea unui interval de încredere pentru așteptarea matematică a populației cu o abatere standard cunoscută

Construirea unui interval de încredere pentru ponderea unei caracteristici în populație

Această secțiune extinde conceptul de interval de încredere la date categorice. Acest lucru ne permite să estimăm ponderea caracteristicii în populație R folosind partajarea eșantionului RS= X/n. După cum este indicat, dacă cantitățile nRȘi n(1 – p) depășește numărul 5, distribuția binomială poate fi aproximată ca normal. Prin urmare, pentru a estima ponderea unei caracteristici în populație R se poate construi un interval al cărui nivel de încredere este egal cu (1 – α)х100%.


Unde pS- proporția de eșantion a caracteristicii egală cu X/n, adică numărul de succese împărțit la dimensiunea eșantionului, R- ponderea caracteristicii în populația generală, Z- valoarea critică a distribuției normale standardizate, n- marime de mostra.

Exemplul 3. Sa presupunem ca din sistemul informatic este extras un esantion format din 100 de facturi completate in ultima luna. Să presupunem că 10 dintre aceste facturi au fost întocmite cu erori. Prin urmare, R= 10/100 = 0,1. Nivelul de încredere de 95% corespunde valorii critice Z = 1,96.

Astfel, probabilitatea ca între 4,12% și 15,88% din facturi să conțină erori este de 95%.

Pentru o anumită mărime a eșantionului, intervalul de încredere care conține proporția caracteristicii în populație pare mai larg decât pentru un continuu. variabilă aleatorie. Acest lucru se datorează faptului că măsurătorile unei variabile aleatoare continue conțin mai multe informații decât măsurătorile datelor categorice. Cu alte cuvinte, datele categorice care iau doar două valori conțin informații insuficiente pentru a estima parametrii distribuției lor.

ÎNcalcularea estimărilor extrase dintr-o populație finită

Estimarea așteptărilor matematice. Factorul de corecție pentru populația finală ( fpc) a fost folosit pentru a reduce eroarea standard cu un factor. La calcularea intervalelor de încredere pentru estimările parametrilor populației, se aplică un factor de corecție în situațiile în care probele sunt extrase fără a fi returnate. Astfel, un interval de încredere pentru așteptarea matematică având un nivel de încredere egal cu (1 – α)х100%, se calculează prin formula:

Exemplul 4. Pentru a ilustra utilizarea factorului de corecție pentru o populație finită, să revenim la problema calculării intervalului de încredere pentru suma medie a facturilor, discutată mai sus în Exemplul 3. Să presupunem că o companie emite 5.000 de facturi pe lună și X= 110,27 dolari, S= 28,95 USD, N = 5000, n = 100, α = 0,05, t 99 = 1,9842. Folosind formula (6) obtinem:

Estimarea cotei unei caracteristici. Atunci când alegeți fără returnare, intervalul de încredere pentru proporția atributului având un nivel de încredere egal cu (1 – α)х100%, se calculează prin formula:

Intervalele de încredere și probleme etice

Atunci când se eșantionează o populație și se trag concluzii statistice, apar adesea probleme etice. Principalul este modul în care intervalele de încredere și estimările punctuale ale statisticilor eșantionului sunt de acord. Publicarea estimărilor punctuale fără a specifica intervalele de încredere asociate (de obicei la nivelul de încredere de 95%) și dimensiunea eșantionului din care sunt derivate pot crea confuzie. Acest lucru poate da utilizatorului impresia că estimarea punctuală este exact ceea ce are nevoie pentru a prezice proprietățile întregii populații. Astfel, este necesar să înțelegem că în orice cercetare accentul ar trebui să nu fie pe estimările punctuale, ci pe estimările pe intervale. In afara de asta, Atentie speciala ar trebui dat alegerea corecta dimensiunile probei.

Cel mai adesea, obiectele manipulării statistice sunt rezultatele anchetelor sociologice ale populației pe anumite probleme politice. În acest caz, rezultatele sondajului sunt publicate pe primele pagini ale ziarelor, iar eroarea sondaj prin sondajși metodologie analize statistice tipărit undeva la mijloc. Pentru a demonstra validitatea estimărilor punctuale obţinute este necesar să se indice mărimea eşantionului pe baza căruia au fost obţinute, limitele intervalului de încredere şi nivelul său de semnificaţie.

Următoarea notă

Sunt folosite materiale din cartea Levin et al. Statistics for Managers. – M.: Williams, 2004. – p. 448–462

Teorema limitei centrale afirmă că, cu o dimensiune a eșantionului suficient de mare, distribuția eșantionului de medii poate fi aproximată printr-o distribuție normală. Această proprietate nu depinde de tipul de distribuție a populației.

Să avem un numar mare de obiecte cu o distribuție normală a anumitor caracteristici (de exemplu, un depozit complet de legume de același tip, a căror dimensiune și greutate variază). Vrei să știi caracteristicile medii ale întregului lot de mărfuri, dar nu ai nici timp, nici dorința de a măsura și cântări fiecare legumă. Înțelegi că acest lucru nu este necesar. Dar câte piese ar trebui luate pentru o verificare la fața locului?

Înainte de a oferi mai multe formule utile pentru această situație, să ne amintim câteva notații.

În primul rând, dacă am măsura întregul depozit de legume (acest set de elemente se numește populația generală), atunci am ști cu toată exactitatea disponibilă greutatea medie a întregului lot. Să numim această medie medie X .g en . - media generală. Știm deja ce este complet determinat dacă valoarea medie și abaterea s sunt cunoscute . Adevărat, deși nu suntem nici genul mediu X, nici s Nu cunoaștem populația generală. Putem lua doar o anumită probă, să măsurăm valorile de care avem nevoie și să calculăm pentru această probă atât valoarea medie X, cât și abaterea standard S selectată.

Se știe că dacă verificarea noastră eșantion conține un număr mare de elemente (de obicei n este mai mare de 30), și acestea sunt luate într-adevăr aleatoriu, apoi s populația generală nu va diferi cu greu de selecția S ..

În plus, pentru cazul distribuției normale putem folosi următoarele formule:

Cu o probabilitate de 95%


Cu o probabilitate de 99%



ÎN vedere generala cu probabilitatea P (t)


Relația dintre valoarea t și valoarea probabilității P (t), cu care dorim să cunoaștem intervalul de încredere, poate fi luată din următorul tabel:


Astfel, am determinat în ce interval se află valoarea medie a populației (cu o probabilitate dată).

Dacă nu avem un eșantion suficient de mare, nu putem spune că populația are s = S selectează În plus, în acest caz, apropierea eșantionului de distribuția normală este problematică. În acest caz, folosim și S select în schimb s în formula:




dar valoarea lui t pentru o probabilitate fixă ​​P(t) va depinde de numărul de elemente din eșantionul n. Cu cât n este mai mare, cu atât intervalul de încredere rezultat va fi mai apropiat de valoarea dată de formula (1). Valorile t în acest caz sunt luate dintr-un alt tabel ( Testul t al elevului), pe care le prezentăm mai jos:

Valorile testului t al lui Student pentru probabilitatea 0,95 și 0,99


Exemplul 3. 30 de persoane au fost alese aleatoriu dintre angajații companiei. Potrivit eșantionului, s-a dovedit că salariul mediu (pe lună) este de 30 de mii de ruble, cu o abatere standard de 5 mii de ruble. Determinați salariul mediu în companie cu o probabilitate de 0,99.

Soluţie: Prin condiție avem n = 30, X avg. =30000, S=5000, P = 0,99. Pentru a găsi intervalul de încredere, vom folosi formula corespunzătoare testului t Student. Din tabelul pentru n = 30 și P = 0,99 găsim t = 2,756, prin urmare,


acestea. mandatar căutat interval 27484< Х ср.ген < 32516.

Deci, cu o probabilitate de 0,99 putem spune că intervalul (27484; 32516) conține în sine salariul mediu în firmă.

Sperăm că veți folosi această metodă și nu este necesar să aveți o masă cu dvs. de fiecare dată. Calculele pot fi efectuate automat în Excel. În timp ce vă aflați în fișierul Excel, faceți clic pe butonul fx din meniul de sus. Apoi, selectați tipul „statistic” dintre funcții, iar din lista propusă în fereastra - STUDAR DISCOVER. Apoi, la prompt, plasând cursorul în câmpul „probabilitate”, introduceți valoarea probabilității inverse (adică, în cazul nostru, în loc de probabilitatea de 0,95, trebuie să introduceți probabilitatea de 0,05). Aparent, foaia de calcul este concepută în așa fel încât rezultatul să răspundă la întrebarea cât de probabil avem să greșim. În mod similar, în câmpul Grad de libertate, introduceți o valoare (n-1) pentru eșantionul dvs.

Interval de încrederevalori limită o mărime statistică care, cu o probabilitate de încredere dată γ, se va afla în acest interval la eșantionarea unui volum mai mare. Notat ca P(θ - ε. În practică, alegeți probabilitatea de încredereγ de la valori destul de apropiate de unitate: γ = 0,9, γ = 0,95, γ = 0,99.

Scopul serviciului. Folosind acest serviciu, puteți determina:

  • interval de încredere pentru media generală, interval de încredere pentru varianță;
  • interval de încredere pentru abaterea standard, interval de încredere pentru cota generală;
Soluția rezultată este salvată într-un fișier Word (vezi exemplu). Mai jos este o instrucțiune video despre cum să completați datele inițiale.

Exemplul nr. 1. Într-o fermă colectivă, dintr-un efectiv total de 1000 de oi, 100 de oi au fost tunse cu control selectiv. Ca urmare, s-a stabilit o tăiere medie a lânii de 4,2 kg per oaie. Determinați cu o probabilitate de 0,99 eroarea pătratică medie a eșantionului atunci când se determină forfecarea medie a lânii per oaie și limitele în care este conținută valoarea de forfecare dacă varianța este 2,5. Eșantionul este nerepetitiv.
Exemplul nr. 2. Dintr-un lot de produse importate de la postul Vamalului de Nord din Moscova, 20 de mostre de produs „A” au fost prelevate prin prelevare repetă aleatorie. În urma testului, a fost stabilit conținutul mediu de umiditate al produsului „A” din probă, care s-a dovedit a fi egal cu 6% cu o abatere standard de 1%.
Determinați cu probabilitate 0,683 limitele conținutului mediu de umiditate al produsului în întregul lot de produse importate.
Exemplul nr. 3. Un sondaj efectuat pe 36 de elevi a arătat că numărul mediu de manuale pe care le citesc pe an an academic, s-a dovedit a fi egal cu 6. Având în vedere că numărul de manuale citite de un student pe semestru a legea normală distribuțiile cu o abatere standard egală cu 6, găsiți: A) cu o fiabilitate de 0,99, o estimare de interval pentru așteptarea matematică a acestei variabile aleatoare; B) cu ce probabilitate putem spune că numărul mediu de manuale citite de un student pe semestru, calculat dintr-un eșantion dat, se va abate de la așteptarea matematică conform valoare absolută nu mai mult de 2.

Clasificarea intervalelor de încredere

După tipul de parametru evaluat:

După tipul de eșantion:

  1. Interval de încredere pentru un eșantion infinit;
  2. Interval de încredere pentru eșantionul final;
Eșantionul se numește reeșantionare, dacă obiectul selectat este returnat populației înainte de a-l selecta pe următorul. Eșantionul se numește non-repeat, dacă obiectul selectat nu este returnat populației. În practică, de obicei avem de-a face cu mostre nerepetitive.

Calculul erorii medii de eșantionare pentru eșantionarea aleatorie

Discrepanța dintre valorile indicatorilor obținuți din eșantion și parametrii corespunzători ai populației generale se numește eroare de reprezentativitate.
Desemnări ale parametrilor principali ai populațiilor generale și eșantionului.
Formule de eroare medie de eșantionare
re-selectarerepeta selectia
pentru mediepentru împărțirepentru mediepentru împărțire
Relația dintre limita erorii de eșantionare (Δ) este garantată cu o oarecare probabilitate Р(t), iar eroarea medie de eșantionare are forma: sau Δ = t·μ, unde t– coeficient de încredere, determinat în funcție de nivelul de probabilitate P(t) conform tabelului funcției integrale Laplace.

Formule pentru calcularea dimensiunii eșantionului folosind o metodă de eșantionare pur aleatorie