Atunci când procesează cantități mari de informații, ceea ce este deosebit de important în realizarea dezvoltărilor științifice moderne, cercetătorul se confruntă cu sarcina serioasă de a grupa corect datele sursă. Dacă datele sunt de natură discretă, atunci, după cum am văzut, nu apar probleme - trebuie doar să calculați frecvența fiecărei caracteristici. Dacă caracteristica studiată are continuu caracter (ce are distributie mai mareîn practică), atunci alegerea numărului optim de intervale de grupare a caracteristicilor nu este deloc o sarcină trivială.

Pentru a grupa variabile aleatoare continue, întregul interval variațional al caracteristicii este împărțit într-un anumit număr de intervale La.

Interval grupat (continuu) serie de variații se numesc intervale ordonate după valoarea atributului (), unde numărul de observații care se încadrează în intervalul r"-lea, sau frecvențele relative (), sunt indicate împreună cu frecvențele corespunzătoare ():

Intervalele valorice caracteristice

frecvența mea

diagramă cu bareȘi cumulate (ogiva), deja discutate în detaliu de noi, sunt un mijloc excelent de vizualizare a datelor, permițându-vă să vă faceți o idee primară a structurii datelor. Astfel de grafice (Fig. 1.15) sunt construite pentru date continue în același mod ca și pentru datele discrete, ținând cont doar de faptul că datele continue umple complet regiunea valorilor lor posibile, luând orice valoare.

Orez. 1.15.

De aceea coloanele de pe histogramă și cumulat trebuie să se atingă și să nu aibă zone în care valorile atributelor să nu se încadreze în toate posibilele(adică, histograma și cumulatele nu ar trebui să aibă „găuri” de-a lungul axei absciselor, care nu conțin valorile variabilei studiate, ca în Fig. 1.16). Înălțimea barei corespunde frecvenței – numărul de observații care se încadrează într-un interval dat, sau frecvența relativă – proporția de observații. Intervale nu trebuie să se intersectezeși au de obicei aceeași lățime.

Orez. 1.16.

Histograma și poligonul sunt aproximări ale curbei densității probabilității ( functie diferentiala) f(x) distribuția teoretică, luată în considerare în cursul teoriei probabilităților. Prin urmare, construcția lor este următoarea importantîn timpul prelucrării statistice primare a datelor cantitative continue - după apariţia lor se poate judeca legea distribuţiei ipotetice.

Cumulat – o curbă de frecvențe (frecvențe) acumulate dintr-o serie de variații de interval. Graficul funcției de distribuție cumulativă este comparat cu cumulul F(x), discutat și în cursul de teoria probabilității.

Practic, conceptele de histogramă și cumulat sunt asociate în mod specific cu datele continue și cu seriile lor de variație de interval, deoarece graficele lor sunt estimări empirice ale funcției de densitate a probabilității și, respectiv, funcției de distribuție.

Construcția unei serii de variații de interval începe cu determinarea numărului de intervale k.Și această sarcină este poate cea mai dificilă, importantă și controversată din problema studiată.

Numărul de intervale nu trebuie să fie prea mic, deoarece acest lucru va face histograma prea netedă ( netezit excesiv), pierde toate caracteristicile de variabilitate ale datelor originale - în Fig. 1.17 puteți vedea cum aceleași date pe care graficele din Fig. 1.15, folosit pentru a construi o histogramă cu un număr mai mic de intervale (graficul din stânga).

În același timp, numărul de intervale nu ar trebui să fie prea mare - altfel nu vom putea estima densitatea de distribuție a datelor studiate de-a lungul axei numerice: histograma va fi sub-netezită (subnetezit), cu intervale goale, neuniforme (vezi Fig. 1.17, graficul din dreapta).

Orez. 1.17.

Cum să determinați cel mai preferat număr de intervale?

În 1926, Herbert Sturges a propus o formulă pentru calcularea numărului de intervale în care este necesar să se împartă setul original de valori ale caracteristicii studiate. Această formulă a devenit cu adevărat extrem de populară - majoritatea manualelor de statistică o oferă și multe pachete de statistică o folosesc implicit. Cât de justificat este acest lucru și, în toate cazurile, este o întrebare foarte serioasă.

Deci, pe ce se bazează formula Sturges?

Luați în considerare distribuția binomială)