LUCRĂRI DE LABORATOR

ANALIZA CORELATIEI INEXCELA

1.1 Analiza corelației în MS Excel

Analiza corelației constă în determinarea gradului de conexiune între două variabile aleatoare X și Y. Coeficientul de corelație este utilizat ca măsură a unei astfel de conexiuni. Coeficientul de corelație este estimat dintr-un eșantion de n perechi de observații înrudite (x i, y i) din populația comună a lui X și Y. Pentru a evalua gradul de relație dintre valorile lui X și Y, măsurate în scale cantitative, este folosit coeficient de corelație liniară(coeficientul Pearson), care presupune că probele X și Y sunt distribuite normal.

Coeficientul de corelație variază de la -1 (relație liniară inversă strictă) la 1 (relație strict proporțională directă). Când se setează la 0, nu există nicio relație liniară între cele două eșantioane.

Clasificarea generală a corelațiilor (după Ivanter E.V., Korosov A.V., 1992):

Există mai multe tipuri de coeficienți de corelație, în funcție de variabilele X și Y, care pot fi măsurați pe diferite scale. Acest fapt determină alegerea coeficientului de corelație adecvat (vezi Tabelul 13):

În MS Excel, o funcție specială este utilizată pentru a calcula coeficienții de corelație liniară perechi CORREL (matrice1; matrice2),

subiecte

unde matrice1 este o referință la intervalul de celule din prima selecție (X);

Exemplul 1: 10 școlari au primit teste de gândire vizual-figurativă și verbală. Timpul mediu pentru rezolvarea sarcinilor de testare a fost măsurat în secunde. Cercetătorul este interesat de întrebarea: există o relație între timpul necesar pentru a rezolva aceste probleme? Variabila X desemnează timpul mediu pentru rezolvarea testelor vizual-figurative, iar variabila Y desemnează timpul mediu pentru rezolvarea sarcinilor testului verbal.

R soluţie: Pentru a identifica gradul de relație, în primul rând, este necesar să introduceți datele într-un tabel MS Excel (vezi tabelul, Fig. 1). Apoi se calculează valoarea coeficientului de corelație. Pentru a face acest lucru, plasați cursorul în celula C1. În bara de instrumente, faceți clic pe butonul Inserare funcție (fx).

În caseta de dialog Feature Wizard care apare, selectați o categorie Statisticși funcția CORREL, apoi faceți clic pe OK. Folosind indicatorul mouse-ului, introduceți intervalul de date eșantion X în câmpul array1 (A1:A10). În câmpul array2, introduceți intervalul de date eșantion Y (B1:B10). Faceți clic pe OK. În celula C1 va apărea valoarea coeficientului de corelație - 0,54119. În continuare, trebuie să vă uitați la numărul absolut al coeficientului de corelație și să determinați tipul de conexiune (strâns, slab, mediu etc.)

Orez. 1. Rezultatele calculării coeficientului de corelație

Astfel, legătura dintre timpul rezolvării sarcinilor de testare vizual-figurative și verbale nu a fost dovedită.

Exercitiul 1. Datele sunt disponibile pentru 20 de exploatații agricole. Găsi coeficient de corelațieîntre randamentele culturilor de cereale și calitatea terenului și evaluați semnificația acestuia. Datele sunt prezentate în tabel.

Tabelul 2. Dependența randamentului cerealelor de calitatea terenului

Numărul fermei

Calitatea terenului, punctaj

Productivitate, c/ha


Sarcina 2. Determinați dacă există o legătură între timpul de funcționare al unui echipament de fitness sportiv (mii de ore) și costul reparației acestuia (mii de ruble):

Timp de funcționare al simulatorului (mii de ore)

Costul reparațiilor (mii de ruble)

1.2 Corelație multiplă în MS Excel

La un numar mare observații, atunci când coeficienții de corelație trebuie să fie calculați secvențial pentru mai multe eșantioane, pentru comoditate, coeficienții rezultați sunt rezumați în tabele numite matrice de corelare.

Matricea de corelație este un tabel pătrat în care la intersecția rândurilor și coloanelor corespunzătoare există un coeficient de corelație între parametrii corespunzători.

În MS Excel, procedura este utilizată pentru a calcula matrice de corelație Corelație din pachet Analiza datelor. Procedura ne permite să obținem o matrice de corelație care conține coeficienți de corelație între diferiți parametri.

Pentru a implementa procedura aveți nevoie de:

1. executați comanda Serviciu - Analiză date;

2. în lista care apare Instrumente de analiză selectați linia Corelațieși apăsați butonul Bine;

3. în caseta de dialog care apare, specificați Interval de intrare, adică introduceți un link către celulele care conțin datele analizate. Intervalul de intrare trebuie să conțină cel puțin două coloane.

4. în secţiune Gruparea setați comutatorul în funcție de datele introduse (pe coloane sau pe rânduri);

5. indica zi libera interval, adică introduceți un link către celula din care vor fi afișate rezultatele analizei. Mărimea intervalului de ieșire va fi determinată automat și va fi afișat un mesaj dacă intervalul de ieșire se poate suprapune cu datele sursă. apasa butonul Bine.

O matrice de corelație va fi scoasă în intervalul de ieșire, în care la intersecția fiecărui rând și coloană există un coeficient de corelație între parametrii corespunzători. Celulele din intervalul de ieșire care au coordonate de rând și coloană care se potrivesc conțin valoarea 1, deoarece fiecare coloană din intervalul de intrare este corelată perfect cu ea însăși

Exemplul 2. Există date de observație lunare privind condițiile meteorologice și participarea la muzee și parcuri (vezi Tabelul 3). Este necesar să se stabilească dacă există o relație între condițiile meteorologice și frecvența la muzee și parcuri.

Tabelul 3. Rezultatele observației

Numărul de zile senine

Numărul de vizitatori ai muzeului

Numărul de vizitatori ai parcului

Soluţie. Pentru a efectua analiza corelației, introduceți datele originale în intervalul A1:G3 (Fig. 2). Apoi în meniu Serviciu selectați elementul Analiză dateși apoi introduceți linia Corelație. În caseta de dialog care apare, specificați Interval de intrare(A2:C7). Specificați că datele sunt privite în coloane. Specificați domeniul de ieșire (E1) și apăsați butonul Bine.

În fig. 33 arată că corelația dintre condițiile meteorologice și participarea la muzeu este de -0,92, iar între condițiile meteorologice și participarea la parc este de 0,97, iar între participarea la parc și la muzeu este de 0,92.

Astfel, în urma analizei, au fost relevate dependențe: un grad puternic de relație liniară inversă între participarea la muzeu și numărul de zile însorite și o relație aproape liniară (foarte puternică directă) între participarea la parc și condițiile meteorologice. Există o relație inversă puternică între participarea la muzeu și la parc.

Orez. 2. Rezultatele calculării matricei de corelație din exemplul 2

Sarcina 3. 10 manageri au fost evaluați folosind metoda evaluărilor experților a caracteristicilor psihologice ale personalității unui manager. 15 experți au evaluat fiecare caracteristică psihologică folosind un sistem cu cinci puncte (vezi Tabelul 4). Psihologul este interesat de problema relației dintre aceste caracteristici ale unui lider.

Tabelul 4. Rezultatele studiului

Subiecte

tact

exigenţă

criticitate

Un utilitar care este utilizat pe scară largă în multe companii și întreprinderi. Realitatea este că aproape orice angajat trebuie să fie expert în Excel într-o măsură sau alta, deoarece acest program este folosit pentru a rezolva o gamă foarte largă de probleme. Când lucrați cu tabele, de multe ori trebuie să determinați dacă anumite variabile sunt legate între ele. În acest scop, se utilizează așa-numita corelație. În acest articol, vom arunca o privire detaliată asupra modului de calcul al coeficientului de corelație în Excel. Să ne dăm seama. Merge!

Să începem cu ce este un coeficient de corelație în general. Arată gradul de relație dintre două elemente și variază întotdeauna de la -1 (relație inversă puternică) la 1 (relație directă puternică). Dacă coeficientul este 0, aceasta indică faptul că nu există nicio relație între valori.

Acum, după ce ne-am ocupat de teorie, să trecem la practică. Pentru a găsi relația dintre variabile și y, utilizați funcția încorporată „CORREL” din Microsoft Excel. Pentru a face acest lucru, faceți clic pe butonul expert al funcției (este situat lângă câmpul de formulă). În fereastra care se deschide, selectați „CORREL” din lista de funcții. După aceea, setați intervalul în câmpurile „Matrice1” și „Matrice2”. De exemplu, pentru „Matrice1” selectați valorile y, iar pentru „Matrice2” selectați valorile x. Ca urmare, veți primi coeficientul de corelație calculat de program.

Următoarea metodă va fi relevantă pentru studenții cărora li se cere să găsească o dependență folosind o formulă dată. În primul rând, trebuie să cunoașteți valorile medii ale variabilelor x și y. Pentru a face acest lucru, selectați valorile variabilei și utilizați funcția „MEDIA”. Apoi, trebuie să calculați diferența dintre fiecare x și x avg și y y avg. În celulele selectate scrieți formulele x-x, y-. Nu uitați să fixați celulele cu medii. Apoi întindeți formula în jos, astfel încât să se aplice la restul numerelor.

Acum că avem toate datele necesare, putem calcula corelația. Înmulțiți diferențele rezultate în acest fel: (x-x avg) * (y-y avg). Odată ce aveți rezultatul pentru fiecare variabilă, adăugați numerele rezultate folosind funcția AutoSum. Așa se calculează numărătorul.

Acum să trecem la numitor. Diferențele calculate trebuie să fie la pătrat. Pentru a face acest lucru, introduceți formulele într-o coloană separată: (x-x avg) 2 și (y-y avg) 2. Apoi, întindeți formulele pe întreaga gamă. Apoi, folosind butonul „AutoSum”, găsiți suma pentru toate coloanele (pentru x și y). Rămâne să înmulțim sumele găsite și să extragi din ele Rădăcină pătrată. Ultimul pas este împărțirea numărătorului la numitor. Rezultatul obţinut va fi coeficientul de corelaţie dorit.

După cum puteți vedea, știind să lucrați corect cu funcțiile Microsoft Excel, puteți simplifica semnificativ sarcina de a calcula expresii matematice complexe. Datorită instrumentelor implementate în program, puteți face cu ușurință analiza corelațieiîn Excel în doar câteva minute, economisind timp și efort. Scrieți în comentarii dacă articolul v-a ajutat să înțelegeți problema, întrebați despre tot ce v-a interesat pe tema discutată.

Să calculăm coeficientul de corelație și covarianța pentru tipuri diferite relații ale variabilelor aleatoare.

Coeficient de corelație(criteriul de corelare Pearson, engleză Coeficientul de corelație Pearson Product Moment) determină gradul liniar relații dintre variabile aleatoare.

După cum rezultă din definiție, a calcula coeficient de corelație este necesar să se cunoască distribuția variabilelor aleatoare X și Y. Dacă distribuțiile sunt necunoscute, atunci pentru a estima coeficient de corelație folosit coeficientul de corelație al eșantionuluir ( mai este desemnată ca Rxy sau r xy) :

unde S x – deviație standard mostre variabilă aleatorie x, calculat prin formula:

După cum se vede din formula de calcul corelații, numitorul (produsul abaterilor standard) normalizează pur și simplu numărătorul astfel încât corelație se dovedește a fi un număr adimensional de la -1 la 1. CorelațieȘi covarianta furnizați aceleași informații (dacă sunt cunoscute abateri standard ), Dar corelație mai comod de utilizat, deoarece este o cantitate adimensională.

calculati coeficient de corelațieȘi covarianța eșantionuluiîn MS EXCEL nu este dificil, deoarece există funcții speciale CORREL() și KOVAR() în acest scop. Este mult mai dificil să ne dăm seama cum să interpretăm valorile obținute; cea mai mare parte a articolului este dedicată acestui lucru.

Retragere teoretică

Să vă reamintim că conexiunea de corelare se numeşte relaţie statistică constând în faptul că sensuri diferite unei variabile corespunde diferitelor in medie valorile sunt diferite (cu o modificare a valorii lui X valoarea medie Y se schimbă în mod regulat). Se presupune că ambii variabilele X și Y sunt Aleatoriu valori și au o anumită împrăștiere aleatorie în raport cu acestea valoarea medie.

Notă. Dacă o singură variabilă, de exemplu, Y, are o natură aleatorie, iar valorile celeilalte sunt deterministe (setate de cercetător), atunci putem vorbi doar de regresie.

Astfel, de exemplu, atunci când se studiază dependența temperaturii medii anuale, nu se poate vorbi despre corelații temperatura și anul de observație și, în consecință, aplicați indicatorii corelații cu interpretarea lor corespunzătoare.

Corelațieîntre variabile poate apărea în mai multe moduri:

  1. Prezența unei relații cauzale între variabile. De exemplu, valoarea investiției în Cercetare științifică(variabila X) și numărul de brevete primite (Y). Prima variabilă apare ca variabilă independentă (factor), al doilea - variabilă dependentă (rezultat). Trebuie amintit că dependența cantităților determină prezența unei corelații între ele, dar nu invers.
  2. Prezența conjugării (cauză comună). De exemplu, pe măsură ce organizația crește, fondul de salarii (statul de plată) și costul închirierii spațiilor cresc. Evident, este greșit să presupunem că închirierea spațiilor depinde de statul de plată. Ambele variabile depind liniar de numărul de personal în multe cazuri.
  3. Influența reciprocă a variabilelor (când una se schimbă, a doua variabilă se schimbă și invers). Cu această abordare sunt permise două formulări ale problemei; Orice variabilă poate acționa atât ca variabilă independentă, cât și ca variabilă dependentă.

Prin urmare, indicator de corelare arată cât de puternic relație liniarăîntre doi factori (dacă există unul), iar regresia vă permite să preziceți un factor pe baza celuilalt.

Corelație, ca orice alt indicator statistic, poate fi util atunci când este utilizat corect, dar are și limitări în utilizarea sa. Dacă arată o relație liniară clar definită sau absență completă relații, atunci corelație va reflecta minunat acest lucru. Dar, dacă datele arată o relație neliniară (de exemplu, pătratică), prezența grupuri separate valori sau valori aberante, apoi valoarea calculată coeficient de corelație poate induce în eroare (vezi fișierul exemplu).

Corelație aproape de 1 sau -1 (adică aproape în valoare absolută de 1) arată o relație liniară puternică între variabile, o valoare apropiată de 0 nu arată nicio relație. Pozitiv corelațieînseamnă că cu o creștere a unui indicator, celălalt crește în medie, iar cu un indicator negativ, acesta scade.

Pentru a calcula coeficientul de corelație, este necesar ca variabilele comparate să îndeplinească următoarele condiții:

  • numărul de variabile trebuie să fie egal cu două;
  • variabilele trebuie să fie cantitative (ex. frecvență, pondere, preț). Media calculată a acestor variabile are sens: prețul mediu sau greutate medie rabdator. Spre deosebire de variabilele cantitative, variabilele calitative (nominale) iau valori doar dintr-un set finit de categorii (de exemplu, sex sau grup de sânge). Aceste valori sunt asociate în mod convențional cu valori numerice (de exemplu, genul feminin este 1, iar genul masculin este 2). Este clar că în acest caz calculul valoarea medie, care este necesar pentru a găsi corelații, este incorectă și, prin urmare, calculul în sine este incorect corelații;
  • variabilele trebuie să fie variabile aleatoare și să aibă .

Datele bidimensionale pot avea structuri diferite. Unele dintre ele necesită anumite abordări pentru a lucra cu:

  • Pentru date cu relație neliniară corelație trebuie folosit cu prudență. Pentru unele probleme, poate fi util să se transforme una sau ambele variabile pentru a produce o relație liniară (acest lucru necesită o presupunere despre tipul de relație neliniară pentru a sugera tipul de transformare necesar).
  • Prin utilizarea diagrame de dispersie Unele date pot prezenta variații inegale (împrăștiere). Problema cu variația neuniformă este că locațiile cu variație mare nu numai că oferă cele mai puțin precise informații, dar au și cel mai mare impact la calcularea statisticilor. Această problemă este adesea rezolvată prin transformarea datelor, cum ar fi utilizarea logaritmilor.
  • Se poate observa că unele date sunt împărțite în grupuri (clustering), ceea ce poate indica necesitatea împărțirii populației în părți.
  • O valoare anormală (o valoare care se abate brusc) poate distorsiona valoarea calculată a coeficientului de corelație. O valoare anormală se poate datora întâmplării, unei erori în colectarea datelor sau poate reflecta de fapt o anumită caracteristică a relației. Deoarece valorile aberante se abate foarte mult de la valoarea medie, contribuie foarte mult la calcularea indicatorului. Indicatorii statistici sunt adesea calculați cu și fără a lua în considerare valorile aberante.

Folosind MS EXCEL pentru a calcula corelația

Să luăm ca exemplu 2 variabile XȘi Yși în mod corespunzător, probă format din mai multe perechi de valori (X i; Y i). Pentru claritate, să construim.

Notă: Pentru mai multe informații despre construirea diagramelor, consultați articolul. În fișierul exemplu pentru construcție diagrame de dispersie folosit deoarece Aici ne-am abătut de la cerința ca variabila X să fie aleatorie (acest lucru simplifică generarea diferitelor tipuri de relații: construirea de tendințe și un spread dat). Pentru date reale, trebuie să utilizați o diagramă Scatter (vezi mai jos).

Calcule corelații vom conduce pt diverse cazuri relatii intre variabile: liniară, pătratică iar la lipsa de comunicare.

Notă: În fișierul exemplu, puteți seta parametrii tendinței liniare (pantă, intersecție Y) și gradul de împrăștiere în raport cu această linie de tendință. De asemenea, puteți ajusta parametrii pătratici.

În fișierul exemplu pentru construcție diagrame de dispersie dacă nu există dependență de variabile, se folosește o diagramă de dispersie. În acest caz, punctele de pe diagramă sunt aranjate sub forma unui nor.

Notă: Vă rugăm să rețineți că prin schimbarea scarii diagramei de-a lungul axei verticale sau orizontale, noului de puncte i se poate da aspectul unei linii verticale sau orizontale. Este clar că variabilele vor rămâne independente.

După cum am menționat mai sus, pentru a calcula coeficient de corelațieîn MS EXCEL există o funcție CORREL(). De asemenea, puteți utiliza funcția similară PEARSON(), care returnează același rezultat.

Pentru a vă asigura că calculele corelații sunt produse de funcția CORREL() folosind formulele de mai sus; fișierul exemplu arată calculul corelații folosind formule mai detaliate:

=COVARIANȚĂ.G(B28:B88;D28:D88)/STDEV.G(B28:B88)/STDEV.G(D28:D88)

=COVARIANȚĂ.B(B28:B88;D28:D88)/STDEV.B(B28:B88)/STDEV.B(D28:D88)

Notă: pătrat coeficient de corelație r este egal cu coeficient de determinare R2, care este calculat la construirea unei linii de regresie folosind funcția QPIRSON(). Valoarea lui R2 poate fi, de asemenea, transmisă către Diagrama de dispersie prin construirea unei tendințe liniare folosind funcționalitatea standard MS EXCEL (selectați graficul, selectați fila Aspect, apoi în grup Analiză faceți clic pe butonul Linie de tendințeși selectați Aproximație liniară). Pentru mai multe informații despre construirea unei linii de tendință, consultați, de exemplu, .

Folosind MS EXCEL pentru a calcula covarianța

Covarianta este apropiat ca semnificație de (de asemenea, o măsură de dispersie), cu diferența că este definit pentru 2 variabile și dispersie- pentru un. Prin urmare, cov(x;x)=VAR(x).

Pentru a calcula covarianța în MS EXCEL (începând cu versiunea 2010), sunt utilizate funcțiile COVARIATION.Г() și COVARIATION.В(). În primul caz, formula de calcul este similară cu cea de mai sus (sfârșitul .G reprezintă Populația ), în al doilea, în locul multiplicatorului 1/n, se folosește 1/(n-1), adică. final .ÎN reprezintă Probă.

Notă: Funcția COVAR(), care este prezentă în MS EXCEL în versiunile anterioare, este similară cu funcția COVARIATION.G().

Notă: Funcțiile CORREL() și COVAR() sunt prezentate în versiunea în limba engleză ca CORREL și COVAR. Funcțiile COVARIANCE.G() și COVARIANCE.B() ca COVARIANCE.P și COVARIANCE.S.

Formule suplimentare de calcul covarianţele:

=SUMA PRODUS(B28:B88-MEDIE(B28:B88);(D28:D88-MEJIE(D28:D88)))/NUMĂRĂ(D28:D88)

=SUMPRODUS(B28:B88-MEDIE(B28:B88),(D28:D88))/NUMĂRĂ(D28:D88)

=SUMĂPRODUS(B28:B88;D28:D88)/NUMĂRĂ(D28:D88)-MEDIE(B28:B88)*MEDIA(D28:D88)

Aceste formule folosesc proprietatea covarianţele:

Dacă variabilele XȘi y independente, atunci covarianța lor este 0. Dacă variabilele nu sunt independente, atunci varianța sumei lor este egală cu:

VAR(x+y)= VAR(x)+ VAR(y)+2COV(x;y)

A dispersie diferența lor este egală

VAR(x-y)= VAR(x)+ VAR(y)-2COV(x;y)

Estimarea semnificației statistice a coeficientului de corelație

Pentru a testa ipoteza, trebuie să cunoaștem distribuția variabilei aleatoare, i.e. coeficient de corelație r. De obicei, ipoteza este testată nu pentru r, ci pentru variabila aleatoare t r:

care are n-2 grade de libertate.

Dacă valoarea calculată a variabilei aleatoare |t r | este mai mare decât valoarea critică t α,n-2 (α-specificată), atunci ipoteza nulă este respinsă (relația dintre valori este semnificativă statistic).

Supliment pentru pachetul de analize

B pentru a calcula covarianța și corelația există instrumente cu același nume analiză.

După apelarea instrumentului, apare o casetă de dialog care conține următoarele câmpuri:

  • Interval de intrare: trebuie să introduceți un link către un interval cu date sursă pentru 2 variabile
  • Gruparea: De regulă, datele sursă sunt introduse în 2 coloane
  • Etichete în prima linie: dacă caseta de selectare este bifată, atunci Interval de intrare trebuie să conțină anteturi de coloană. Este recomandat să bifați caseta astfel încât rezultatul Add-in-ului să conțină coloane informative
  • Interval de ieșire: intervalul de celule în care vor fi plasate rezultatele calculului. Este suficient să indicați celula din stânga sus a acestui interval.

Add-in-ul returnează valorile de corelație și covarianță calculate (pentru covarianță, sunt calculate și variațiile ambelor variabile aleatoare).

Cu conexiune de corelare aceeași valoare a unei caracteristici corespunde unor valori diferite ale alteia. De exemplu: există o corelație între înălțime și greutate, între incidența neoplasmelor maligne și vârstă etc.

Există 2 metode de calcul al coeficientului de corelație: metoda pătratelor (Pearson), metoda rangurilor (Spearman).

Cea mai precisă este metoda pătratelor (Pearson), în care coeficientul de corelație este determinat de formula: , unde

r xy este coeficientul de corelație dintre seriile statistice X și Y.

d x este abaterea fiecăruia dintre numerele seriei statistice X de la media sa aritmetică.

d y este abaterea fiecăruia dintre numerele seriei statistice Y de la media sa aritmetică.

În funcție de puterea conexiunii și de direcția acesteia, coeficientul de corelație poate varia de la 0 la 1 (-1). Un coeficient de corelație de 0 indică o lipsă completă de conexiune. Cu cât nivelul coeficientului de corelație este mai aproape de 1 sau (-1), cu atât este mai mare și mai aproape direct sau feedback-ul pe care îl măsoară. Când coeficientul de corelație este egal cu 1 sau (-1), conexiunea este completă și funcțională.

Schema de evaluare a puterii corelației folosind coeficientul de corelație

Puterea conexiunii

Valoarea coeficientului de corelație, dacă este disponibil

conexiune directă (+)

părere (-)

Nici o conexiune

Conexiunea este mică (slabă)

de la 0 la +0,29

de la 0 la –0,29

Media conexiunii (moderată)

de la +0,3 la +0,69

de la –0,3 la –0,69

Legătura este mare (puternică)

de la +0,7 la +0,99

de la –0,7 la –0,99

Comunicare deplină

(funcţional)

Pentru a calcula coeficientul de corelație folosind metoda pătratului, se întocmește un tabel de 7 coloane. Să ne uităm la procesul de calcul folosind un exemplu:

DETERMINAȚI FORTAȚIA ȘI NATURA LEGĂTURII DINTRE

Este timpul-

ness

guşă

(V y )

d x = V XM X

d y = V yM y

d X d y

d X 2

d y 2

Σ -1345 ,0

Σ 13996 ,0

Σ 313 , 47

1. Determinați conținutul mediu de iod din apă (în mg/l).

mg/l

2. Determinați incidența medie a gușii în %.

3. Determinați abaterea fiecărui V x de la M x, adică. dx.

201–138=63; 178–138=40 etc.

4. În mod similar, determinăm abaterea fiecărui V y de la M y, adică. d y.

0,2–3,8=-3,6; 0,6–38=-3,2 etc.

5. Determinați produsele abaterilor. Însumăm produsul rezultat și obținem.

6. Patratăm d x și însumăm rezultatele, obținem.

7. În mod similar, pătratăm d y, însumăm rezultatele, obținem

8. În cele din urmă, înlocuim toate sumele primite în formula:

Pentru a rezolva problema fiabilității coeficientului de corelație, eroarea medie a acestuia este determinată folosind formula:

(Dacă numărul de observații este mai mic de 30, atunci numitorul este n–1).

În exemplul nostru

Valoarea coeficientului de corelație este considerată fiabilă dacă este de cel puțin 3 ori mai mare decât eroarea sa medie.

În exemplul nostru

Astfel, coeficientul de corelație nu este de încredere, ceea ce necesită o creștere a numărului de observații.

Coeficientul de corelație poate fi determinat într-un mod puțin mai puțin precis, dar mult mai ușor - metoda rangurilor (Spearman).

Metoda Spearman: P=1-(6∑d 2 /n-(n 2 -1))

faceți două rânduri de caracteristici comparabile pereche, desemnând primul și al doilea rând x și respectiv y. În acest caz, prezentați primul rând al caracteristicii în ordine descrescătoare sau crescătoare și plasați valorile numerice ale celui de-al doilea rând vizavi de valorile primului rând cărora le corespund

înlocuiți valoarea caracteristicii din fiecare dintre seriile comparate cu un număr de serie (rang). Rangurile, sau numerele, indică locurile indicatorilor (valorilor) din primul și al doilea rând. în care valori numerice al celei de-a doua caracteristici, rangurile trebuie atribuite în aceeași ordine în care a fost adoptată la alocarea lor la valorile primei caracteristici. Cu valori identice ale unei caracteristici dintr-o serie, rangurile ar trebui determinate ca număr mediu din suma numerelor ordinale ale acestor valori

determinați diferența de rang între x și y (d): d = x - y

la pătrat diferența de rang rezultată (d 2)

obțineți suma pătratelor diferenței (Σ d 2) și înlocuiți valorile rezultate în formula:

Exemplu: Folosind metoda rangului, stabiliți direcția și puterea relației dintre anii de experiență în muncă și frecvența accidentărilor dacă se obțin următoarele date:

Justificarea alegerii metodei: Pentru a rezolva o problemă, se poate alege doar o metodă corelație de rang, deoarece Primul rând al atributului „experiență de muncă în ani” are opțiuni deschise (experiență de muncă de până la 1 an și 7 sau mai mulți ani), care nu permite utilizarea unei metode mai precise - metoda pătratelor - pentru a stabili o conexiune între caracteristicile comparate.

Soluţie. Secvența calculelor este prezentată în text, rezultatele sunt prezentate în tabel. 2.

masa 2

Experienta in munca de ani de zile

Numărul de răni

Numere ordinale (ranguri)

Diferența de rang

Diferența pătratului de ranguri

d(x-y)

d 2

Fiecare dintre rândurile de caracteristici pereche este desemnat prin „x” și „y” (coloanele 1-2).

Valoarea fiecărei caracteristici este înlocuită cu un număr de rang (ordinal). Ordinea de distribuție a rangurilor în rândul „x” este următoarea: valorii minime a atributului (experiență de până la 1 an) i se atribuie numărul de serie „1”, variantele ulterioare ale aceluiași rând de atribut, respectiv, în ordine crescătoare, al 2-lea, al 3-lea, al 4-lea și al 5-lea numere de serie - ranguri (vezi coloana 3). O ordine similară este urmată la distribuirea rangurilor celui de-al doilea atribut „y” (coloana 4). În cazurile în care există mai multe opțiuni de amploare egală (de exemplu, în problema standard acestea sunt 12 și 12 răni la 100 de lucrători cu o experiență de 3-4 ani și 5-6 ani, numărul de serie este desemnat de numărul mediu din suma numerelor lor de serie Aceste date privind numărul de accidentări (12 accidentări) la clasare ar trebui să ocupe locurile 2 și 3, deci numărul mediu al acestora este (2 + 3) / 2 = 2,5. Astfel, numărul de leziuni „12” și „12” (atribut ) trebuie distribuite aceleași numere de rang - „2,5” (coloana 4).

Determinați diferența de rang d = (x - y) - (coloana 5)

Pătrați diferența de rang (d 2) și obțineți suma pătratelor diferenței de rang Σ d 2 (coloana 6).

Calculați coeficientul de corelare a rangului folosind formula:

unde n este numărul de perechi de opțiuni comparate în rândul „x” și în rândul „y”

Coeficientul de corelație reflectă gradul de relație dintre doi indicatori. Ia întotdeauna o valoare de la -1 la 1. Dacă coeficientul este situat în jurul valorii de 0, atunci nu există nicio legătură între variabile.

Dacă valoarea este aproape de unu (de la 0,9, de exemplu), atunci există o relație directă puternică între obiectele observate. Dacă coeficientul este aproape de celălalt punct extrem al intervalului (-1), atunci există o relație inversă puternică între variabile. Atunci când valoarea este undeva între 0 și 1 sau 0 și -1, atunci despre care vorbim despre cuplarea slabă (directă sau inversă). De obicei, această relație nu este luată în considerare: se crede că nu există.

Calculul coeficientului de corelare în Excel

Să ne uităm la un exemplu de metode de calcul al coeficientului de corelație, caracteristici ale relațiilor directe și inverse între variabile.

Valorile indicatorilor x și y:

Y este o variabilă independentă, x este o variabilă dependentă. Este necesar să se găsească puterea (puternic/slab) și direcția (înainte/invers) conexiunii dintre ele. Formula coeficientului de corelație arată astfel:


Pentru a fi mai ușor de înțeles, să-l împărțim în câteva elemente simple.

Între variabile se determină o relație directă puternică.

Funcția CORREL încorporată evită calculele complexe. Să calculăm coeficientul de corelație de pereche în Excel folosindu-l. Apelați vrăjitorul de funcție. Îl găsim pe cel potrivit. Argumentele funcției sunt o matrice de valori y și o matrice de valori x:

Să arătăm valorile variabilelor pe grafic:


O conexiune puternică între y și x este vizibilă, deoarece liniile sunt aproape paralele între ele. Relația este directă: y crește - x crește, y scade - x scade.



Matricea coeficientului de corelație a perechilor în Excel

Matricea de corelație este un tabel la intersecția rândurilor și coloanelor din care se află coeficienții de corelație dintre valorile corespunzătoare. Este logic să-l construiți pentru mai multe variabile.

Matricea coeficienților de corelație în Excel este construită cu ajutorul instrumentului „Corelație” din pachetul „Analiza datelor”.


S-a găsit o relație directă puternică între valorile lui y și x1. Există un feedback puternic între x1 și x2. Practic nu există nicio legătură cu valorile din coloana x3.