Ministerul Educației și Științei al Federației Ruse

Agenția Federală pentru Educație

Stat instituție educațională studii profesionale superioare

Institutul financiar și economic de corespondență din întreaga Rusie

Filiala din Tula

Test

la disciplina „Econometrie”

Tula - 2010

Problema 2 (a, b)

Pentru întreprinderile din industria ușoară, au fost obținute informații care caracterizează dependența volumului producției (Y, milioane de ruble) de volumul investițiilor de capital (X, milioane de ruble) Tabel. 1.

X 33 17 23 17 36 25 39 20 13 12
Y 43 27 32 29 45 35 47 32 22 24

Necesar:

1. Găsiți parametrii ecuației regresie liniara, oferă o interpretare economică a coeficientului de regresie.

2. Calculați resturile; găsiți suma reziduală a pătratelor; estimați varianța reziduurilor

; reprezentați grafic reziduurile.

3. Verificați îndeplinirea cerințelor prealabile ale MNC.

4. Verificați semnificația parametrilor ecuației de regresie folosind testul t Student (α=0,05).

5. Calculați coeficientul de determinare, verificați semnificația ecuației de regresie folosind testul F Fisher (α=0,05), găsiți eroarea relativă medie de aproximare. Trageți o concluzie despre calitatea modelului.

6. Preziceți valoarea medie a indicatorului Y la nivelul de semnificație α=0,1, dacă valoarea prezisă a factorului X este de 80% din valoarea sa maximă.

7. Prezentați grafic: valorile Y reale și model, punctele de prognoză.

8. Creați ecuații de regresie neliniară:

hiperbolic;

potolit;

indicativ.

Furnizați grafice ale ecuațiilor de regresie construite.

9. Pentru modelele indicate, găsiți coeficienții de determinare și erorile relative medii de aproximare. Comparați modelele pe baza acestor caracteristici și trageți o concluzie.

1. Model liniar are forma:

Găsim parametrii ecuației de regresie liniară folosind formulele

Calculul valorilor parametrilor este prezentat în tabel. 2.

t y X yx
1 43 33 1419 1089 42,236 0,764 0,584 90,25 88,36 0,018
2 27 17 459 289 27,692 -0,692 0,479 42,25 43,56 0,026
3 32 23 736 529 33,146 -1,146 1,313 0,25 2,56 0,036
4 29 17 493 289 27,692 1,308 1,711 42,25 21,16 0,045
5 45 36 1620 1296 44,963 0,037 0,001 156,25 129,96 0,001
6 35 25 875 625 34,964 0,036 0,001 2,25 1,96 0,001
7 47 39 1833 1521 47,69 -0,69 0,476 240,25 179,56 0,015
8 32 20 640 400 30,419 1,581 2,500 12,25 2,56 0,049
9 22 13 286 169 24,056 -2,056 4,227 110,25 134,56 0,093
10 24 12 288 144 23,147 0,853 0,728 132,25 92,16 0,036
336 235 8649 6351 12,020 828,5 696,4 0,32
Mediu 33,6 23,5 864,9 635,1

Să determinăm parametrii modelului liniar

Modelul liniar are forma

Coeficientul de regresie

arată că producția Y crește cu o medie de 0,909 milioane de ruble. cu o creștere a volumului investițiilor de capital X cu 1 milion de ruble.

2. Calculați resturile

, suma reziduală a pătratelor, găsim varianța reziduală folosind formula:

Calculele sunt prezentate în tabel. 2.


Orez. 1. Graficul reziduurilor ε.

3. Să verificăm îndeplinirea cerințelor prealabile ale OLS pe ​​baza criteriului Durbin-Watson.

0,584
2,120 0,479
0,206 1,313
6,022 1,711
1,615 0,001
0,000 0,001
0,527 0,476
5,157 2,500
13,228 4,227
2,462 0,728
31,337 12,020

d1=0,88; d2=1,32 pentru α=0,05, n=10, k=1.

,

Aceasta înseamnă că un număr de reziduuri nu sunt corelate.

4. Să verificăm semnificația parametrilor ecuației pe baza testului t Student. (α=0,05).

pentru ν=8; a=0,05.

Calculul valorii

produs în tabel. 2. Obținem:
, atunci putem concluziona că coeficienții de regresie a și b sunt semnificativi cu o probabilitate de 0,95.

5. Găsiți coeficientul de corelație folosind formula

Vom face calculele în tabel. 2.

. Acea. relaţia dintre valoarea investiţiei de capital X şi producţia Y poate fi considerată apropiată, deoarece .

Găsim coeficientul de determinare folosind formula

Studiul dependențelor de corelație se bazează pe studiul unor astfel de conexiuni între variabile în care valorile unei variabile, care poate fi luată ca variabilă dependentă, se modifică „în medie” în funcție de valorile luate de alta. variabilă, considerată ca o cauză în raport cu variabila dependentă. Acțiunea acestei cauze se desfășoară în condiții de interacțiune complexă a diverșilor factori, ca urmare a faptului că manifestarea modelului este ascunsă de influența hazardului. Prin calcularea valorilor medii ale atributului efectiv pentru un anumit grup de valori ale factorului-atribut, influența hazardului este parțial eliminată. Prin calcularea parametrilor liniei teoretice de comunicare, aceștia sunt eliminati în continuare și se obține o modificare neechivocă (de formă) a „y” cu o modificare a factorului „x”.

Pentru a studia relațiile stocastice, metoda comparării a două serii paralele, metoda grupărilor analitice, analiza corelației, analiza de regresie și unele metode neparametrice. ÎN vedere generala Sarcina statisticii în domeniul studierii relațiilor nu este numai cuantificare prezența lor, direcția și puterea conexiunii, dar și în determinarea formei (expresiei analitice) a influenței caracteristicilor factorilor asupra celei rezultante. Pentru rezolvarea acesteia se folosesc metode de analiză de corelare și regresie.

CAPITOLUL 1. ECUAȚIA REGRESIEI: FUNDAMENTE TEORETICE

1.1. Ecuația de regresie: esența și tipurile de funcții

Regresie (lat. regressio - mișcare inversă, trecere de la mai mult forme complexe dezvoltare la cele mai puțin complexe) este unul dintre conceptele de bază în teoria probabilităților și statistica matematică, exprimând dependența valorii medii a unei variabile aleatoare de valorile unei alte variabile aleatoare sau mai multor variabile aleatoare. Acest concept a fost introdus de Francis Galton în 1886.

Linia de regresie teoretică este dreapta în jurul căreia sunt grupate punctele câmpului de corelație și care indică direcția principală, tendința principală a conexiunii.

Linia de regresie teoretică ar trebui să reflecte modificarea valorilor medii ale atributului efectiv „y” pe măsură ce valorile atributului factorului „x” se modifică, cu condiția ca toate celelalte cauze, aleatorii în raport cu factorul „x” , sunt complet anulate. În consecință, această dreaptă trebuie trasată astfel încât suma abaterilor punctelor câmpului de corelație față de punctele corespunzătoare ale dreptei de regresie teoretică să fie egală cu zero, iar suma pătratelor acestor abateri să fie minimă.

y=f(x) - ecuația de regresie este o formulă pentru relația statistică dintre variabile.

O dreaptă pe un plan (în spațiul bidimensional) este dată de ecuația y=a+b*x. Mai detaliat, variabila y poate fi exprimată în termeni de o constantă (a) și o pantă (b) înmulțită cu variabila x. Constanta este uneori numită și termenul de interceptare, iar panta este uneori numită regresie sau coeficient B.

O etapă importantă a analizei de regresie este determinarea tipului de funcție cu care este caracterizată dependența dintre caracteristici. Baza principală ar trebui să fie o analiză semnificativă a naturii dependenței care este studiată și a mecanismului acesteia. În același timp, nu este întotdeauna posibilă fundamentarea teoretică a formei de legătură dintre fiecare dintre factori și indicatorul de performanță, întrucât fenomenele socio-economice studiate sunt foarte complexe, iar factorii care le modelează nivelul sunt strâns legați și interacționează. unul cu altul. Prin urmare, pe baza analizei teoretice, se pot trage adesea cele mai generale concluzii cu privire la direcția relației, posibilitatea schimbării acesteia în populația studiată, legitimitatea utilizării unei relații liniare, posibila prezență a unor valori extreme, etc. O completare necesară a acestor ipoteze trebuie să fie o analiză a unor date concrete specifice.

O idee aproximativă a liniei de relație poate fi obținută pe baza liniei de regresie empirică. Linia de regresie empirică este de obicei o linie întreruptă și are o întrerupere mai mult sau mai puțin semnificativă. Acest lucru se explică prin faptul că influența altor factori necontabiliați care influențează variația caracteristicii efective nu se stinge complet în medie, din cauza insuficientei cantitate mare observații, prin urmare, linia empirică de comunicare poate fi folosită pentru a selecta și justifica tipul de curbă teoretică, cu condiția ca numărul de observații să fie suficient de mare.

Unul dintre elementele studiilor specifice este compararea diferitelor ecuații de dependență, bazată pe utilizarea criteriilor de calitate pentru aproximarea datelor empirice prin versiuni concurente de modele.Următoarele tipuri de funcții sunt cel mai adesea folosite pentru a caracteriza relațiile indicatorilor economici:

1. Linear:

2. Hiperbolice:

3. Demonstrativ:

4. Parabolic:

5. Putere:

6. Logaritmic:

7. Logistica:

Un model cu o variabilă explicativă și o variabilă explicată este un model de regresie pereche. Dacă sunt utilizate două sau mai multe variabile explicative (factoriale), atunci vorbim de utilizarea unui model de regresie multiplă. În acest caz, pot fi selectate ca opțiuni funcții liniare, exponențiale, hiperbolice, exponențiale și alte tipuri de funcții care conectează aceste variabile.

Pentru a găsi parametrii a și b ai ecuației de regresie, utilizați metoda cele mai mici pătrate. Când se aplică metoda celor mai mici pătrate pentru a găsi o funcție care se potrivește cel mai bine cu datele empirice, se crede că pachetul de pătrate a abaterilor punctelor empirice de la linia de regresie teoretică ar trebui să fie o valoare minimă.

Criteriul celor mai mici pătrate poate fi scris după cum urmează:

În consecință, utilizarea metodei celor mai mici pătrate pentru a determina parametrii a și b ai liniei care se potrivește cel mai bine cu datele empirice este redusă la o problemă extremum.

În ceea ce privește aprecierile, se pot trage următoarele concluzii:

1. Estimatorii celor mai mici pătrate sunt funcții ale eșantionului, ceea ce le face ușor de calculat.

2. Estimările celor mai mici pătrate sunt estimări punctuale ale coeficienților de regresie teoretică.

3. Linia de regresie empirică trece în mod necesar prin punctul x, y.

4. Ecuația de regresie empirică este construită în așa fel încât suma abaterilor

.

O reprezentare grafică a liniei empirice și teoretice de comunicare este prezentată în Figura 1.


Parametrul b din ecuație este coeficientul de regresie. Dacă există o corelație directă, coeficientul de regresie are valoare pozitivă, iar în cazul relatie inversa coeficientul de regresie este negativ. Coeficientul de regresie arată cât de mult se modifică, în medie, valoarea atributului efectiv „y” atunci când atributul factorului „x” se modifică cu unu. Geometric, coeficientul de regresie este panta dreptei care descrie ecuația de corelație în raport cu axa „x” (pentru ecuație

).

Secțiune multidimensională analize statistice, dedicat recuperării dependenței, se numește analiză de regresie. Termenul „analiza de regresie liniară” este utilizat atunci când funcția luată în considerare depinde liniar de parametrii estimați (dependența de variabile independente poate fi arbitrară). Teoria evaluării

parametrii necunoscuți este bine dezvoltat în special în cazul analizei de regresie liniară. Dacă nu există liniaritate și este imposibil să mergi la problemă liniară, atunci, de regulă, nu se poate aștepta proprietăți bune din estimări. Vom demonstra abordări în cazul dependențelor tipuri variate. Dacă dependența are forma unui polinom (polinom). Dacă calculul corelației caracterizează puterea relației dintre două variabile, atunci analiza de regresie servește la determinarea tipului acestei relații și face posibilă prezicerea valorii unei variabile (dependente) pe baza valorii altei variabile (independente). . Pentru a efectua o analiză de regresie liniară, variabila dependentă trebuie să aibă o scară de interval (sau ordinală). În același timp, regresia logistică binară relevă dependența unei variabile dihotomice de o altă variabilă legată de orice scară. Aceleași condiții de aplicare se aplică analizei probit. Dacă variabila dependentă este categorică, dar are mai mult de două categorii, atunci regresia logistică multinomială este o metodă adecvată; relațiile neliniare dintre variabilele care aparțin unei scale de intervale pot fi analizate. Metoda regresiei neliniare este concepută în acest scop.

În timpul studiilor, studenții întâlnesc foarte des o varietate de ecuații. Una dintre ele - ecuația de regresie - este discutată în acest articol. Acest tip de ecuație este utilizat în mod specific pentru a descrie caracteristicile relației dintre parametrii matematici. Acest tip de egalitate este folosit în statistică și econometrie.

Definiţia regresion

În matematică, regresia înseamnă o anumită cantitate care descrie dependența valorii medii a unui set de date de valorile unei alte mărimi. Ecuația de regresie arată, în funcție de o anumită caracteristică, valoarea medie a unei alte caracteristici. Funcția de regresie are forma ecuație simplă y = x, în care y acționează ca o variabilă dependentă și x ca o variabilă independentă (factor-trăsătură). De fapt, regresia este exprimată ca y = f (x).

Care sunt tipurile de relații dintre variabile?

În general, sunt două tipuri opuse relaţii: corelaţie şi regresie.

Prima se caracterizează prin egalitatea variabilelor condiționale. În acest caz, nu se știe în mod fiabil care variabilă depinde de cealaltă.

Dacă nu există egalitate între variabile și condițiile spun care variabilă este explicativă și care este dependentă, atunci putem vorbi despre prezența unei conexiuni de al doilea tip. Pentru a construi o ecuație de regresie liniară va fi necesar să aflăm ce tip de relație se observă.

Tipuri de regresii

Astăzi, există 7 tipuri diferite de regresie: hiperbolic, liniar, multiplu, neliniar, perechi, invers, liniar logaritmic.

Hiperbolice, liniară și logaritmică

Ecuația de regresie liniară este utilizată în statistică pentru a explica în mod clar parametrii ecuației. Se pare că y = c+t*x+E. Ecuația hiperbolică are forma unei hiperbole regulate y = c + m / x + E. Logaritmic ecuație liniară exprimă relaţii folosind funcţie logaritmică: In y = In c + t* In x + In E.

Multiplu și neliniar

Cele două tipuri mai complexe de regresie sunt multiple și neliniare. Ecuația de regresie multiplă este exprimată prin funcția y = f(x 1, x 2 ... x c) + E. În această situație, y acționează ca o variabilă dependentă, iar x acționează ca o variabilă explicativă. Variabila E este stocastică; include influența altor factori în ecuație. Ecuația de regresie neliniară este puțin controversată. Pe de o parte, în raport cu indicatorii luați în considerare, nu este liniară, dar pe de altă parte, în rolul de evaluare a indicatorilor, este liniară.

Tipuri inverse și perechi de regresii

O inversă este un tip de funcție care trebuie convertită într-o formă liniară. În cele mai tradiţionale programe de aplicație are forma unei funcţii y = 1/c + m*x+E. O ecuație de regresie perechi arată relația dintre date în funcție de y = f (x) + E. La fel ca în alte ecuații, y depinde de x, iar E este un parametru stocastic.

Conceptul de corelare

Acesta este un indicator care demonstrează existența unei relații între două fenomene sau procese. Puterea relației este exprimată ca un coeficient de corelație. Valoarea sa fluctuează în intervalul [-1;+1]. Indicator negativ indică prezența feedback-ului, pozitiv indică feedback direct. Dacă coeficientul ia o valoare egală cu 0, atunci nu există nicio relație. Cu cât valoarea este mai aproape de 1, cu atât este mai puternică relația dintre parametri; cu cât este mai aproape de 0, cu atât este mai slabă.

Metode

Metodele parametrice de corelare pot evalua puterea relației. Ele sunt utilizate pe baza estimării distribuției pentru a studia parametrii care se supun legii distribuției normale.

Parametrii ecuației de regresie liniară sunt necesari pentru a identifica tipul de dependență, funcția ecuației de regresie și pentru a evalua indicatorii formulei de relație selectate. Câmpul de corelare este utilizat ca metodă de identificare a conexiunii. Pentru a face acest lucru, toate datele existente trebuie să fie reprezentate grafic. Toate datele cunoscute trebuie reprezentate într-un sistem de coordonate dreptunghiular bidimensional. Așa se formează un câmp de corelație. Valorile factorului de descriere sunt marcate de-a lungul axei absciselor, în timp ce valorile factorului dependent sunt marcate de-a lungul axei ordonatelor. Dacă există o relație funcțională între parametri, aceștia sunt aliniați sub forma unei linii.

Dacă coeficientul de corelație al unor astfel de date este mai mic de 30%, putem vorbi despre practic absență completă comunicatii. Dacă este între 30% și 70%, atunci aceasta indică prezența unor conexiuni mediu-strânse. Un indicator 100% este dovada unei conexiuni funcționale.

O ecuație de regresie neliniară, la fel ca una liniară, trebuie completată cu un indice de corelație (R).

Corelație pentru regresia multiplă

Coeficientul de determinare este un indicator al pătratului corelației multiple. El vorbește despre relația strânsă a setului de indicatori prezentat cu caracteristica studiată. Se poate vorbi și despre natura influenței parametrilor asupra rezultatului. Ecuația de regresie multiplă este estimată folosind acest indicator.

Pentru a calcula indicatorul de corelație multiplă este necesar să se calculeze indicele acestuia.

Metoda celor mai mici pătrate

Această metodă este o modalitate de a estima factorii de regresie. Esența sa este de a minimiza suma abaterilor pătrate obținute ca urmare a dependenței factorului de funcție.

O ecuație de regresie liniară pe perechi poate fi estimată folosind o astfel de metodă. Acest tip de ecuații este utilizat atunci când este detectată o relație liniară pereche între indicatori.

Parametrii ecuației

Fiecare parametru al funcției de regresie liniară are o semnificație specifică. Ecuația de regresie liniară pereche conține doi parametri: c și m. Parametrul m demonstrează modificarea medie a indicatorului final al funcției y, cu condiția ca variabila x să descrește (crește) cu o unitate convențională. Dacă variabila x este zero, atunci funcția este egală cu parametrul c. Dacă variabila x nu este zero, atunci factorul c nu are sens economic. Singura influență asupra funcției este semnul din fața factorului c. Dacă există un minus, atunci putem spune că schimbarea rezultatului este lentă în comparație cu factorul. Dacă există un plus, atunci acesta indică o schimbare accelerată a rezultatului.

Fiecare parametru care modifică valoarea ecuației de regresie poate fi exprimat printr-o ecuație. De exemplu, factorul c are forma c = y - mx.

Date grupate

Există condiții de sarcină în care toate informațiile sunt grupate după atributul x, dar pentru un anumit grup sunt indicate valorile medii corespunzătoare ale indicatorului dependent. În acest caz, valorile medii caracterizează modul în care se modifică indicatorul în funcție de x. Astfel, informațiile grupate ajută la găsirea ecuației de regresie. Este folosit ca o analiză a relațiilor. Cu toate acestea, această metodă are dezavantajele sale. Din păcate, indicatorii medii sunt adesea supuși fluctuațiilor externe. Aceste fluctuații nu reflectă modelul relației, ci doar maschează „zgomotul” acesteia. Mediile arată modele de relație mult mai proaste decât o ecuație de regresie liniară. Cu toate acestea, ele pot fi folosite ca bază pentru găsirea unei ecuații. Înmulțind numărul unei populații individuale cu media corespunzătoare, se poate obține suma y în cadrul grupului. Apoi, trebuie să însumați toate sumele primite și să găsiți indicatorul final y. Este puțin mai dificil să faci calcule cu indicatorul de sumă xy. Dacă intervalele sunt mici, putem considera condițional indicatorul x pentru toate unitățile (din cadrul grupului) ca fiind același. Ar trebui să o înmulțiți cu suma lui y pentru a afla suma produselor lui x și y. Apoi, se adună toate cantitățile și se obține cantitatea totală xy.

Ecuație de regresie perechi multiple: evaluarea importanței unei relații

După cum sa discutat mai devreme, regresia multiplă are o funcție de forma y = f (x 1,x 2,…,x m)+E. Cel mai adesea, o astfel de ecuație este utilizată pentru a rezolva problema cererii și ofertei pentru un produs, a veniturilor din dobânzi la acțiunile răscumpărate și pentru a studia cauzele și tipul funcției de cost de producție. De asemenea, este utilizată în mod activ într-o mare varietate de studii și calcule macroeconomice, dar la nivel de microeconomie această ecuație este folosită puțin mai rar.

Sarcina principală a regresiei multiple este de a construi un model de date care să conțină o cantitate imensă de informații pentru a determina în continuare ce influență are fiecare dintre factorii individual și în totalitatea lor asupra indicatorului care trebuie modelat și a coeficienților acestuia. Ecuația de regresie poate lua o mare varietate de valori. În acest caz, pentru a evalua relația, se folosesc de obicei două tipuri de funcții: liniare și neliniare.

Funcția liniară este reprezentată sub forma următoarei relații: y = a 0 + a 1 x 1 + a 2 x 2,+ ... + a m x m. În acest caz, a2, a m sunt considerați coeficienți de regresie „puri”. Sunt necesare pentru a caracteriza modificarea medie a parametrului y cu o modificare (scădere sau creștere) a fiecărui parametru x corespunzător cu o unitate, cu condiția valorilor stabile ale altor indicatori.

Ecuațiile neliniare au, de exemplu, forma functie de putere y=ax 1 b1 x 2 b2 ...x m bm . În acest caz, indicatorii b 1, b 2 ..... b m se numesc coeficienți de elasticitate, ei demonstrează modul în care rezultatul se va schimba (cu cât %) cu o creștere (scădere) a indicatorului corespunzător x cu 1% și cu un indicator stabil al altor factori.

Ce factori trebuie să fie luați în considerare la construirea regresiei multiple

Pentru a construi corect regresie multiplă, este necesar să aflăm căror factori ar trebui să li se acorde o atenție deosebită.

Este necesar să avem o anumită înțelegere a naturii relațiilor dintre factorii economici și ceea ce este modelat. Factorii care vor trebui incluși trebuie să îndeplinească următoarele criterii:

  • Trebuie să fie supus măsurare cantitativă. Pentru a utiliza un factor care descrie calitatea unui obiect, în orice caz ar trebui să i se dea o formă cantitativă.
  • Nu ar trebui să existe intercorelații de factori sau relații funcționale. Astfel de acțiuni conduc cel mai adesea la consecințe ireversibile - sistemul de ecuații obișnuite devine necondiționat, iar acest lucru implică nefiabilitatea și estimările sale neclare.
  • În cazul unui indicator de corelație uriaș, nu există nicio modalitate de a afla influența izolată a factorilor asupra rezultatului final al indicatorului, prin urmare, coeficienții devin neinterpretabili.

Metode de construcție

Există un număr mare de metode și metode care explică modul în care puteți selecta factorii pentru o ecuație. Cu toate acestea, toate aceste metode se bazează pe selecția coeficienților folosind un indicator de corelație. Printre acestea se numără:

  • Metoda de eliminare.
  • Metoda de comutare.
  • Analiza de regresie în trepte.

Prima metodă implică filtrarea tuturor coeficienților din setul total. A doua metodă presupune introducerea multor factori suplimentari. Ei bine, a treia este eliminarea factorilor care au fost utilizați anterior pentru ecuație. Fiecare dintre aceste metode are dreptul de a exista. Au avantajele și dezavantajele lor, dar toți pot rezolva problema eliminării indicatorilor inutile în felul lor. De regulă, rezultatele obținute prin fiecare metodă individuală sunt destul de apropiate.

Metode de analiză multivariată

Astfel de metode pentru determinarea factorilor se bazează pe luarea în considerare a combinațiilor individuale de caracteristici interdependente. Acestea includ analiza discriminantă, recunoașterea formei, analiza componentelor principale și analiza clusterului. În plus, există și analiza factorială, dar a apărut datorită dezvoltării metodei componentelor. Toate acestea se aplică în anumite circumstanțe, sub rezerva anumitor condiții și factori.

Dacă există o corelație între factor și caracteristicile de performanță, medicii trebuie adesea să stabilească în ce valoare se poate schimba valoarea unei caracteristici atunci când cealaltă trece la o unitate de măsură general acceptată sau una stabilită de însuși cercetătorul.

De exemplu, cum se va schimba greutatea corporală a școlarilor de clasa I (fete sau băieți) dacă înălțimea lor crește cu 1 cm? În aceste scopuri se folosește metoda analizei regresiei.

Metoda analizei regresiei este folosită cel mai adesea pentru a dezvolta scale normative și standarde dezvoltarea fizică.

  1. Definiţia Regression. Regresia este o funcție care permite, din valoarea medie a unei caracteristici, să se determine valoarea medie a unei alte caracteristici care este corelată cu prima.

    În acest scop, se utilizează coeficientul de regresie și o serie de alți parametri. De exemplu, puteți calcula numărul de răceli în medie la anumite valori temperatura medie lunară aer în perioada toamnă-iarnă.

  2. Determinarea coeficientului de regresie. Coeficient de regresie - valoare absolută, prin care, în medie, valoarea unui atribut se modifică atunci când un alt atribut asociat se modifică după unitatea de măsură stabilită.
  3. Formula coeficientului de regresie. R y/x = r xy x (σ y / σ x)
    unde R у/х - coeficient de regresie;
    r xy - coeficientul de corelație între caracteristicile x și y;
    (σ y și σ x) - abaterile standard ale caracteristicilor x și y.

    În exemplul nostru;
    σ x = 4,6 (abaterea standard a temperaturii aerului în perioada toamnă-iarnă;
    σ y = 8,65 (abaterea standard a numărului de boli infecțioase și răceli).
    Astfel, R y/x este coeficientul de regresie.
    R у/х = -0,96 x (4,6 / 8,65) = 1,8, i.e. când temperatura medie lunară a aerului (x) scade cu 1 grad, numărul mediu de boli infecțioase și reci (y) în perioada toamnă-iarnă se va modifica cu 1,8 cazuri.

  4. Ecuația de regresie. y = M y + R y/x (x - M x)
    unde y este valoarea medie a caracteristicii, care ar trebui determinată atunci când valoarea medie a unei alte caracteristici se modifică (x);
    x este valoarea medie cunoscută a unei alte caracteristici;
    R y/x - coeficientul de regresie;
    M x, M y - valori medii cunoscute ale caracteristicilor x și y.

    De exemplu, numărul mediu de boli infecțioase și reci (y) poate fi determinat fără măsurători speciale la orice valoare medie a temperaturii medii lunare a aerului (x). Deci, dacă x = - 9°, R y/x = 1,8 boli, M x = -7°, M y = 20 boli, atunci y = 20 + 1,8 x (9-7) = 20 + 3,6 = 23,6 boli.
    Această ecuație se aplică în cazul unei relații liniare între două caracteristici (x și y).

  5. Scopul ecuației de regresie. Ecuația de regresie este utilizată pentru a construi o dreaptă de regresie. Acesta din urmă permite, fără măsurători speciale, să se determine orice valoare medie (y) a unei caracteristici dacă valoarea (x) a altei caracteristici se modifică. Pe baza acestor date, se construiește un grafic - linie de regresie, care poate fi folosit pentru a determina numărul mediu de răceli la orice valoare a temperaturii medii lunare în intervalul dintre valorile calculate ale numărului de răceli.
  6. Regresie Sigma (formula).
    unde σ Rу/х - sigma (deviația standard) a regresiei;
    σ y - abaterea standard a caracteristicii y;
    r xy - coeficientul de corelație între caracteristicile x și y.

    Deci, dacă σ y - abaterea standard a numărului de răceli = 8,65; r xy - coeficientul de corelație dintre numărul de răceli (y) și temperatura medie lunară a aerului în perioada toamnă-iarnă (x) este egal cu - 0,96, atunci

  7. Atribuirea sigma de regresie. Oferă o descriere a măsurătorii diversităţii caracteristicii rezultate (y).

    De exemplu, caracterizează diversitatea numărului de răceli la o anumită valoare a temperaturii medii lunare a aerului în perioada toamnă-iarnă. Astfel, numărul mediu de răceli la temperatura aerului x 1 = -6° poate varia de la 15,78 boli la 20,62 boli.
    La x 2 = -9°, numărul mediu de răceli poate varia de la 21,18 boli la 26,02 boli etc.

    Regresia sigma este utilizată pentru a construi o scală de regresie, care reflectă abaterea valorilor caracteristicii rezultate de la valoarea medie trasată pe linia de regresie.

  8. Date necesare pentru calcularea și reprezentarea grafică a scalei de regresie
    • coeficient de regresie - R у/х;
    • ecuația de regresie - y = M y + R y/x (x-M x);
    • regresie sigma - σ Rx/y
  9. Secvența de calcule și reprezentarea grafică a scalei de regresie.
    • determinați coeficientul de regresie folosind formula (vezi paragraful 3). De exemplu, este necesar să se determine cât de mult se va schimba greutatea corporală în medie (la o anumită vârstă în funcție de sex) dacă înălțimea medie se schimbă cu 1 cm.
    • folosind formula ecuației de regresie (a se vedea punctul 4), determinați care, de exemplu, va fi greutatea corporală în medie (y, y 2, y 3 ...) * pentru o anumită valoare a înălțimii (x, x 2, x 3 ). ..) .
      ________________
      * Valoarea lui „y” trebuie calculată pentru cel puțin trei valori cunoscute"X".

      În același timp, se cunosc valorile medii ale greutății corporale și ale înălțimii (M x și M y) pentru o anumită vârstă și sex.

    • calculați sigma de regresie, cunoscând valorile corespunzătoare ale σ y și r xy și substituind valorile acestora în formulă (a se vedea paragraful 6).
    • pe baza valorilor cunoscute x 1, x 2, x 3 și a valorilor medii corespunzătoare y 1, y 2 y 3, precum și pe cea mai mică (y - σ rу/х) și cea mai mare (y + σ rу) /х) valorile (y) construiesc o scară de regresie.

      Pentru a reprezenta grafic scala de regresie, valorile x, x2, x3 (axa ordonatelor) sunt mai întâi marcate pe grafic, adică. se construiește o linie de regresie, de exemplu, dependența greutății corporale (y) de înălțimea (x).

      Apoi la punctele corespunzătoare sunt marcate y 1, y 2, y 3 valori numerice regresie sigma, adică găsiți cel mai mic pe grafic și cea mai mare valoare y 1, y 2, y 3.

  10. Uz practic scale de regresie. Se dezvoltă scale normative și standarde, în special pentru dezvoltarea fizică. Folosind o scară standard, puteți oferi o evaluare individuală a dezvoltării copiilor. În acest caz, dezvoltarea fizică este evaluată ca fiind armonioasă dacă, de exemplu, la o anumită înălțime, greutatea corporală a copilului este cu o sigma de regresie la unitatea medie calculată de greutate corporală - (y) pentru creștere dată(x) (y ± 1 σ Ry/x).

    Dezvoltarea fizică este considerată dizarmonică în ceea ce privește greutatea corporală dacă greutatea corporală a copilului pentru o anumită înălțime se află în a doua sigma de regresie: (y ± 2 σ Ry/x)

    Dezvoltarea fizică va fi puternic dizarmonică din cauza greutății corporale excesive și insuficiente dacă greutatea corporală pentru o anumită înălțime se află în a treia sigma de regresie (y ± 3 σ Ry/x).

Conform rezultatelor cercetare statistică dezvoltarea fizică a băieților de 5 ani, se știe că înălțimea lor medie (x) este de 109 cm, iar greutatea corporală medie (y) este de 19 kg. Coeficientul de corelație între înălțime și greutatea corporală este de +0,9, abaterile standard sunt prezentate în tabel.

Necesar:

  • calculați coeficientul de regresie;
  • folosind ecuația de regresie, determinați care va fi greutatea corporală așteptată a băieților de 5 ani cu o înălțime egală cu x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • calculați sigma de regresie, construiți o scală de regresie și prezentați grafic rezultatele soluției acesteia;
  • trage concluziile adecvate.

Condițiile problemei și rezultatele soluționării acesteia sunt prezentate în tabelul rezumativ.

tabelul 1

Condițiile problemei Rezultatele rezolvării problemei
ecuația de regresie regresie sigma scala de regresie (greutate corporală estimată (în kg))
M σ r xy R y/x X U σ R x/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Înălțime (x) 109 cm ± 4,4 cm +0,9 0,16 100 cm 17,56 kg ± 0,35 kg 17,21 kg 17,91 kg
Masa corporala (y) 19 kg ± 0,8 kg 110 cm 19,16 kg 18,81 kg 19,51 kg
120 cm 20,76 kg 20,41 kg 21,11 kg

Soluţie.

Concluzie. Astfel, scala de regresie în limitele valorilor calculate ale greutății corporale face posibilă determinarea acesteia la orice altă valoare a înălțimii sau evaluarea dezvoltării individuale a copilului. Pentru a face acest lucru, restabiliți perpendiculara pe dreapta de regresie.

  1. Vlasov V.V. Epidemiologie. - M.: GEOTAR-MED, 2004. - 464 p.
  2. Lisitsyn Yu.P. Sănătate publică și asistență medicală. Manual pentru universități. - M.: GEOTAR-MED, 2007. - 512 p.
  3. Medic V.A., Yuryev V.K. Curs de prelegeri despre sănătatea publică și sănătatea: Partea 1. Sănătatea publică. - M.: Medicină, 2003. - 368 p.
  4. Minyaev V.A., Vishnyakov N.I. şi altele.Medicina socială şi organizarea sănătăţii (Manual în 2 volume). - Sankt Petersburg, 1998. -528 p.
  5. Kucherenko V.Z., Agarkov N.M. și altele.Organizarea de igienă socială și asistență medicală ( Tutorial) - Moscova, 2000. - 432 p.
  6. S. Glanz. Statistica medicala si biologica. Traducere din engleză - M., Praktika, 1998. - 459 p.

Conceptul de regresie. Dependenta intre variabile XȘi y poate fi descris în moduri diferite. În special, orice formă de conexiune poate fi exprimată printr-o ecuație generală, unde y tratată ca o variabilă dependentă, sau funcții din altul - variabila independenta x, numita argument. Corespondența dintre un argument și o funcție poate fi specificată printr-un tabel, formulă, grafic etc. Se apelează modificarea unei funcții în funcție de modificarea unuia sau mai multor argumente regresie. Toate mijloacele folosite pentru a descrie corelațiile constituie conținutul analiza regresiei.

Pentru a exprima regresia, ecuațiile de corelație sau ecuațiile de regresie, se folosesc serii de regresie empirice și calculate teoretic, graficele acestora, numite drepte de regresie, precum și coeficienți de regresie liniară și neliniară.

Indicatorii de regresie exprimă relația de corelație bilateral, ținând cont de modificările valorilor medii ale caracteristicii Y la modificarea valorilor X i semn Xși, invers, arată o modificare a valorilor medii ale caracteristicii X conform valorilor modificate y i semn Y. Excepția o constituie seriile de timp sau serii de timp, care arată modificări ale caracteristicilor în timp. Regresia unei astfel de serii este unilaterală.

Există multe forme și tipuri diferite de corelații. Sarcina se rezumă la identificarea formei conexiunii în fiecare caz specific și exprimarea acesteia cu ecuația de corelație adecvată, ceea ce ne permite să anticipăm posibilele schimbări într-o caracteristică. Y pe baza modificărilor cunoscute în altul X, legat de primul corelațional.

12.1 Regresia liniară

Ecuația de regresie. Rezultatele observațiilor efectuate asupra unui anumit obiect biologic pe baza caracteristicilor corelate XȘi y, poate fi reprezentat prin puncte de pe un plan prin construirea unui sistem de coordonate dreptunghiulare. Rezultatul este un fel de diagramă de împrăștiere care permite cuiva să judece forma și apropierea relației dintre diferitele caracteristici. Destul de des, această relație arată ca o linie dreaptă sau poate fi aproximată printr-o linie dreaptă.

Relația liniară între variabile XȘi y este descris printr-o ecuație generală, unde a, b, c, d,... – parametri ai ecuației care determină relațiile dintre argumente X 1 , X 2 , X 3 , …, X m si functii.

În practică, nu sunt luate în considerare toate argumentele posibile, ci doar unele argumente; în cel mai simplu caz, doar unul:

În ecuația de regresie liniară (1) A este termenul liber și parametrul b determină panta dreptei de regresie în raport cu axele de coordonate dreptunghiulare. ÎN geometrie analitică acest parametru este numit pantă, iar în biometrie - coeficient de regresie. O reprezentare vizuală a acestui parametru și a poziției liniilor de regresie Y De XȘi X De Yîn sistemul de coordonate dreptunghiular dă Fig. 1.

Orez. 1 Liniile de regresie ale lui Y cu X și X cu Y în sistem

coordonate dreptunghiulare

Liniile de regresie, așa cum se arată în Fig. 1, se intersectează în punctul O (,), corespunzătoare valorilor medii aritmetice ale caracteristicilor corelate între ele YȘi X. La construirea graficelor de regresie, valorile variabilei independente X sunt trasate de-a lungul axei absciselor, iar valorile variabilei dependente, sau funcției Y, sunt reprezentate de-a lungul axei ordonatelor Linia AB care trece prin punctul O (, ) corespunde relației complete (funcționale) dintre variabile YȘi X, când coeficientul de corelaţie . Cu cât este mai puternică legătura dintre YȘi X, cu cât dreptele de regresie sunt mai apropiate de AB și, invers, cu cât conexiunea dintre aceste mărimi este mai slabă, cu atât liniile de regresie sunt mai îndepărtate de AB. Dacă nu există nicio legătură între caracteristici, liniile de regresie sunt în unghi drept între ele și .

Deoarece indicatorii de regresie exprimă relația de corelație bilateral, ecuația de regresie (1) ar trebui scrisă după cum urmează:

Prima formulă determină valorile medii atunci când caracteristica se schimbă X pe unitate de măsură, pentru a doua - valori medii atunci când se schimbă cu o unitate de măsură a atributului Y.

Coeficientul de regresie. Coeficientul de regresie arată cât de mult este în medie valoarea unei caracteristici y se schimbă atunci când măsura altuia, corelată cu, se schimbă cu una Y semn X. Acest indicator este determinat de formula

Iată valorile sînmulțit cu mărimea intervalelor de clasă λ , dacă au fost găsite din serii de variații sau tabele de corelare.

Coeficientul de regresie poate fi calculat fără a calcula medii abateri pătrate s yȘi s X conform formulei

Dacă coeficientul de corelație este necunoscut, coeficientul de regresie se determină după cum urmează:

Relația dintre regresie și coeficienți de corelație. Comparând formulele (11.1) (subiectul 11) și (12.5), vedem: numărătorul lor are aceeași valoare, ceea ce indică o legătură între acești indicatori. Această relație este exprimată prin egalitate

Astfel, coeficientul de corelație este egal cu media geometrică a coeficienților b yxȘi b X y. Formula (6) permite, în primul rând, pe baza valorilor cunoscute ale coeficienților de regresie b yxȘi b X y determina coeficientul de regresie R X y, iar în al doilea rând, verificați corectitudinea calculului acestui indicator de corelație R X yîntre diferite caracteristici XȘi Y.

Ca și coeficientul de corelație, coeficientul de regresie caracterizează doar o relație liniară și este însoțit de un semn plus pentru o relație pozitivă și de un semn minus pentru o relație negativă.

Determinarea parametrilor de regresie liniară. Se știe că suma abaterilor pătrate este o variantă X i din medie este cea mai mică valoare, adică această teoremă formează baza metodei celor mai mici pătrate. În ceea ce privește regresia liniară [vezi formula (1)] cerința acestei teoreme este îndeplinită de un anumit sistem de ecuații numit normal:

Rezolvarea comună a acestor ecuații în raport cu parametrii AȘi b conduce la următoarele rezultate:

;

;

, de unde și.

Având în vedere natura bidirecțională a relației dintre variabile YȘi X, formula de determinare a parametrului A ar trebui exprimat astfel:

Și . (7)

Parametru b, sau coeficientul de regresie, este determinat de următoarele formule:

Construirea seriilor de regresie empirică.În prezența un numar mare observații, analiza regresiei începe cu construirea unor serii de regresie empirică. Serii de regresie empirică se formează prin calcularea valorilor unei caracteristici diferite X valori medii ale altuia, corelate cu X semn Y. Cu alte cuvinte, construcția seriilor de regresie empirică se reduce la găsirea mediilor de grup din valorile corespunzătoare ale caracteristicilor Y și X.

O serie de regresie empirică este o serie dublă de numere care poate fi reprezentată prin puncte de pe un plan, iar apoi, conectând aceste puncte cu segmente de dreaptă, se poate obține o dreaptă de regresie empirică. Serii de regresie empirică, în special graficele lor, numite linii de regresie, oferă o idee clară a formei și a proximității corelației dintre diferitele caracteristici.

Alinierea serii de regresie empirică. Graficele serii de regresie empirică se dovedesc, de regulă, a nu fi netede, ci linii întrerupte. Acest lucru se explică prin faptul că, alături de principalele motive care determină modelul general în variabilitatea caracteristicilor corelate, amploarea acestora este afectată de influența a numeroase motive secundare care provoacă fluctuații aleatorii în punctele nodale de regresie. Pentru a identifica tendința (tendința) principală a variației conjugate a caracteristicilor corelate, este necesar să se înlocuiască liniile întrerupte cu linii de regresie netede, care rulează fără probleme. Procesul de înlocuire a liniilor întrerupte cu unele netede se numește alinierea seriilor empiriceȘi linii de regresie.

Metoda de aliniere grafică. Aceasta este cea mai simplă metodă care nu necesită muncă de calcul. Esența sa se rezumă la următoarele. Seria de regresie empirică este reprezentată ca un grafic într-un sistem de coordonate dreptunghiular. Apoi punctele medii ale regresiei sunt conturate vizual, de-a lungul căreia este trasată o linie continuă folosind o riglă sau un model. Dezavantajul acestei metode este evident: nu exclude influența proprietăților individuale ale cercetătorului asupra rezultatelor alinierii liniilor de regresie empirice. Prin urmare, în cazurile în care este necesară o precizie mai mare la înlocuirea liniilor de regresie întrerupte cu unele netede, se folosesc alte metode de aliniere a seriilor empirice.

Metoda mediei mobile. Esența acestei metode se rezumă la calculul secvențial al mediilor aritmetice din doi sau trei termeni adiacenți ai seriei empirice. Această metodă este deosebit de convenabilă în cazurile în care seria empirică este reprezentată de un număr mare de termeni, astfel încât pierderea a doi dintre ei - cei extremi, care este inevitabil cu această metodă de aliniere, nu-i va afecta în mod semnificativ structura.

Metoda celor mai mici pătrate. Această metodă a fost propusă la începutul secolului al XIX-lea de către A.M. Legendre și, independent de el, K. Gauss. Vă permite să aliniați cu cea mai mare acuratețe seriile empirice. Această metodă, așa cum se arată mai sus, se bazează pe ipoteza că suma abaterilor pătrate este o opțiune X i din media lor există o valoare minimă, adică de aici și numele metodei, care este folosită nu numai în ecologie, ci și în tehnologie. Metoda celor mai mici pătrate este obiectivă și universală; este folosită cel mai mult diverse cazuri la găsirea ecuaţiilor empirice pentru seriile de regresie şi determinarea parametrilor acestora.

Cerința metodei celor mai mici pătrate este ca punctele teoretice ale dreptei de regresie să fie obținute în așa fel încât suma abaterilor pătrate de la aceste puncte pentru observațiile empirice y i a fost minimă, adică

Calculând minimul acestei expresii în conformitate cu principiile analizei matematice și transformându-l într-un anumit fel, se poate obține un sistem de așa-numit ecuații normale, în care valorile necunoscute sunt parametrii necesari ai ecuației de regresie, iar coeficienții cunoscuți sunt determinați de valorile empirice ale caracteristicilor, de obicei, sumele valorilor lor și produsele lor încrucișate.

Regresie liniară multiplă. Relația dintre mai multe variabile este de obicei exprimată printr-o ecuație de regresie multiplă, care poate fi liniarȘi neliniar. În forma sa cea mai simplă, regresia multiplă este exprimată ca o ecuație cu două variabile independente ( X, z):

Unde A– termenul liber al ecuației; bȘi c– parametrii ecuației. Pentru a găsi parametrii ecuației (10) (folosind metoda celor mai mici pătrate), se utilizează următorul sistem de ecuații normale:

Seria dinamică. Alinierea rândurilor. Modificări ale caracteristicilor în timp formează așa-numitele serii de timp sau serie de dinamică. O trăsătură caracteristică a unor astfel de serii este că variabila independentă X este întotdeauna factorul de timp, iar variabila dependentă Y este o caracteristică în schimbare. În funcție de seria de regresie, relația dintre variabilele X și Y este unilaterală, deoarece factorul timp nu depinde de variabilitatea caracteristicilor. În ciuda acestor caracteristici, seriile de dinamică pot fi asemănate cu seria de regresie și procesate folosind aceleași metode.

La fel ca seriile de regresie, seriile empirice de dinamică poartă influența nu numai a principalilor, ci și a numeroșilor factori secundari (aleatorii) care ascund tendința principală în variabilitatea caracteristicilor, care în limbajul statisticii se numește tendinţă.

Analiza seriilor temporale începe cu identificarea formei tendinței. Pentru a face acest lucru, seria temporală este descrisă ca grafic cu liniiîntr-un sistem de coordonate dreptunghiular. În acest caz, punctele de timp (ani, luni și alte unități de timp) sunt reprezentate de-a lungul axei absciselor, iar valorile variabilei dependente Y sunt reprezentate de-a lungul axei ordonatelor. Dacă există o relație liniară între variabilele X și Y (tendință liniară), metoda celor mai mici pătrate este cea mai potrivită pentru alinierea seriei de timp este o ecuație de regresie sub formă de abateri ale termenilor seriei variabilei dependente Y de la media aritmetică a seriei independentei. variabila X:

Iată parametrul de regresie liniară.

Caracteristicile numerice ale serii dinamice. Principalele caracteristici numerice generalizatoare ale seriei dinamice includ medie geometricăși o medie aritmetică apropiată de aceasta. Ele caracterizează rata medie la care valoarea variabilei dependente se modifică în anumite perioade de timp:

O evaluare a variabilității membrilor seriei de dinamică este deviație standard. La alegerea ecuațiilor de regresie pentru a descrie seriile de timp, se ia în considerare forma tendinței, care poate fi liniară (sau redusă la liniară) și neliniară. Corectitudinea alegerii ecuației de regresie este de obicei judecată de similitudinea valorilor observate și calculate empiric ale variabilei dependente. O soluție mai precisă la această problemă este metoda analizei de regresie a varianței (subiectul 12, paragraful 4).

Corelarea seriilor temporale. Este adesea necesară compararea dinamicii seriilor temporale paralele legate între ele de anumite condiții generale, de exemplu, pentru a afla relația dintre producția agricolă și creșterea numărului de animale într-o anumită perioadă de timp. În astfel de cazuri, caracteristica relației dintre variabilele X și Y este coeficient de corelație R xy (în prezența unei tendințe liniare).

Se știe că tendința seriilor temporale este, de regulă, ascunsă de fluctuațiile din seria variabilei dependente Y. Aceasta dă naștere unei duble probleme: măsurarea dependenței dintre seriile comparate, fără a exclude tendința, și măsurarea dependența dintre membrii vecini ai aceleiași serii, excluzând tendința. În primul caz, indicatorul strângerii legăturii dintre seriile de timp comparate este coeficient de corelație(dacă relația este liniară), în al doilea – coeficient de autocorelare. Acești indicatori au semnificații diferite, deși sunt calculați folosind aceleași formule (vezi subiectul 11).

Este ușor de observat că valoarea coeficientului de autocorelare este afectată de variabilitatea membrilor seriei variabilei dependente: cu cât membrii seriei se abat mai puțin de la tendință, cu atât coeficientul de autocorelare este mai mare și invers.