Ce este regresia?

Luați în considerare două variabile continue x=(x1, x2, .., xn), y=(y1, y2, ..., yn).

Să plasăm punctele pe o diagramă de dispersie bidimensională și să spunem că avem relație liniară, dacă datele sunt aproximate printr-o linie dreaptă.

Dacă credem asta y depinde de X, și modificări în y sunt cauzate tocmai de modificări în X, putem determina linia de regresie (regresia y pe X), care descrie cel mai bine relația liniară dintre aceste două variabile.

Utilizarea statistică a cuvântului regresie provine de la fenomenul cunoscut sub numele de regresie la medie, atribuit lui Sir Francis Galton (1889).

El a arătat că, deși tații înalți tind să aibă fii înalți, înălțimea medie a fiilor este mai mică decât cea a taților lor înalți. Înălțimea medie a fiilor „a regresat” și „a revenit” spre înălțimea medie a tuturor taților din populație. Astfel, în medie, tații înalți au fii mai scunzi (dar încă destul de înalți), iar tații scunzi au fii mai înalți (dar încă destul de scunzi).

Linia de regresie

Ecuație matematică care evaluează o dreaptă simplă (pereche). regresie liniara:

X numită variabilă independentă sau predictor.

Y- variabilă dependentă sau variabilă de răspuns. Aceasta este valoarea la care ne așteptăm y(în medie) dacă știm valoarea X, adică este „valoarea estimată” y»

  • A- membru liber (intersectia) liniei de evaluare; acesta este sensul Y, Când x=0(Fig.1).
  • b- panta sau panta liniei estimate; reprezintă suma cu care Y crește în medie dacă creștem X pentru o unitate.
  • AȘi b se numesc coeficienți de regresie ai liniei estimate, deși acest termen este adesea folosit doar pentru b.

Regresia liniară în perechi poate fi extinsă pentru a include mai mult de o variabilă independentă; în acest caz este cunoscut ca regresie multiplă.

Fig.1. Linie de regresie liniară care arată intercepta a și panta b (cantitatea Y crește pe măsură ce x crește cu o unitate)

Metoda celor mai mici pătrate

împlinim analiza regresiei, folosind un eșantion de observații, unde AȘi b- estimări prin eșantion ale parametrilor adevărați (generali), α și β, care determină linia de regresie liniară în populație (populație generală).

Cea mai simplă metodă de determinare a coeficienților AȘi b este metodă cele mai mici pătrate (MNC).

Potrivirea este evaluată analizând reziduurile (distanța verticală a fiecărui punct de la linie, de exemplu, rezidual = observat y- prezis y, Orez. 2).

Linia de cea mai bună potrivire este aleasă astfel încât suma pătratelor reziduurilor să fie minimă.

Orez. 2. Linie de regresie liniară cu reziduuri reprezentate (linii punctate verticale) pentru fiecare punct.

Ipoteze de regresie liniară

Deci, pentru fiecare mărime observabilă restul egal cu diferenta iar corespunzătoare prezisă Fiecare reziduu poate fi pozitiv sau negativ.

Puteți utiliza reziduurile pentru a testa următoarele ipoteze din spatele regresiei liniare:

  • Reziduurile sunt distribuite în mod normal cu o medie de zero;

Dacă ipotezele de liniaritate, normalitate și/sau variație constantă sunt discutabile, putem transforma sau și calcula linie nouă regresie pentru care aceste ipoteze sunt satisfăcute (de exemplu, utilizați o transformare logaritmică etc.).

Valori anormale (outliers) și puncte de influență

O observație „influentă”, dacă este omisă, modifică una sau mai multe estimări ale parametrilor modelului (adică, panta sau interceptarea).

Un outlier (o observație care este în contradicție cu majoritatea valorilor dintr-un set de date) poate fi o observație „influentă” și poate fi detectată cu ușurință vizual prin inspectarea unui grafic de dispersie bivariat sau a unui grafic rezidual.

Atât pentru valori aberante, cât și pentru observațiile (puncte) „influențiale”, sunt utilizate modele, atât cu, cât și fără includerea lor, și se acordă atenție modificărilor estimărilor (coeficienți de regresie).

Când efectuați o analiză, nu trebuie să eliminați automat valorile aberante sau punctele de influență, deoarece pur și simplu ignorarea acestora poate afecta rezultatele obținute. Studiați întotdeauna motivele acestor valori aberante și analizați-le.

Ipoteza regresiei liniare

La construirea regresiei liniare, se testează ipoteza nulă că panta generală a dreptei de regresie β este egală cu zero.

Dacă panta dreptei este zero, nu există o relație liniară între și: modificarea nu afectează

Pentru a testa ipoteza nulă că panta adevărată este zero, puteți utiliza următorul algoritm:

Calculați statistica de test egală cu raportul , care este supus unei distribuții cu grade de libertate, unde eroarea standard a coeficientului


,

- estimarea dispersiei reziduurilor.

De obicei, dacă nivelul de semnificație este atins, ipoteza nulă este respinsă.


unde este punctul procentual al distribuției cu grade de libertate, care oferă probabilitatea unui test cu două fețe

Acesta este intervalul care conține panta generală cu o probabilitate de 95%.

Pentru eșantioane mari, să zicem, putem aproxima cu o valoare de 1,96 (adică statistica testului va tinde să fie distribuită normal)

Evaluarea calității regresiei liniare: coeficientul de determinare R 2

Din cauza relației liniare și ne așteptăm să se schimbe ca , și numiți-o variația care se datorează sau se explică prin regresie. Variația reziduală ar trebui să fie cât mai mică posibil.

Dacă acest lucru este adevărat, atunci cea mai mare parte a variației va fi explicată prin regresie, iar punctele se vor afla aproape de dreapta de regresie, adică. linia se potrivește bine datelor.

Acțiune varianta totala, care se explică prin regresie se numește coeficient de determinare, de obicei exprimat ca procent și notat R 2(în regresia liniară pereche aceasta este cantitatea r 2, pătratul coeficientului de corelație), vă permite să evaluați subiectiv calitatea ecuației de regresie.

Diferența reprezintă procentul de varianță care nu poate fi explicat prin regresie.

Nu există un test formal de evaluat; trebuie să ne bazăm pe judecata subiectivă pentru a determina bunătatea potrivirii dreptei de regresie.

Aplicarea unei linii de regresie la prognoză

Puteți utiliza o linie de regresie pentru a prezice o valoare dintr-o valoare aflată la capătul extrem al intervalului observat (nu extrapolați niciodată dincolo de aceste limite).

Prezim media observabilelor care au o anumită valoare prin introducerea acelei valori în ecuația dreptei de regresie.

Deci, dacă prezicem așa cum vom folosi această valoare prezisă și eroarea ei standard pentru a estima interval de încredere pentru adevărata medie a populației.

Repetarea acestei proceduri pentru diferite valori vă permite să construiți limite de încredere pentru această linie. Aceasta este banda sau zona care conține linia adevărată, de exemplu la un nivel de încredere de 95%.

Planuri simple de regresie

Modelele de regresie simple conțin un predictor continuu. Dacă există 3 observații cu valori de predictor P, cum ar fi 7, 4 și 9, iar proiectul include un efect de ordinul întâi P, atunci matricea de proiectare X va fi

A ecuația de regresie folosind P pentru X1 arată ca

Y = b0 + b1 P

Dacă un design de regresie simplă conține un efect de ordin mai mare asupra P, cum ar fi un efect pătratic, atunci valorile din coloana X1 din matricea de proiectare vor fi ridicate la a doua putere:

iar ecuația va lua forma

Y = b0 + b1 P2

Metodele de codare constrânse de Sigma și supraparametrizate nu se aplică modelelor de regresie simple și altor modele care conțin doar predictori continui (deoarece pur și simplu nu există predictori categoriali). Indiferent de metoda de codare aleasă, valorile variabilelor continue sunt incrementate corespunzător și utilizate ca valori pentru variabilele X. În acest caz, nu se efectuează nicio recodificare. În plus, atunci când descrieți planurile de regresie, puteți omite luarea în considerare a matricei de proiectare X și puteți lucra numai cu ecuația de regresie.

Exemplu: analiză de regresie simplă

Acest exemplu utilizează datele prezentate în tabel:

Orez. 3. Tabelul datelor inițiale.

Date compilate dintr-o comparație a recensămintelor din 1960 și 1970 în 30 de județe selectate aleatoriu. Numele județelor sunt prezentate ca nume de observație. Informațiile referitoare la fiecare variabilă sunt prezentate mai jos:

Orez. 4. Tabel cu specificații variabile.

Problema de cercetare

Pentru acest exemplu, se va analiza corelația dintre rata sărăciei și gradul care prezice procentul de familii care se află sub pragul sărăciei. Prin urmare, vom trata variabila 3 (Pt_Poor) ca variabilă dependentă.

Putem înainta o ipoteză: schimbările în dimensiunea populației și procentul de familii care se află sub pragul sărăciei sunt legate. Pare rezonabil să ne așteptăm ca sărăcia să ducă la emigrare, deci ar exista o corelație negativă între procentul de oameni sub pragul sărăciei și schimbarea populației. Prin urmare, vom trata variabila 1 (Pop_Chng) ca o variabilă predictivă.

Vezi rezultate

Coeficienți de regresie

Orez. 5. Coeficienții de regresie ai Pt_Poor pe Pop_Chng.

La intersecția rândului Pop_Chng și a coloanei Param. coeficientul nestandardizat pentru regresia lui Pt_Poor pe Pop_Chng este -0,40374. Aceasta înseamnă că pentru fiecare unitate de scădere a populației, există o creștere a ratei sărăciei de .40374. Limitele de încredere superioară și inferioară (implicit) de 95% pentru acest coeficient nestandardizat nu includ zero, astfel încât coeficientul de regresie este semnificativ la nivelul p<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Distribuție variabilă

Coeficienții de corelație pot deveni semnificativ supraestimați sau subestimați dacă în date sunt prezente valori aberante mari. Să studiem distribuția variabilei dependente Pt_Poor pe district. Pentru a face acest lucru, să construim o histogramă a variabilei Pt_Poor.

Orez. 6. Histograma variabilei Pt_Poor.

După cum puteți vedea, distribuția acestei variabile diferă semnificativ de distribuția normală. Cu toate acestea, deși chiar și două județe (cele două coloane din dreapta) au un procent mai mare de familii care se află sub pragul sărăciei decât se aștepta într-o distribuție normală, ele par a fi „în intervalul”.

Orez. 7. Histograma variabilei Pt_Poor.

Această judecată este oarecum subiectivă. Regula generală este că valorile aberante ar trebui luate în considerare dacă observația (sau observațiile) nu se încadrează în interval (media ± 3 ori abaterea standard). În acest caz, merită repetat analiza cu și fără valori aberante pentru a ne asigura că acestea nu au un efect major asupra corelației dintre membrii populației.

Scatterplot

Dacă una dintre ipoteze este a priori despre relația dintre variabile date, atunci este util să o testăm pe graficul graficului de dispersie corespunzător.

Orez. 8. Diagrama de dispersie.

Graficul de dispersie arată o corelație negativă clară (-.65) între cele două variabile. De asemenea, arată intervalul de încredere de 95% pentru linia de regresie, adică există o probabilitate de 95% ca linia de regresie să se afle între cele două curbe punctate.

Criterii de semnificație

Orez. 9. Tabel cuprinzând criteriile de semnificație.

Testul pentru coeficientul de regresie Pop_Chng confirmă faptul că Pop_Chng este strâns legat de Pt_Poor , p<.001 .

Concluzie

Acest exemplu a arătat cum se analizează un design de regresie simplu. De asemenea, au fost prezentate interpretări ale coeficienților de regresie nestandardizați și standardizați. Se discută importanța studierii distribuției răspunsului unei variabile dependente și se demonstrează o tehnică pentru determinarea direcției și intensității relației dintre un predictor și o variabilă dependentă.

A) Analiza grafică a regresiei liniare simple.

Ecuație simplă de regresie liniară y=a+bx. Dacă există o corelație între variabilele aleatoare Y și X, atunci valoarea y = ý + ,

unde ý este valoarea teoretică a lui y obținută din ecuația ý = f(x),

 – eroarea de abatere a ecuaţiei teoretice ý de la datele reale (experimentale).

Ecuația pentru dependența valorii medii ý de x, adică ý = f(x), se numește ecuație de regresie. Analiza regresiei constă în patru etape:

1) stabilirea problemei și stabilirea motivelor conexiunii.

2) limitarea obiectului de cercetare, colectarea de informații statistice.

3) selectarea ecuației de cuplare pe baza analizei și naturii datelor colectate.

4) calculul valorilor numerice, caracteristicile conexiunilor de corelare.

Dacă două variabile sunt legate în așa fel încât o modificare a unei variabile să corespundă unei schimbări sistematice a celeilalte variabile, atunci analiza de regresie este utilizată pentru a estima și selecta ecuația pentru relația dintre ele dacă aceste variabile sunt cunoscute. Spre deosebire de analiza de regresie, analiza de corelație este utilizată pentru a analiza proximitatea relației dintre X și Y.

Să luăm în considerare găsirea unei linii drepte în analiza de regresie:

Ecuația de regresie teoretică.

Termenul „regresie simplă” indică faptul că valoarea unei variabile este estimată pe baza cunoștințelor despre o altă variabilă. Spre deosebire de regresia multivariată simplă, este folosită pentru a estima o variabilă pe baza cunoașterii a două, trei sau mai multe variabile. Să ne uităm la analiza grafică a regresiei liniare simple.

Să presupunem că există rezultate ale testelor de screening privind preîncadrarea în muncă și productivitatea muncii.

Rezultatele selecției (100 puncte), x

Productivitate (20 puncte), y

Prin trasarea punctelor pe un grafic, obținem o diagramă de împrăștiere (câmp). Îl folosim pentru a analiza rezultatele testelor de selecție și productivitatea muncii.

Folosind graficul de dispersie, să analizăm linia de regresie. În analiza de regresie, cel puțin două variabile sunt întotdeauna specificate. O modificare sistematică a unei variabile este asociată cu o schimbare a alteia. obiectivul principal analiza regresiei constă în estimarea valorii unei variabile dacă este cunoscută valoarea altei variabile. Pentru o sarcină completă, evaluarea productivității muncii este importantă.

Variabila independentaîn analiza de regresie, o cantitate care este utilizată ca bază pentru analiza unei alte variabile. În acest caz, acestea sunt rezultatele testelor de selecție (de-a lungul axei X).

Variabilă dependentă se numește valoare estimată (de-a lungul axei Y). În analiza de regresie, poate exista o singură variabilă dependentă și mai multe variabile independente.

Pentru o analiză de regresie simplă, dependența poate fi reprezentată într-un sistem cu două coordonate (x și y), cu axa X fiind variabila independentă și axa Y fiind variabila dependentă. Trasăm punctele de intersecție astfel încât o pereche de valori să fie reprezentată pe grafic. Programul este numit diagramă de dispersie. Construcția sa este a doua etapă a analizei de regresie, deoarece prima este selectarea valorilor analizate și colectarea datelor eșantionului. Astfel, analiza de regresie este utilizată pentru analiza statistică. Relația dintre datele eșantionului dintr-o diagramă este liniară.

Pentru a estima mărimea unei variabile y pe baza unei variabile x, este necesar să se determine poziția dreptei care reprezintă cel mai bine relația dintre x și y pe baza locației punctelor de pe graficul de dispersie. În exemplul nostru, aceasta este analiza performanței. Linie trasată prin puncte de împrăștiere – linie de regresie. O modalitate de a construi o linie de regresie bazată pe experiența vizuală este metoda cu mână liberă. Linia noastră de regresie poate fi folosită pentru a determina productivitatea muncii. La găsirea ecuaţiei dreptei de regresie

Testul celor mai mici pătrate este adesea folosit. Cea mai potrivită linie este cea în care suma abaterilor pătrate este minimă

Ecuația matematică a unei linii de creștere reprezintă legea creșterii într-o progresie aritmetică:

la = AbX.

Y = A + bX– ecuația dată cu un parametru este cel mai simplu tip de ecuație de cuplare. Este acceptabil pentru valori medii. Pentru a exprima mai exact relația dintre XȘi la, se introduce un coeficient de proporționalitate suplimentar b, care indică panta dreptei de regresie.

B) Construirea unei drepte teoretice de regresie.

Procesul de găsire a acestuia constă în alegerea și justificarea tipului de curbă și calcularea parametrilor A, b, Cu etc. Procesul de construcție se numește aliniere, iar oferta de curbe oferită de covoraș. analiză, variată. Cel mai adesea, în problemele economice, se folosește o familie de curbe, ecuații care sunt exprimate prin polinoame de puteri întregi pozitive.

1)
- ecuația unei linii drepte,

2)
– ecuația hiperbolei,

3)
– ecuația unei parabole,

unde ý sunt ordonatele dreptei de regresie teoretică.

După ce ați ales tipul de ecuație, trebuie să găsiți parametrii de care depinde această ecuație. De exemplu, natura locației punctelor în câmpul de împrăștiere a arătat că linia de regresie teoretică este dreaptă.

Un grafic de dispersie vă permite să reprezentați productivitatea muncii folosind analiza de regresie. În economie, analiza de regresie este utilizată pentru a prezice multe caracteristici care afectează produsul final (ținând cont de prețul).

B) Criteriul celor mai mici cadre pentru găsirea unei linii drepte.

Un criteriu pe care l-am putea aplica pentru o linie de regresie adecvată într-un grafic de dispersie se bazează pe alegerea dreptei pentru care suma erorilor pătrate este minimă.

Proximitatea punctelor de împrăștiere față de linia dreaptă este măsurată prin ordonatele segmentelor. Abaterile acestor puncte pot fi pozitive și negative, dar suma pătratelor abaterilor dreptei teoretice de la dreapta experimentală este întotdeauna pozitivă și ar trebui să fie minimă. Faptul că toate punctele de împrăștiere nu coincid cu poziția dreptei de regresie indică existența unei discrepanțe între datele experimentale și cele teoretice. Astfel, putem spune că nicio altă linie de regresie, cu excepția celei găsite, nu poate da o cantitate mai mică de abateri între datele experimentale și cele experimentale. Prin urmare, după ce am găsit ecuația teoretică ý și linia de regresie, îndeplinim cerința celor mai mici pătrate.

Acest lucru se face folosind ecuația de cuplare
folosind formule pentru a găsi parametrii AȘi b. Luând valoarea teoretică
și notând partea stângă a ecuației prin f, obținem funcția
din parametri necunoscuți AȘi b. Valori AȘi b va satisface funcţia minimă fși se găsesc din ecuații cu diferențe parțiale
Și
. Acest conditie necesara, cu toate acestea, pentru o funcție pătratică pozitivă, aceasta este și o condiție suficientă pentru a găsi AȘi b.

Să derivăm formulele parametrilor din ecuațiile cu derivate parțiale AȘi b:



obținem un sistem de ecuații:

Unde
– erori de medie aritmetică.

Înlocuind valorile numerice, găsim parametrii AȘi b.

Există un concept
. Acesta este factorul de aproximare.

Dacă e < 33%, то модель приемлема для дальнейшего анализа;

Dacă e> 33%, apoi luăm o hiperbolă, parabolă etc. Acest lucru dă dreptul la analiză în diferite situații.

Concluzie: după criteriul coeficientului de aproximare, dreapta cea mai potrivită este cea pentru care

, și nicio altă linie de regresie pentru problema noastră nu oferă o abatere minimă.

D) Eroarea pătrată de estimare, verificând tipicitatea acestora.

În raport cu o populație în care numărul de parametri de cercetare este mai mic de 30 ( n < 30), для проверки типичности параметров уравнения регрессии используется t-Testul studentului. Aceasta calculează valoarea reală t-criterii:

De aici

Unde – eroare pătratică medie reziduală. Primit t AȘi t b comparativ cu critic t k din tabelul Student ținând cont de nivelul de semnificație acceptat ( = 0,01 = 99% sau  = 0,05 = 95%). P = f = k 1 = m– numărul de parametri ai ecuației studiate (grad de libertate). De exemplu, dacă y = A + bx; m = 2, k 2 = f 2 = p 2 = n – (m+ 1), unde n– numărul de caracteristici studiate.

t A < t k < t b .

Concluzie: folosind parametrii ecuației de regresie testați pentru tipicitate, se construiește un model matematic de comunicare
. În acest caz, parametrii funcției matematice utilizate în analiză (liniară, hiperbolă, parabolă) primesc valorile cantitative corespunzătoare. Conținutul semantic al modelelor astfel obținute este că ele caracterizează valoarea medie a caracteristicii rezultate
din caracteristica factorului X.

D) Regresia curbilinie.

Destul de des, o relație curbilinie apare atunci când se stabilește o relație în schimbare între variabile. Intensitatea creșterii (scăderii) depinde de nivelul lui X. Există diferite tipuri de dependență curbilinie. De exemplu, luați în considerare relația dintre randamentul culturii și precipitații. Cu o creștere a precipitațiilor în condiții naturale egale, are loc o creștere intensivă a randamentului, dar până la o anumită limită. După punctul critic, precipitațiile se dovedesc a fi excesive, iar randamentele scad catastrofal. Exemplul arată că la început relația a fost pozitivă și apoi negativă. Punctul critic este nivelul optim al atributului X, care corespunde valorii maxime sau minime a atributului Y.

În economie, o astfel de relație se observă între preț și consum, productivitate și experiență.

Dependenta parabolica.

Dacă datele arată că o creștere a unei caracteristici factor duce la o creștere a caracteristicii rezultante, atunci o ecuație de ordinul doi (parabolă) este luată ca o ecuație de regresie.

. Coeficienții a,b,c se găsesc din ecuațiile cu diferențe parțiale:

Obținem un sistem de ecuații:

Tipuri de ecuații curbilinie:

,

,

Avem dreptul să presupunem că există o relație curbilinie între productivitatea muncii și scorurile testelor de selecție. Aceasta înseamnă că, pe măsură ce sistemul de notare crește, performanța va începe să scadă la un anumit nivel, astfel încât modelul drept se poate dovedi curbiliniu.

Al treilea model va fi o hiperbolă, iar în toate ecuațiile variabila x va fi înlocuită cu expresia .

Caracteristica principală a analizei de regresie: cu ajutorul acesteia, puteți obține informații specifice despre ce formă și natura are relația dintre variabilele studiate.

Secvența etapelor analizei de regresie

Să luăm în considerare pe scurt etapele analizei de regresie.

    Formularea problemei. În această etapă se formează ipoteze preliminare despre dependența fenomenelor studiate.

    Definirea variabilelor dependente și independente (explicative).

    Colectarea datelor statistice. Datele trebuie colectate pentru fiecare dintre variabilele incluse în modelul de regresie.

    Formularea unei ipoteze despre forma conexiunii (simplu sau multiplă, liniară sau neliniară).

    Definiție funcții de regresie (constă în calcularea valorilor numerice ale parametrilor ecuației de regresie)

    Evaluarea acurateței analizei de regresie.

    Interpretarea rezultatelor obtinute. Rezultatele obținute ale analizei de regresie sunt comparate cu ipotezele preliminare. Se evaluează corectitudinea și credibilitatea rezultatelor obținute.

    Predicția valorilor necunoscute ale unei variabile dependente.

Folosind analiza de regresie, este posibil să se rezolve problema prognozării și clasificării. Valorile prezise sunt calculate prin înlocuirea valorilor variabilelor explicative în ecuația de regresie. Problema clasificării este rezolvată astfel: linia de regresie împarte întregul set de obiecte în două clase, iar acea parte a mulțimii în care valoarea funcției este mai mare decât zero aparține unei clase, iar partea în care este mai mică decât zero. aparține unei alte clase.

Probleme de analiză de regresie

Să luăm în considerare principalele sarcini ale analizei de regresie: stabilirea formei de dependență, determinarea funcții de regresie, estimarea valorilor necunoscute ale variabilei dependente.

Stabilirea formei de dependenţă.

Natura și forma relației dintre variabile pot forma următoarele tipuri de regresie:

    regresie liniară pozitivă (exprimată în creștere uniformă a funcției);

    regresie pozitivă în creștere uniformă;

    regresie pozitivă în creștere uniformă;

    regresie liniară negativă (exprimată ca o scădere uniformă a funcției);

    regresie descrescătoare negativă uniform accelerată;

    regresie negativă în scădere uniformă.

Cu toate acestea, soiurile descrise nu se găsesc de obicei în formă pură, ci în combinație între ele. În acest caz, vorbim despre forme combinate de regresie.

Definiția funcției de regresie.

Cea de-a doua sarcină se rezumă la identificarea efectului asupra variabilei dependente al factorilor sau cauzelor principale, celelalte lucruri fiind egale, și sub rezerva excluderii influenței elementelor aleatoare asupra variabilei dependente. Funcția de regresie este definită sub forma unei ecuaţii matematice de un tip sau altul.

Estimarea valorilor necunoscute ale variabilei dependente.

Soluția la această problemă se rezumă la rezolvarea unei probleme de unul dintre următoarele tipuri:

    Estimarea valorilor variabilei dependente în intervalul considerat al datelor inițiale, i.e. valori lipsă; în acest caz, problema interpolării este rezolvată.

    Estimarea valorilor viitoare ale variabilei dependente, i.e. găsirea valorilor în afara intervalului specificat al datelor sursă; în acest caz se rezolvă problema extrapolării.

Ambele probleme sunt rezolvate prin înlocuirea estimărilor parametrilor găsite pentru valorile variabilelor independente în ecuația de regresie. Rezultatul rezolvării ecuației este o estimare a valorii variabilei țintă (dependente).

Să ne uităm la câteva dintre ipotezele pe care se bazează analiza de regresie.

Ipoteza de liniaritate, de ex. se presupune că relația dintre variabilele luate în considerare este liniară. Deci, în acest exemplu, am trasat un grafic de dispersie și am putut vedea o relație liniară clară. Dacă, pe diagrama de împrăștiere a variabilelor, vedem o absență clară a unei relații liniare, i.e. Dacă există o relație neliniară, trebuie utilizate metode de analiză neliniară.

Ipoteza de normalitate resturi. Se presupune că distribuția diferenței dintre valorile prezise și cele observate este normală. Pentru a determina vizual natura distribuției, puteți utiliza histograme resturi.

Atunci când se utilizează analiza de regresie, principala sa limitare trebuie luată în considerare. Constă în faptul că analiza de regresie ne permite să detectăm doar dependențe, și nu conexiunile care stau la baza acestor dependențe.

Analiza de regresie vă permite să estimați puterea relației dintre variabile prin calcularea valorii estimate a unei variabile pe baza mai multor valori cunoscute.

Ecuația de regresie.

Ecuația de regresie arată astfel: Y=a+b*X

Folosind această ecuație, variabila Y se exprimă în termenii unei constante a și pantei dreptei (sau pantei) b, înmulțite cu valoarea variabilei X. Constanta a se numește și termenul de interceptare, iar panta este coeficientul de regresie sau coeficientul B.

În cele mai multe cazuri (dacă nu întotdeauna) există o anumită dispersie de observații în raport cu linia de regresie.

Rest este abaterea unui singur punct (observare) de la linia de regresie (valoarea prezisă).

Pentru a rezolva problema analizei regresiei în MS Excel, selectați din meniu Serviciu„Pachet de analiză”și instrumentul de analiză de regresie. Setăm intervalele de intrare X și Y. Intervalul de intrare Y este intervalul de date dependente analizate, trebuie să includă o coloană. Intervalul de intrare X este intervalul de date independente care trebuie analizat. Numărul de intervale de intrare nu trebuie să depășească 16.

La ieșirea procedurii în intervalul de ieșire obținem raportul dat în tabelul 8.3a-8,3v.

CONCLUZIA REZULTATELOR

Tabelul 8.3a. Statistici de regresie

Statistici de regresie

Plural R

R-pătrat

R-pătrat normalizat

Eroare standard

Observatii

Să ne uităm mai întâi la partea de sus a calculelor prezentate în tabelul 8.3a, - statistici de regresie.

Magnitudinea R-pătrat, numită și măsura certitudinii, caracterizează calitatea dreptei de regresie rezultată. Această calitate este exprimată prin gradul de corespondență dintre datele sursă și modelul de regresie (date calculate). Măsura certitudinii este întotdeauna în interval.

În cele mai multe cazuri, valoarea R-pătrat este între aceste valori, numite extreme, i.e. intre zero si unu.

Dacă valoarea R-pătrat aproape de unitate, aceasta înseamnă că modelul construit explică aproape toată variabilitatea variabilelor corespunzătoare. Dimpotrivă, sensul R-pătrat, aproape de zero, înseamnă calitate slabă a modelului construit.

În exemplul nostru, măsura certitudinii este 0,99673, ceea ce indică o potrivire foarte bună a liniei de regresie la datele originale.

plural R - coeficientul de corelație multiplă R - exprimă gradul de dependență al variabilelor independente (X) și al variabilei dependente (Y).

Plural R este egală cu rădăcina pătrată a coeficientului de determinare; această cantitate ia valori în intervalul de la zero la unu.

În analiza de regresie liniară simplă plural R egal cu coeficientul de corelație Pearson. Într-adevăr, plural Rîn cazul nostru, este egal cu coeficientul de corelație Pearson din exemplul anterior (0,998364).

Tabelul 8.3b. Coeficienți de regresie

Cote

Eroare standard

t-statistică

Intersecția în Y

Variabila X 1

* Este furnizată o versiune trunchiată a calculelor

Acum luați în considerare partea de mijloc a calculelor prezentate în tabelul 8.3b. Aici sunt date coeficientul de regresie b (2,305454545) și deplasarea de-a lungul axei ordonatelor, i.e. constanta a (2,694545455).

Pe baza calculelor, putem scrie ecuația de regresie după cum urmează:

Y= x*2,305454545+2,694545455

Direcția relației dintre variabile este determinată pe baza semnelor (negative sau pozitive) ale coeficienților de regresie (coeficientul b).

Dacă semnul coeficientului de regresie este pozitiv, relația dintre variabila dependentă și variabila independentă va fi pozitivă. În cazul nostru, semnul coeficientului de regresie este pozitiv, prin urmare, relația este și ea pozitivă.

Dacă semnul coeficientului de regresie este negativ, relația dintre variabila dependentă și variabila independentă este negativă (inversă).

ÎN tabelul 8.3c. sunt prezentate rezultatele rezultate resturi. Pentru ca aceste rezultate să apară în raport, trebuie să activați caseta de selectare „Reziduuri” atunci când rulați instrumentul „Regresie”.

RETRAGERE A RESTULUI

Tabelul 8.3c. Resturi

Observare

A prezis Y

Resturi

Solduri standard

Folosind această parte a raportului, putem vedea abaterile fiecărui punct de la linia de regresie construită. Cea mai mare valoare absolută restîn cazul nostru - 0,778, cel mai mic - 0,043. Pentru a interpreta mai bine aceste date, vom folosi graficul datelor originale și linia de regresie construită prezentată în orez. 8.3. După cum puteți vedea, linia de regresie este „adaptată” destul de precis la valorile datelor originale.

Trebuie luat în considerare faptul că exemplul luat în considerare este destul de simplu și nu este întotdeauna posibil să se construiască calitativ o dreaptă de regresie liniară.

Orez. 8.3. Date sursă și linie de regresie

Problema estimarii valorilor viitoare necunoscute ale variabilei dependente pe baza valorilor cunoscute ale variabilei independente a ramas neconsiderata, i.e. problema de prognoză.

Având o ecuație de regresie, problema de prognoză se reduce la rezolvarea ecuației Y= x*2.305454545+2.694545455 cu valorile cunoscute ale lui x. Sunt prezentate rezultatele predicției variabilei dependente Y cu șase pași înainte în tabelul 8.4.

Tabelul 8.4. Rezultatele prognozei variabilei Y

Y (prevăzut)

Astfel, ca urmare a utilizării analizei de regresie în Microsoft Excel, noi:

    a construit o ecuație de regresie;

    a stabilit forma dependenței și direcția conexiunii dintre variabile - regresie liniară pozitivă, care se exprimă în creștere uniformă a funcției;

    a stabilit direcția relației dintre variabile;

    a evaluat calitatea dreptei de regresie rezultată;

    au putut vedea abateri ale datelor calculate de la datele setului original;

    valorile viitoare prezise ale variabilei dependente.

Dacă functie de regresie definite, interpretate și justificate, iar evaluarea acurateței analizei de regresie îndeplinește cerințele, modelul construit și valorile prezise pot fi considerate a avea suficientă fiabilitate.

Valorile prezise obținute în acest fel sunt valorile medii la care se poate aștepta.

În această lucrare am trecut în revistă principalele caracteristici Statisticile descriptive iar printre ele concepte precum valoarea medie,median,maxim,minimși alte caracteristici ale variației datelor.

Conceptul a fost de asemenea discutat pe scurt emisii. Caracteristicile luate în considerare se referă la așa-numita analiză exploratorie a datelor; concluziile acesteia pot să nu se aplice populației generale, ci doar unui eșantion de date. Analiza exploratorie a datelor este utilizată pentru a obține concluzii primare și pentru a forma ipoteze despre populație.

De asemenea, au fost discutate bazele analizei de corelare și regresie, sarcinile acestora și posibilitățile de utilizare practică.

Cursul 3.

Analiza de regresie.

1) Caracteristicile numerice ale regresiei

2) Regresia liniară

3) Regresia neliniară

4) Regresie multiplă

5) Utilizarea MS EXCEL pentru a efectua analiza de regresie

Instrument de control și evaluare - sarcini de testare

1. Caracteristicile numerice ale regresiei

Analiza regresiei este o metodă statistică pentru studierea influenței uneia sau mai multor variabile independente asupra unei variabile dependente. Variabilele independente sunt denumite altfel regresori sau predictori, iar variabilele dependente sunt numite variabile criteriu. Terminologia variabilelor dependente și independente reflectă doar dependența matematică a variabilelor și nu relațiile cauză-efect.

Obiectivele analizei de regresie

  • Determinarea gradului de determinare a variației unei variabile criteriale (dependente) de către predictori (variabile independente).
  • Prezicerea valorii unei variabile dependente folosind variabilele independente.
  • Determinarea contribuției variabilelor independente individuale la variația variabilei dependente.

Analiza de regresie nu poate fi utilizată pentru a determina dacă există o relație între variabile, deoarece prezența unei astfel de relații este o condiție prealabilă pentru aplicarea analizei.

Pentru a efectua o analiză de regresie, mai întâi trebuie să vă familiarizați cu conceptele de bază ale statisticii și teoria probabilității.

Caracteristicile numerice de bază ale variabilelor aleatoare discrete și continue: așteptarea matematică, dispersia și abaterea standard.

Variabilele aleatoare sunt împărțite în două tipuri:

  • · discret, care poate lua doar valori specifice, prestabilite (de exemplu, valorile numerelor de pe marginea superioară a unui zar aruncat sau valorile ordinale ale lunii curente);
  • · continuu (cel mai adesea - valorile unor marimi fizice: greutate, distanta, temperatura etc.), care, conform legilor naturii, poate lua orice valori, cel putin intr-un anumit interval.

Legea distribuției unei variabile aleatoare este corespondența dintre valorile posibile ale unei variabile aleatoare discrete și probabilitățile acesteia, de obicei scrise într-un tabel:

Definiția statistică a probabilității este exprimată prin frecvența relativă a unui eveniment aleatoriu, adică se găsește ca raport dintre numărul de variabile aleatoare și numărul total de variabile aleatoare.

Așteptările matematice ale unei variabile aleatoare discreteX se numește suma produselor valorilor unei cantități X asupra probabilităţii acestor valori. Aşteptarea matematică se notează cu sau M(X) .

n

= M(X) = X 1 p 1 + X 2 p 2 +… + x n p n = S x i p i

i=1

Dispersia unei variabile aleatoare în raport cu așteptările ei matematice este determinată folosind o caracteristică numerică numită dispersie. Mai simplu spus, varianța este răspândirea unei variabile aleatoare în jurul valorii medii. Pentru a înțelege esența dispersiei, luați în considerare un exemplu. Salariul mediu în țară este de aproximativ 25 de mii de ruble. De unde această cifră? Cel mai probabil, toate salariile sunt adunate și împărțite la numărul de angajați. În acest caz, există o dispersie foarte mare (salariul minim este de aproximativ 4 mii de ruble, iar maximul este de aproximativ 100 de mii de ruble). Dacă salariul fiecăruia ar fi același, atunci varianța ar fi zero și nu ar exista niciun spread.

Dispersia unei variabile aleatoare discreteX este așteptarea matematică a diferenței pătrate a unei variabile aleatoare și așteptarea ei matematică:

D = M [ ((X - M (X)) 2 ]

Folosind definiția așteptării matematice pentru a calcula varianța, obținem formula:

D = S (x i - M (X)) 2 p i

Varianta are dimensiunea pătratului variabilei aleatoare. În cazurile în care este necesar să existe o caracteristică numerică a dispersiei valorilor posibile în aceeași dimensiune cu variabila aleatoare în sine, se folosește abaterea standard.

Deviație standard o variabilă aleatoare se numește rădăcina pătrată a varianței sale.

Abaterea standard este o măsură a dispersiei valorilor unei variabile aleatorii în jurul așteptărilor sale matematice.

Exemplu.

Legea distribuției variabilei aleatoare X este dată de următorul tabel:

Găsiți așteptările sale matematice, varianța și abaterea standard .

Folosim formulele de mai sus:

M (X) = 1 0,1 + 2 0,4 + 4 0,4 ​​+ 5 0,1 = 3

D = (1-3) 2 0,1 + (2 - 3) 2 0,4 + (4 - 3) 2 0,4 + (5 - 3) 2 0,1 = 1,6

Exemplu.

Într-o loterie cu numerar, 1 câștig de 1000 de ruble, 10 câștiguri de 100 de ruble și 100 de câștiguri de 1 rublă fiecare sunt jucate cu un număr total de bilete de 10 000. Creați o lege de distribuire pentru câștigul aleator X pentru proprietarul unei loterie ticket și determinați așteptarea matematică, dispersia și abaterea standard a variabilei aleatoare .

X 1 = 1000, X 2 = 100, X 3 = 1, X 4 = 0,

P1 = 1/10000 = 0,0001, P2 = 10/10000 = 0,001, P3 = 100/10000 = 0,01, P4 = 1 - (P1 + P2 + P3) = 0,9889.

Să punem rezultatele în tabel:

Așteptările matematice sunt suma produselor pereche ale valorii unei variabile aleatorii și probabilitatea acesteia. Pentru această sarcină, este recomandabil să o calculați folosind formula

1000 · 0,0001 + 100 · 0,001 + 1 · 0,01 + 0 · 0,9889 = 0,21 ruble.

Am primit un preț de bilet adevărat „corect”.

D = S (x i - M (X)) 2 p i = (1000 - 0,21) 2 0,0001 + (100 - 0,21) 2 0,001 +

+ (1 - 0,21) 2 0,01 + (0 - 0,21) 2 0,9889 ≈ 109,97

Funcția de distribuție a variabilelor aleatoare continue

O valoare care, în urma unui test, va lua o valoare posibilă (care nu este cunoscută în prealabil) se numește variabilă aleatoare. După cum sa menționat mai sus, variabilele aleatoare pot fi discrete (discontinue) și continue.

Discreta este o variabilă aleatorie care ia valori posibile separate cu anumite probabilități care pot fi numerotate.

Continuă este o variabilă aleatoare care poate lua toate valorile dintr-un interval finit sau infinit.

Până în acest moment, am fost limitați la un singur „tip” de variabile aleatoare - discrete, de exemplu. luând valori finite.

Dar teoria și practica statisticii necesită utilizarea conceptului de variabilă aleatoare continuă - permițând orice valori numerice din orice interval.

Este convenabil să se definească legea de distribuție a unei variabile aleatoare continue folosind așa-numita funcție de densitate de probabilitate. f(x). Probabilitatea P (a< X < b) того, что значение, принятое случайной величиной Х, попадет в промежуток (a; b), определяется равенством

P(a< X < b) = ∫ f(X) dx

Graficul funcției f (x) se numește curbă de distribuție. Din punct de vedere geometric, probabilitatea ca o variabilă aleatorie să cadă în intervalul (a; b) este egală cu aria trapezului curbiliniu corespunzător mărginită de curba de distribuție, axa Ox și liniile drepte x = a, x = b.

P(a £ X

Dacă dintr-un eveniment complex se scade o mulțime finită sau numărabilă, probabilitatea apariției unui nou eveniment rămâne neschimbată.

Funcția f(x) - o funcție scalară numerică a argumentului real x se numește densitate de probabilitate și există într-un punct x dacă există o limită în acest punct:

Proprietățile densității de probabilitate:

  1. Densitatea de probabilitate este o funcție nenegativă, adică f(x) ≥ 0

(dacă toate valorile variabilei aleatoare X sunt conținute în intervalul (a;b), atunci ultima

egalitatea poate fi scrisă ca ∫ f (x) dx = 1).

Să considerăm acum funcția F(x) = P(X< х). Эта функция называется функцией распределения вероятности случайной величины Х. Функция F(х) существует как для дискретных, так и для непрерывных случайных величин. Если f (x) - функция плотности распределения вероятности

variabilă aleatoare continuă X, atunci F (x) = ∫ f(x) dx = 1).

Din ultima egalitate rezultă că f (x) = F" (x)

Uneori funcția f(x) este numită funcție de distribuție a probabilității diferențiale, iar funcția F(x) este numită funcție de distribuție a probabilității cumulative.

Să notăm cele mai importante proprietăți ale funcției de distribuție a probabilității:

  1. F(x) este o funcție nedescrescătoare.
  2. F (- ∞) = 0.
  3. F (+ ∞) = 1.

Conceptul de funcție de distribuție este esențial pentru teoria probabilității. Folosind acest concept, putem da o altă definiție a unei variabile aleatoare continue. O variabilă aleatoare se numește continuă dacă funcția sa de distribuție cumulată F(x) este continuă.

Caracteristicile numerice ale variabilelor aleatoare continue

Așteptările matematice, dispersia și alți parametri ai oricăror variabile aleatoare sunt aproape întotdeauna calculate folosind formule care decurg din legea distribuției.

Pentru o variabilă aleatoare continuă, așteptarea matematică este calculată folosind formula:

M(X) = ∫ x f(X) dx

Dispersie:

D (X) = ∫ ( X- M (X)) 2 f(X) dx sau D(X) = ∫ X 2 f(X) dx - (M (X)) 2

2. Regresia liniară

Fie componentele X și Y ale unei variabile aleatoare bidimensionale (X, Y) să fie dependente. Vom presupune că unul dintre ele poate fi reprezentat aproximativ ca o funcție liniară a celuilalt, de exemplu

Y ≈ g(Х) = α + βХ și determinăm parametrii α și β folosind metoda celor mai mici pătrate.

Definiție. Se numește funcția g(Х) = α + βХ cea mai bună aproximare Y în sensul metodei celor mai mici pătrate, dacă așteptarea matematică M(Y - g(X)) 2 ia cea mai mică valoare posibilă; se numeste functia g(X). regresie pătrată medie De la Y la X.

Teorema Regresia pătratică medie liniară a lui Y pe X are forma:

unde este coeficientul de corelație al lui X și Y.

Coeficienții ecuației.

Se poate verifica că pentru aceste valori funcția F(α, β)

F(α, β ) = M(Y - a - βX)² are un minim, ceea ce demonstrează teorema.

Definiție. Se numeste coeficientul coeficientul de regresie Y pe X, iar linia dreaptă - - regresia pătratică medie directă a lui Y pe X.

Înlocuind coordonatele punctului staționar în egalitate, putem găsi valoarea minimă a funcției F(α, β), egală cu Această mărime se numește varianta reziduala Y relativ la X și caracterizează cantitatea de eroare permisă la înlocuirea lui Y cu

g(X) = α+βX. Când varianța reziduală este egală cu 0, adică egalitatea nu este aproximativă, ci exactă. Prin urmare, la Y și X sunt legate printr-o dependență funcțională liniară. În mod similar, puteți obține o regresie pătratică medie directă a lui X pe Y:

iar varianța reziduală a lui X în raport cu Y. La ambele regresii directe coincid. Comparând ecuațiile de regresie Y pe X și X pe Y și rezolvând sistemul de ecuații, puteți găsi punctul de intersecție al dreptelor de regresie - un punct cu coordonate (m x, m y), numit centrul distribuției comune a valorilor X și Y.

Vom lua în considerare algoritmul de alcătuire a ecuațiilor de regresie din manualul lui V. E. Gmurman „Teoria probabilității și statistica matematică” p. 256.

1) Întocmește un tabel de calcul în care se vor înregistra numărul de elemente de probă, opțiunile de eșantionare, pătratele și produsul acestora.

2) Calculați suma pentru toate coloanele, cu excepția numărului.

3) Calculați valorile medii pentru fiecare valoare, varianță și abateri standard.

5) Testați ipoteza despre existența unei legături între X și Y.

6) Creați ecuații pentru ambele linii de regresie și desenați grafice ale acestor ecuații.

Panta dreptei de regresie Y pe X este coeficientul de regresie al probei

Coeficientul b=

Obținem ecuația necesară pentru dreapta de regresie a lui Y pe X:

Y = 0,202 X + 1,024

Ecuația de regresie pentru X pe Y este similară:

Panta dreptei de regresie Y pe X este coeficientul de regresie al eșantionului pxy:

Coeficientul b=

X = 4,119U - 3,714

3. Regresie neliniară

Dacă există relații neliniare între fenomenele economice, atunci acestea sunt exprimate folosind funcțiile neliniare corespunzătoare.

Există două clase de regresii neliniare:

1. Regresii care sunt neliniare în raport cu variabilele explicative incluse în analiză, dar liniare în raport cu parametrii estimați, de exemplu:

Polinoame de diferite grade

Hiperbola echilaterală - ;

Funcția semilogaritmică - .

2. Regresii care sunt neliniare în ceea ce privește parametrii estimați, de exemplu:

Putere -;

Demonstrativ - ;

Exponenţial - .

Regresiile care sunt neliniare în raport cu variabilele incluse sunt aduse într-o formă liniară prin simpla înlocuire a variabilelor, iar estimarea ulterioară a parametrilor este efectuată folosind metoda celor mai mici pătrate. Să ne uităm la câteva caracteristici.

O parabolă de gradul doi este redusă la formă liniară folosind înlocuirea: . Ca rezultat, ajungem la o ecuație cu doi factori, a cărei estimare a parametrilor folosind metoda celor mai mici pătrate duce la un sistem de ecuații:

O parabolă de gradul doi este utilizată de obicei în cazurile în care, pentru un anumit interval de valori ale factorilor, natura legăturii dintre caracteristicile luate în considerare se modifică: legătura directă se schimbă în inversă sau inversă în directă.

O hiperbolă echilaterală poate fi utilizată pentru a caracteriza relația dintre costurile specifice ale materiilor prime, materialelor, combustibilului și volumul producției, timpul de circulație a mărfurilor și volumul cifrei de afaceri. Exemplul său clasic este curba Phillips, care caracterizează relația neliniară dintre rata șomajului Xși procentul de creștere a salariilor y.

Hiperbola se reduce la o ecuație liniară printr-o substituție simplă: . De asemenea, puteți utiliza metoda celor mai mici pătrate pentru a construi un sistem de ecuații liniare.

În mod similar, dependențele sunt reduse la o formă liniară: , și altele.

O hiperbolă echilaterală și o curbă semilogaritmică sunt folosite pentru a descrie curba Engel (o descriere matematică a relației dintre ponderea cheltuielilor pentru bunuri de folosință îndelungată și cheltuielile totale (sau veniturile)). Ecuațiile în care acestea intră sunt utilizate în studiile de productivitate și intensitate a forței de muncă a producției agricole.

4. Regresie multiplă

Regresia multiplă este o ecuație de relație cu mai multe variabile independente:

unde este variabila dependentă (atribut rezultat);

Variabile independente (factori).

Pentru a construi o ecuație de regresie multiplă, se folosesc cel mai des următoarele funcții:

liniar -

putere -

exponent -

hiperbolă - .

Puteți utiliza alte funcții care pot fi reduse la formă liniară.

Pentru a estima parametrii ecuației de regresie multiplă, se utilizează metoda celor mai mici pătrate (OLS). Pentru ecuațiile liniare și ecuațiile neliniare reductibile la cele liniare se construiește următorul sistem de ecuații normale, a cărui soluție ne permite să obținem estimări ale parametrilor de regresie:

Pentru a o rezolva, se poate folosi metoda determinanților:

unde este determinantul sistemului;

Calificative speciale; care se obțin prin înlocuirea coloanei corespunzătoare a matricei determinanților sistemului cu datele din partea stângă a sistemului.

Un alt tip de ecuație de regresie multiplă este o ecuație de regresie pe o scară standardizată; OLS este aplicată unei ecuații de regresie multiplă pe o scară standardizată.

5.UtilizareDOMNIȘOARĂEXCELApentru a efectua o analiză de regresie

Analiza de regresie stabilește formele de dependență dintre variabila aleatoare Y (dependentă) și valorile uneia sau mai multor mărimi variabile (independente), iar valorile acestora din urmă sunt considerate a fi precizate cu precizie. O astfel de dependență este de obicei determinată de un model matematic (ecuație de regresie) care conține câțiva parametri necunoscuți. În timpul analizei de regresie, pe baza datelor din eșantion, se găsesc estimări ale acestor parametri, se determină erori statistice în estimări sau limite ale intervalelor de încredere și se verifică conformitatea (adecvarea) modelului matematic adoptat cu datele experimentale.

În analiza de regresie liniară, se presupune că relația dintre variabilele aleatoare este liniară. În cel mai simplu caz, într-un model de regresie liniară pereche există două variabile X și Y. Și este necesar să se construiască (potrivirea) o dreaptă folosind n perechi de observații (X1, Y1), (X2, Y2), .. ., (Xn, Yn), numită linia de regresie care „cel mai bine” aproximează valorile observate. Ecuația acestei drepte y=ax+b este o ecuație de regresie. Folosind o ecuație de regresie, puteți prezice valoarea așteptată a variabilei dependente y corespunzătoare unei valori date a variabilei independente x. În cazul în care se consideră dependența dintre o variabilă dependentă Y și mai multe variabile independente X1, X2, ..., Xm, vorbim de regresie liniară multiplă.

În acest caz, ecuația de regresie are forma

y = a 0 +a 1 x 1 +a 2 x 2 +…+a m x m ,

unde a0, a1, a2, …, am sunt coeficienți de regresie care necesită determinare.

Coeficienții ecuației de regresie se determină prin metoda celor mai mici pătrate, realizând suma minimă posibilă a diferențelor pătrate dintre valorile reale ale variabilei Y și cele calculate din ecuația de regresie. Astfel, de exemplu, o ecuație de regresie liniară poate fi construită chiar și în cazul în care nu există o corelație liniară.

O măsură a eficacității unui model de regresie este coeficientul de determinare R2 (R-pătrat). Coeficientul de determinare poate lua valori între 0 și 1; determină gradul de precizie cu care ecuația de regresie rezultată descrie (aproximează) datele originale. Semnificația modelului de regresie este de asemenea examinată folosind testul F (Fisher), iar fiabilitatea diferenței dintre coeficienții a0, a1, a2, ..., am și zero este verificată cu ajutorul testului t Student.

În Excel, datele experimentale sunt aproximate printr-o ecuație liniară până la ordinul al 16-lea:

y = a0+a1x1+a2x2+…+a16x16

Pentru a obține coeficienți de regresie liniară, se poate folosi procedura „Regresiune” din pachetul de analiză. De asemenea, informații complete despre ecuația de regresie liniară sunt furnizate de funcția LINEST. În plus, funcțiile SLOPE și INTERCEPT pot fi folosite pentru a obține parametrii ecuației de regresie, iar funcțiile TREND și FORECAST pot fi folosite pentru a obține valorile Y prezise la punctele dorite (pentru regresia perechi).

Să luăm în considerare în detaliu utilizarea funcției LINEST (cunoscut_y, [cunoscut_x], [constant], [statistici]): cunoscut_y - intervalul de valori cunoscute ale parametrului dependent Y. În analiza de regresie pereche poate avea orice formă; la plural trebuie să fie un rând sau o coloană; know_x - interval de valori cunoscute ale unuia sau mai multor parametri independenți. Trebuie să aibă aceeași formă ca și intervalul Y (pentru mai mulți parametri - mai multe coloane sau, respectiv, rânduri); constanta este un argument logic. Dacă, pe baza semnificației practice a problemei de analiză a regresiei, este necesar ca dreapta de regresie să treacă prin origine, adică coeficientul liber este egal cu 0, valoarea acestui argument trebuie stabilită egală cu 0 (sau „ fals"). Dacă valoarea este setată la 1 (sau adevărată) sau este omisă, atunci coeficientul liber este calculat în mod obișnuit; statisticile sunt un argument logic. Dacă valoarea este setată la 1 (sau „adevărat”), atunci statisticile de regresie sunt returnate suplimentar (vezi tabelul) utilizate pentru a evalua eficacitatea și semnificația modelului. În general, pentru regresia perechilor y=ax+b, rezultatul aplicării funcției LINEST are forma:

Masa. Domeniul de ieșire al funcției LINEST pentru analiza regresiei pe perechi

În cazul analizei de regresie multiplă pentru ecuația y=a0+a1x1+a2x2+…+amxm, prima linie afișează coeficienții am,…,a1,a0, iar pe a doua linie sunt afișate erorile standard pentru acești coeficienți. Rândurile 3-5, excluzând primele două coloane completate cu statistici de regresie, vor returna #N/A.

Funcția LINEST trebuie introdusă ca formulă matrice, mai întâi selectând o matrice de dimensiunea necesară pentru rezultat (m+1 coloane și 5 rânduri dacă sunt necesare statistici de regresie) și completând introducerea formulei apăsând CTRL+SHIFT+ENTER .

Rezultat pentru exemplul nostru:

În plus, programul are o funcție încorporată - Analiza datelor în fila Date.

Poate fi folosit și pentru a efectua analize de regresie:

Slide-ul arată rezultatul analizei de regresie efectuată folosind Analiza datelor.

CONCLUZIA REZULTATELOR

Statistici de regresie

Plural R

R-pătrat

R-pătrat normalizat

Eroare standard

Observatii

Analiza variatiei

Semnificația F

Regresia

Cote

Eroare standard

t-statistică

Valoarea P

De jos 95%

Top 95%

De jos 95,0%

Top 95,0%

Intersecția în Y

Variabila X 1

Ecuațiile de regresie pe care le-am analizat mai devreme au fost, de asemenea, construite în MS Excel. Pentru a le realiza, mai întâi construiți o diagramă de dispersie, apoi selectați din meniul contextual - Adăugați linie de tendință. În fereastra nouă, bifați caseta - Afișați ecuația pe diagramă și plasați valoarea de fiabilitate a aproximării (R^2) pe diagramă.

Literatură:

  1. Teoria Probabilității și Statistica Matematică. Gmurman V. E. Manual pentru universităţi. - Ed. al 10-lea, șters. - M.: Mai sus. şcoală, 2010. - 479 p.
  2. Matematică superioară în exerciții și probleme. Manual pentru universități / Danko P. E., Popov A. G., Kozhevnikova T. Ya., Danko S. P. În 2 ore - Ed. a 6-a, șters. - M.: Editura Onyx SRL: Editura Mir and Education SRL, 2007. - 416 p.
    1. 3. http://www.machinelearning.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8 %D1%8F - câteva informații despre analiza de regresie

În timpul studiilor, studenții întâlnesc foarte des o varietate de ecuații. Una dintre ele - ecuația de regresie - este discutată în acest articol. Acest tip de ecuație este utilizat în mod specific pentru a descrie caracteristicile relației dintre parametrii matematici. Acest tip de egalitate este folosit în statistică și econometrie.

Definiţia regresion

În matematică, regresia înseamnă o anumită cantitate care descrie dependența valorii medii a unui set de date de valorile unei alte mărimi. Ecuația de regresie arată, în funcție de o anumită caracteristică, valoarea medie a unei alte caracteristici. Funcția de regresie are forma unei ecuații simple y = x, în care y acționează ca o variabilă dependentă, iar x ca o variabilă independentă (factor-trăsătură). De fapt, regresia este exprimată ca y = f (x).

Care sunt tipurile de relații dintre variabile?

În general, există două tipuri opuse de relații: corelație și regresie.

Prima se caracterizează prin egalitatea variabilelor condiționale. În acest caz, nu se știe în mod fiabil care variabilă depinde de cealaltă.

Dacă nu există egalitate între variabile și condițiile spun care variabilă este explicativă și care este dependentă, atunci putem vorbi despre prezența unei conexiuni de al doilea tip. Pentru a construi o ecuație de regresie liniară va fi necesar să aflăm ce tip de relație se observă.

Tipuri de regresii

Astăzi, există 7 tipuri diferite de regresie: hiperbolic, liniar, multiplu, neliniar, perechi, invers, liniar logaritmic.

Hiperbolice, liniară și logaritmică

Ecuația de regresie liniară este utilizată în statistică pentru a explica în mod clar parametrii ecuației. Se pare că y = c+t*x+E. O ecuație hiperbolică are forma unei hiperbole regulate y = c + m / x + E. O ecuație liniară logaritmică exprimă relația folosind o funcție logaritmică: In y = In c + m * In x + In E.

Multiplu și neliniar

Cele două tipuri mai complexe de regresie sunt multiple și neliniare. Ecuația de regresie multiplă este exprimată prin funcția y = f(x 1, x 2 ... x c) + E. În această situație, y acționează ca o variabilă dependentă, iar x acționează ca o variabilă explicativă. Variabila E este stocastică; include influența altor factori în ecuație. Ecuația de regresie neliniară este puțin controversată. Pe de o parte, în raport cu indicatorii luați în considerare, nu este liniară, dar pe de altă parte, în rolul de evaluare a indicatorilor, este liniară.

Tipuri inverse și perechi de regresii

O inversă este un tip de funcție care trebuie convertită într-o formă liniară. În cele mai tradiționale programe de aplicație, are forma unei funcții y = 1/c + m*x+E. O ecuație de regresie perechi arată relația dintre date în funcție de y = f (x) + E. La fel ca în alte ecuații, y depinde de x, iar E este un parametru stocastic.

Conceptul de corelare

Acesta este un indicator care demonstrează existența unei relații între două fenomene sau procese. Puterea relației este exprimată ca un coeficient de corelație. Valoarea sa fluctuează în intervalul [-1;+1]. Un indicator negativ indică prezența feedback-ului, un indicator pozitiv indică feedback direct. Dacă coeficientul ia o valoare egală cu 0, atunci nu există nicio relație. Cu cât valoarea este mai aproape de 1, cu atât este mai puternică relația dintre parametri; cu cât este mai aproape de 0, cu atât este mai slabă.

Metode

Metodele parametrice de corelare pot evalua puterea relației. Ele sunt utilizate pe baza estimării distribuției pentru a studia parametrii care se supun legii distribuției normale.

Parametrii ecuației de regresie liniară sunt necesari pentru a identifica tipul de dependență, funcția ecuației de regresie și pentru a evalua indicatorii formulei de relație selectate. Câmpul de corelare este utilizat ca metodă de identificare a conexiunii. Pentru a face acest lucru, toate datele existente trebuie să fie reprezentate grafic. Toate datele cunoscute trebuie reprezentate într-un sistem de coordonate dreptunghiular bidimensional. Așa se formează un câmp de corelație. Valorile factorului de descriere sunt marcate de-a lungul axei absciselor, în timp ce valorile factorului dependent sunt marcate de-a lungul axei ordonatelor. Dacă există o relație funcțională între parametri, aceștia sunt aliniați sub forma unei linii.

Dacă coeficientul de corelație al unor astfel de date este mai mic de 30%, putem vorbi de o absență aproape completă a conexiunii. Dacă este între 30% și 70%, atunci aceasta indică prezența unor conexiuni mediu-strânse. Un indicator 100% este dovada unei conexiuni funcționale.

O ecuație de regresie neliniară, la fel ca una liniară, trebuie completată cu un indice de corelație (R).

Corelație pentru regresia multiplă

Coeficientul de determinare este un indicator al pătratului corelației multiple. El vorbește despre relația strânsă a setului de indicatori prezentat cu caracteristica studiată. Se poate vorbi și despre natura influenței parametrilor asupra rezultatului. Ecuația de regresie multiplă este estimată folosind acest indicator.

Pentru a calcula indicatorul de corelație multiplă este necesar să se calculeze indicele acestuia.

Metoda celor mai mici pătrate

Această metodă este o modalitate de a estima factorii de regresie. Esența sa este de a minimiza suma abaterilor pătrate obținute ca urmare a dependenței factorului de funcție.

O ecuație de regresie liniară pe perechi poate fi estimată folosind o astfel de metodă. Acest tip de ecuații este utilizat atunci când este detectată o relație liniară pereche între indicatori.

Parametrii ecuației

Fiecare parametru al funcției de regresie liniară are o semnificație specifică. Ecuația de regresie liniară pereche conține doi parametri: c și m. Parametrul m demonstrează modificarea medie a indicatorului final al funcției y, cu condiția ca variabila x să descrește (crește) cu o unitate convențională. Dacă variabila x este zero, atunci funcția este egală cu parametrul c. Dacă variabila x nu este zero, atunci factorul c nu are sens economic. Singura influență asupra funcției este semnul din fața factorului c. Dacă există un minus, atunci putem spune că schimbarea rezultatului este lentă în comparație cu factorul. Dacă există un plus, atunci acesta indică o schimbare accelerată a rezultatului.

Fiecare parametru care modifică valoarea ecuației de regresie poate fi exprimat printr-o ecuație. De exemplu, factorul c are forma c = y - mx.

Date grupate

Există condiții de sarcină în care toate informațiile sunt grupate după atributul x, dar pentru un anumit grup sunt indicate valorile medii corespunzătoare ale indicatorului dependent. În acest caz, valorile medii caracterizează modul în care se modifică indicatorul în funcție de x. Astfel, informațiile grupate ajută la găsirea ecuației de regresie. Este folosit ca o analiză a relațiilor. Cu toate acestea, această metodă are dezavantajele sale. Din păcate, indicatorii medii sunt adesea supuși fluctuațiilor externe. Aceste fluctuații nu reflectă modelul relației, ci doar maschează „zgomotul” acesteia. Mediile arată modele de relație mult mai proaste decât o ecuație de regresie liniară. Cu toate acestea, ele pot fi folosite ca bază pentru găsirea unei ecuații. Înmulțind numărul unei populații individuale cu media corespunzătoare, se poate obține suma y în cadrul grupului. Apoi, trebuie să însumați toate sumele primite și să găsiți indicatorul final y. Este puțin mai dificil să faci calcule cu indicatorul de sumă xy. Dacă intervalele sunt mici, putem considera condițional indicatorul x pentru toate unitățile (din cadrul grupului) ca fiind același. Ar trebui să o înmulțiți cu suma lui y pentru a afla suma produselor lui x și y. Apoi, se adună toate cantitățile și se obține cantitatea totală xy.

Ecuație de regresie perechi multiple: evaluarea importanței unei relații

După cum sa discutat mai devreme, regresia multiplă are o funcție de forma y = f (x 1,x 2,…,x m)+E. Cel mai adesea, o astfel de ecuație este utilizată pentru a rezolva problema cererii și ofertei pentru un produs, a veniturilor din dobânzi la acțiunile răscumpărate și pentru a studia cauzele și tipul funcției de cost de producție. De asemenea, este utilizată în mod activ într-o mare varietate de studii și calcule macroeconomice, dar la nivel de microeconomie această ecuație este folosită puțin mai rar.

Sarcina principală a regresiei multiple este de a construi un model de date care să conțină o cantitate imensă de informații pentru a determina în continuare ce influență are fiecare dintre factorii individual și în totalitatea lor asupra indicatorului care trebuie modelat și a coeficienților acestuia. Ecuația de regresie poate lua o mare varietate de valori. În acest caz, pentru a evalua relația, se folosesc de obicei două tipuri de funcții: liniare și neliniare.

Funcția liniară este reprezentată sub forma următoarei relații: y = a 0 + a 1 x 1 + a 2 x 2,+ ... + a m x m. În acest caz, a2, a m sunt considerați coeficienți de regresie „puri”. Sunt necesare pentru a caracteriza modificarea medie a parametrului y cu o modificare (scădere sau creștere) a fiecărui parametru x corespunzător cu o unitate, cu condiția valorilor stabile ale altor indicatori.

Ecuațiile neliniare au, de exemplu, forma unei funcții de putere y=ax 1 b1 x 2 b2 ...x m bm. În acest caz, indicatorii b 1, b 2 ..... b m se numesc coeficienți de elasticitate, ei demonstrează modul în care rezultatul se va schimba (cu cât %) cu o creștere (scădere) a indicatorului corespunzător x cu 1% și cu un indicator stabil al altor factori.

Ce factori trebuie să fie luați în considerare la construirea regresiei multiple

Pentru a construi corect regresia multiplă, este necesar să aflăm căror factori ar trebui să li se acorde o atenție deosebită.

Este necesar să avem o anumită înțelegere a naturii relațiilor dintre factorii economici și ceea ce este modelat. Factorii care vor trebui incluși trebuie să îndeplinească următoarele criterii:

  • Trebuie să fie supus măsurării cantitative. Pentru a utiliza un factor care descrie calitatea unui obiect, în orice caz ar trebui să i se dea o formă cantitativă.
  • Nu ar trebui să existe intercorelații de factori sau relații funcționale. Astfel de acțiuni conduc cel mai adesea la consecințe ireversibile - sistemul de ecuații obișnuite devine necondiționat, iar acest lucru implică nefiabilitatea și estimările sale neclare.
  • În cazul unui indicator de corelație uriaș, nu există nicio modalitate de a afla influența izolată a factorilor asupra rezultatului final al indicatorului, prin urmare, coeficienții devin neinterpretabili.

Metode de construcție

Există un număr mare de metode și metode care explică modul în care puteți selecta factorii pentru o ecuație. Cu toate acestea, toate aceste metode se bazează pe selecția coeficienților folosind un indicator de corelație. Printre acestea se numără:

  • Metoda de eliminare.
  • Metoda de comutare.
  • Analiza de regresie în trepte.

Prima metodă implică filtrarea tuturor coeficienților din setul total. A doua metodă presupune introducerea multor factori suplimentari. Ei bine, a treia este eliminarea factorilor care au fost utilizați anterior pentru ecuație. Fiecare dintre aceste metode are dreptul de a exista. Au avantajele și dezavantajele lor, dar toți pot rezolva problema eliminării indicatorilor inutile în felul lor. De regulă, rezultatele obținute prin fiecare metodă individuală sunt destul de apropiate.

Metode de analiză multivariată

Astfel de metode pentru determinarea factorilor se bazează pe luarea în considerare a combinațiilor individuale de caracteristici interdependente. Acestea includ analiza discriminantă, recunoașterea formei, analiza componentelor principale și analiza clusterului. În plus, există și analiza factorială, dar a apărut datorită dezvoltării metodei componentelor. Toate acestea se aplică în anumite circumstanțe, sub rezerva anumitor condiții și factori.