Analiza regresiei este o metodă de modelare a datelor măsurate și de studiere a proprietăților acestora. Datele constau din perechi de valori ale variabilei dependente (variabila răspuns) și ale variabilei independente (variabilă explicativă). Un model de regresie este o funcție a variabilei independente și a parametrilor cu o variabilă aleatoare adăugată.

Analiza corelației și analiza de regresie sunt secțiuni conexe ale statisticii matematice și au scopul de a studia dependența statistică a unui număr de mărimi folosind date eșantion; dintre care unele sunt aleatorii. Cu dependența statistică, cantitățile nu sunt legate funcțional, ci sunt definite ca variabile aleatoare printr-o distribuție de probabilitate comună.

Studiul dependenței variabilelor aleatoare conduce la modele de regresie și la analiza de regresie bazată pe date din eșantion. Teoria probabilității și statistica matematică reprezintă doar un instrument pentru studierea dependenței statistice, dar nu urmăresc stabilirea unei relații cauzale. Ideile și ipotezele despre o relație cauzală trebuie aduse dintr-o altă teorie care să permită o explicație semnificativă a fenomenului studiat.

Datele numerice au de obicei relații explicite (cunoscute) sau implicite (ascunse) între ele.

Indicatorii care sunt obținuți prin metode directe de calcul, adică calculați folosind formule cunoscute anterior, sunt în mod clar legați. De exemplu, procente de finalizare a planului, niveluri, ponderi specifice, abateri în cantitate, abateri în procente, rate de creștere, rate de creștere, indici etc.

Conexiunile de al doilea tip (implicite) sunt necunoscute în avans. Cu toate acestea, este necesar să putem explica și prezice (prognoza) fenomene complexe pentru a le gestiona. Prin urmare, specialiștii, cu ajutorul observațiilor, se străduiesc să identifice dependențe ascunse și să le exprime sub formă de formule, adică să modeleze matematic fenomene sau procese. O astfel de oportunitate este oferită de analiza corelației-regresiune.

Modelele matematice sunt construite și utilizate în trei scopuri generale:

  • * pentru explicații;
  • * pentru predicție;
  • * Pentru conducere.

Utilizarea metodelor de corelare analiza regresiei, analiștii măsoară gradul de apropiere a conexiunilor dintre indicatori folosind coeficientul de corelație. În acest caz, se descoperă conexiuni care sunt diferite ca forță (puternic, slab, moderat etc.) și diferite ca direcție (directă, inversă). Dacă conexiunile se dovedesc a fi semnificative, atunci ar fi indicat să găsiți expresia lor matematică sub forma unui model de regresie și să evaluați semnificația statistică a modelului.

Analiza regresiei este numită principala metodă a statisticii matematice moderne pentru identificarea conexiunilor implicite și voalate între datele observaționale.

Formularea problemei analizei regresiei este formulată după cum urmează.

Există un set de rezultate observaționale. În acest set, o coloană corespunde unui indicator pentru care este necesară stabilirea unei relații funcționale cu parametrii obiectului și mediului reprezentați de coloanele rămase. Obligatoriu: stabiliți o relație cantitativă între indicator și factori. În acest caz, problema analizei regresiei este înțeleasă ca sarcina identificării unei astfel de dependențe funcționale y = f (x2, x3, ..., xт), care descrie cel mai bine datele experimentale disponibile.

Ipoteze:

numărul de observații este suficient pentru a demonstra modelele statistice privind factorii și relațiile acestora;

datele prelucrate conțin unele erori (zgomot) datorate erorilor de măsurare și influenței unor factori aleatori necontabilizați;

matricea rezultatelor observației este singura informație despre obiectul studiat care este disponibilă înainte de începerea studiului.

Funcția f (x2, x3, ..., xт), care descrie dependența indicatorului de parametri, se numește ecuație (funcție) de regresie. Termenul „regresie” (regresie (lat.) - retragere, întoarcere la ceva) este asociat cu specificul unuia dintre sarcini specifice, decis în stadiul de dezvoltare a metodei.

Este recomandabil să împărțiți soluția la problema analizei regresiei în mai multe etape:

pre-prelucrare a datelor;

alegerea tipului de ecuații de regresie;

calculul coeficienților ecuației de regresie;

verificarea adecvării funcției construite la rezultatele observației.

Preprocesarea include standardizarea matricei de date, calcularea coeficienților de corelație, verificarea semnificației acestora și excluderea parametrilor nesemnificativi din luare în considerare.

Alegerea tipului de ecuație de regresie Sarcina de a determina relația funcțională care descrie cel mai bine datele presupune depășirea unui număr de dificultăți fundamentale. ÎN caz general pentru datele standardizate, dependența funcțională a indicatorului de parametri poate fi reprezentată ca

y = f (x1, x2, …, xm) + e

unde f este o funcție necunoscută anterior care trebuie determinată;

e - eroare de aproximare a datelor.

Această ecuație se numește de obicei ecuația de regresie a eșantionului. Această ecuație caracterizează relația dintre variația indicatorului și variațiile factorilor. Iar măsura de corelare măsoară proporția de variație a unui indicator care este asociată cu variația factorilor. Cu alte cuvinte, corelația dintre un indicator și factori nu poate fi interpretată ca o legătură între nivelurile acestora, iar analiza de regresie nu explică rolul factorilor în crearea unui indicator.

O altă caracteristică se referă la evaluarea gradului de influență a fiecărui factor asupra indicatorului. Ecuația de regresie nu oferă o evaluare a influenței separate a fiecărui factor asupra indicatorului; o astfel de evaluare este posibilă numai în cazul în care toți ceilalți factori nu sunt legați de cel studiat. Dacă factorul studiat este legat de alții care influențează indicatorul, atunci rezultatul va fi caracteristici mixte influența factorilor. Această caracteristică conține atât influența directă a factorului, cât și influența indirectă exercitată prin legătura cu alți factori și influența acestora asupra indicatorului.

Nu se recomandă includerea factorilor care sunt slab legați de indicator, dar sunt strâns legați de alți factori, în ecuația de regresie. Factorii care sunt legați funcțional între ei nu sunt incluși în ecuație (pentru aceștia coeficientul de corelație este 1). Includerea unor astfel de factori conduce la degenerarea sistemului de ecuații pentru estimarea coeficienților de regresie și la incertitudinea soluției.

Funcția f trebuie selectată astfel încât eroarea e să fie într-un anumit sens minimă. Pentru a selecta o conexiune funcțională, este înaintată în prealabil o ipoteză despre carei clase îi poate aparține funcția f și apoi este selectată funcția „cea mai bună” din această clasă. Clasa selectată de funcții trebuie să aibă o oarecare „netezime”, adică Modificările „mici” ale valorilor argumentului ar trebui să provoace modificări „mici” ale valorilor funcției.

Un caz special utilizat pe scară largă în practică este o ecuație de regresie liniară sau polinomială de gradul întâi

Pentru a selecta tipul de dependență funcțională, se poate recomanda următoarea abordare:

punctele cu valori indicatoare sunt afișate grafic în spațiul parametrilor. La cantitati mari parametri, puteți construi puncte în raport cu fiecare dintre aceștia, obținând distribuții bidimensionale de valori;

pe baza amplasării punctelor și pe baza unei analize a esenței relației dintre indicator și parametrii obiectului, se face o concluzie despre tipul aproximativ de regresie sau posibilele sale opțiuni;

După calcularea parametrilor, se evaluează calitatea aproximării, adică. să evalueze gradul de similitudine dintre valorile calculate și cele reale;

dacă valorile calculate și reale sunt apropiate în întreaga zonă de activitate, atunci problema analizei de regresie poate fi considerată rezolvată. În caz contrar, puteți încerca să alegeți un alt tip de polinom sau o altă funcție analitică, cum ar fi una periodică.

Calcularea coeficienților ecuației de regresie

Este imposibil să se rezolve fără ambiguitate un sistem de ecuații pe baza datelor disponibile, deoarece numărul de necunoscute este întotdeauna mai mare decât numărul de ecuații. Pentru a depăși această problemă, sunt necesare ipoteze suplimentare. Bun simț sugerează: este recomandabil să alegeți coeficienții polinomului în așa fel încât să se asigure o eroare minimă în aproximarea datelor. Pentru a evalua erorile de aproximare pot fi utilizate diferite măsuri. Eroarea pătratică medie este utilizată pe scară largă ca atare măsură. Pe baza acesteia, a fost dezvoltată o metodă specială de estimare a coeficienților ecuațiilor de regresie - metoda cele mai mici pătrate(MNC). Această metodă vă permite să obțineți estimări de probabilitate maximă ale coeficienților necunoscuți ai ecuației de regresie în cadrul opțiunii de distribuție normală, dar poate fi utilizată pentru orice altă distribuție a factorilor.

MNC se bazează pe următoarele prevederi:

valorile erorilor și factorilor sunt independente și, prin urmare, necorelate, adică se presupune că mecanismele de generare a interferenței nu sunt legate de mecanismul de generare a valorilor factorilor;

valorea estimata eroarea e trebuie să fie egală cu zero (componenta constantă este inclusă în coeficientul a0), cu alte cuvinte, eroarea este o mărime centrată;

estimarea eșantionului a varianței erorii ar trebui să fie minimă.

Dacă model liniar este inexact sau parametrii sunt măsurați inexact, atunci în acest caz metoda celor mai mici pătrate ne permite să găsim astfel de valori ale coeficienților la care modelul liniar descrie cel mai bine obiectul real în sensul criteriului de abatere standard selectat.

Calitatea ecuației de regresie rezultată este evaluată prin gradul de apropiere dintre rezultatele observațiilor indicatorului și valorile prezise de ecuația de regresie din puncte date spatiul parametrilor. Dacă rezultatele sunt apropiate, atunci problema analizei regresiei poate fi considerată rezolvată. În caz contrar, ar trebui să modificați ecuația de regresie și să repetați calculele pentru a estima parametrii.

Dacă există mai mulți indicatori, problema analizei regresiei este rezolvată independent pentru fiecare dintre ei.

Analizând esența ecuației de regresie, trebuie remarcate următoarele puncte. Abordarea luată în considerare nu oferă o evaluare separată (independentă) a coeficienților - o modificare a valorii unui coeficient implică o modificare a valorilor altora. Coeficienții obținuți nu trebuie considerați ca contribuția parametrului corespunzător la valoarea indicatorului. O ecuație de regresie este doar o bună descriere analitică a datelor disponibile și nu o lege care descrie relația dintre parametri și un indicator. Această ecuație este utilizată pentru a calcula valorile indicatorului într-un interval dat de modificări ale parametrilor. Este de adecvare limitată pentru calcule în afara acestui interval, de ex. poate fi folosit pentru rezolvarea problemelor de interpolare și, într-o măsură limitată, pentru extrapolare.

Motivul principal al inexactității prognozei este nu atât incertitudinea extrapolării dreptei de regresie, cât mai degrabă variația semnificativă a indicatorului din cauza unor factori neluați în considerare în model. Limitarea capacității de prognoză este condiția de stabilitate a parametrilor neluați în considerare în model și natura influenței factorilor de model luați în considerare. Dacă se schimbă brusc Mediul extern, atunci ecuația de regresie compilată își va pierde sensul.

Prognoza obținută prin înlocuirea valorii așteptate a parametrului în ecuația de regresie este una punctuală. Probabilitatea ca o astfel de prognoză să fie realizată este neglijabilă. Este indicat să se determine interval de încredere prognoza. Pentru valorile individuale ale indicatorului, intervalul ar trebui să ia în considerare erorile în poziția liniei de regresie și abaterile valorilor individuale de la această linie.

Cursul 3.

Analiza de regresie.

1) Caracteristicile numerice ale regresiei

2) Regresia liniară

3) Regresia neliniară

4) Regresie multiplă

5) Utilizarea MS EXCEL pentru a efectua analiza de regresie

Instrument de control și evaluare - sarcini de testare

1. Caracteristicile numerice ale regresiei

Analiza de regresie - metoda statistica studii ale influenței uneia sau mai multor variabile independente asupra unei variabile dependente. Variabilele independente sunt denumite altfel regresori sau predictori, iar variabilele dependente sunt numite variabile criteriu. Terminologia variabilelor dependente și independente reflectă doar dependența matematică a variabilelor și nu relațiile cauză-efect.

Obiectivele analizei de regresie

  • Determinarea gradului de determinare a variației unei variabile criteriale (dependente) de către predictori (variabile independente).
  • Prezicerea valorii unei variabile dependente folosind variabilele independente.
  • Determinarea contribuției variabilelor independente individuale la variația variabilei dependente.

Analiza de regresie nu poate fi utilizată pentru a determina dacă există o relație între variabile, deoarece prezența unei astfel de relații este o condiție prealabilă pentru aplicarea analizei.

Pentru a efectua o analiză de regresie, trebuie mai întâi să vă familiarizați cu Noțiuni de bază statistica si teoria probabilitatii.

Caracteristicile numerice de bază ale variabilelor aleatoare discrete și continue: așteptarea matematică, dispersia și abaterea standard.

Variabilele aleatoare sunt împărțite în două tipuri:

  • · discret, care poate lua numai valori specifice, predeterminate (de exemplu, valorile numerelor de pe marginea superioară a unui aruncat zaruri sau valorile ordinale ale lunii curente);
  • · continuu (cel mai adesea - valorile unor marimi fizice: greutate, distanta, temperatura etc.), care, conform legilor naturii, poate lua orice valori, cel putin intr-un anumit interval.

Legea distribuției unei variabile aleatoare este corespondența dintre valorile posibile ale unei variabile aleatoare discrete și probabilitățile acesteia, de obicei scrise într-un tabel:

Definiția statistică a probabilității este exprimată prin frecvența relativă a unui eveniment aleatoriu, adică se găsește ca raport dintre numărul de variabile aleatoare și numărul total de variabile aleatoare.

Așteptările matematice ale unei variabile aleatoare discreteX se numește suma produselor valorilor unei cantități X asupra probabilităţii acestor valori. Aşteptarea matematică se notează cu sau M(X) .

n

= M(X) = X 1 p 1 + X 2 p 2 +… + x n p n = S x i p i

i=1

Dispersia unei variabile aleatoare în raport cu așteptările ei matematice este determinată folosind o caracteristică numerică numită dispersie. Mai simplu spus, varianța este răspândirea unei variabile aleatoare în jurul valorii medii. Pentru a înțelege esența dispersiei, luați în considerare un exemplu. In medie salariu la nivel național este de aproximativ 25 de mii de ruble. De unde această cifră? Cel mai probabil, toate salariile sunt adunate și împărțite la numărul de angajați. În acest caz, există o dispersie foarte mare (salariul minim este de aproximativ 4 mii de ruble, iar maximul este de aproximativ 100 de mii de ruble). Dacă salariul fiecăruia ar fi același, atunci varianța ar fi zero și nu ar exista niciun spread.

Dispersia unei variabile aleatoare discreteX este așteptarea matematică a diferenței pătrate a unei variabile aleatoare și așteptarea ei matematică:

D = M [ ((X - M (X)) 2 ]

Folosind definiția așteptării matematice pentru a calcula varianța, obținem formula:

D = S (x i - M (X)) 2 p i

Varianta are dimensiunea pătratului variabilei aleatoare. În cazurile în care trebuie să aveți caracteristica numericaîmprăștierea valorilor posibile în aceeași dimensiune în care variabila aleatoare în sine folosește media deviație standard.

Deviație standard o variabilă aleatoare se numește rădăcina pătrată a varianței sale.

Abaterea standard este o măsură a dispersiei valorilor unei variabile aleatorii în jurul așteptărilor sale matematice.

Exemplu.

Legea distribuției variabilei aleatoare X este dată de următorul tabel:

Găsiți așteptările sale matematice, varianța și abaterea standard .

Folosim formulele de mai sus:

M (X) = 1 0,1 + 2 0,4 + 4 0,4 ​​+ 5 0,1 = 3

D = (1-3) 2 0,1 + (2 - 3) 2 0,4 + (4 - 3) 2 0,4 + (5 - 3) 2 0,1 = 1,6

Exemplu.

La loteria cu numerar, se joacă 1 câștig de 1000 de ruble, 10 câștiguri de 100 de ruble fiecare și 100 de câștiguri de 1 rublă fiecare. numărul total 10.000 de bilete. Întocmește o lege de distribuție a câștigurilor aleatoare X pentru proprietarul unui bilet de loterie și determină așteptarea matematică, dispersia și abaterea standard a variabilei aleatoare.

X 1 = 1000, X 2 = 100, X 3 = 1, X 4 = 0,

P1 = 1/10000 = 0,0001, P2 = 10/10000 = 0,001, P3 = 100/10000 = 0,01, P4 = 1 - (P1 + P2 + P3) = 0,9889.

Să punem rezultatele în tabel:

Așteptările matematice sunt suma produselor pereche ale valorii unei variabile aleatorii și probabilitatea acesteia. Pentru această sarcină, este recomandabil să o calculați folosind formula

1000 · 0,0001 + 100 · 0,001 + 1 · 0,01 + 0 · 0,9889 = 0,21 ruble.

Am primit un preț de bilet adevărat „corect”.

D = S (x i - M (X)) 2 p i = (1000 - 0,21) 2 0,0001 + (100 - 0,21) 2 0,001 +

+ (1 - 0,21) 2 0,01 + (0 - 0,21) 2 0,9889 ≈ 109,97

Funcția de distribuție a variabilelor aleatoare continue

O valoare care, în urma unui test, va lua o valoare posibilă (care nu este cunoscută în prealabil) se numește variabilă aleatoare. După cum sa menționat mai sus, variabilele aleatoare pot fi discrete (discontinue) și continue.

Discreta este o variabilă aleatoare care ia separat una de cealaltă valori posibile cu anumite probabilităţi care pot fi numerotate.

Continuă este o variabilă aleatoare care poate lua toate valorile dintr-un interval finit sau infinit.

Până în acest moment, am fost limitați la un singur „tip” de variabile aleatoare - discrete, de exemplu. luând valori finite.

Dar teoria și practica statisticii necesită utilizarea conceptului de variabilă aleatoare continuă - permițând orice valori numerice, din orice interval.

Este convenabil să se definească legea de distribuție a unei variabile aleatoare continue folosind așa-numita funcție de densitate de probabilitate. f(x). Probabilitatea P (a< X < b) того, что значение, принятое случайной величиной Х, попадет в промежуток (a; b), определяется равенством

P(a< X < b) = ∫ f(X) dx

Graficul funcției f (x) se numește curbă de distribuție. Din punct de vedere geometric, probabilitatea ca o variabilă aleatorie să cadă în intervalul (a; b) este egală cu aria corespunzătoare trapez curbat, limitat de curba de distribuție, de axa Ox și de liniile drepte x = a, x = b.

P(a £ X

Dacă dintr-un eveniment complex se scade o mulțime finită sau numărabilă, probabilitatea apariției unui nou eveniment rămâne neschimbată.

Funcția f(x) - o funcție scalară numerică a argumentului real x se numește densitate de probabilitate și există într-un punct x dacă există o limită în acest punct:

Proprietățile densității de probabilitate:

  1. Densitatea de probabilitate este o funcție nenegativă, adică f(x) ≥ 0

(dacă toate valorile variabilei aleatoare X sunt conținute în intervalul (a;b), atunci ultima

egalitatea poate fi scrisă ca ∫ f (x) dx = 1).

Să considerăm acum funcția F(x) = P(X< х). Эта функция называется функцией распределения вероятности случайной величины Х. Функция F(х) существует как для дискретных, так и для непрерывных случайных величин. Если f (x) - функция плотности распределения вероятности

variabilă aleatoare continuă X, atunci F (x) = ∫ f(x) dx = 1).

Din ultima egalitate rezultă că f (x) = F" (x)

Uneori funcția f(x) este numită funcție de distribuție a probabilității diferențiale, iar funcția F(x) este numită funcție de distribuție a probabilității cumulative.

Să notăm cele mai importante proprietăți ale funcției de distribuție a probabilității:

  1. F(x) este o funcție nedescrescătoare.
  2. F (- ∞) = 0.
  3. F (+ ∞) = 1.

Conceptul de funcție de distribuție este esențial pentru teoria probabilității. Folosind acest concept, putem da o altă definiție a unei variabile aleatoare continue. O variabilă aleatoare se numește continuă dacă funcția sa de distribuție cumulată F(x) este continuă.

Caracteristicile numerice ale variabilelor aleatoare continue

Așteptările matematice, dispersia și alți parametri ai oricăror variabile aleatoare sunt aproape întotdeauna calculate folosind formule care decurg din legea distribuției.

Pentru o variabilă aleatoare continuă, așteptarea matematică este calculată folosind formula:

M(X) = ∫ x f(X) dx

Dispersie:

D (X) = ∫ ( X- M (X)) 2 f(X) dx sau D(X) = ∫ X 2 f(X) dx - (M (X)) 2

2. Regresia liniară

Fie componentele X și Y ale unei variabile aleatoare bidimensionale (X, Y) să fie dependente. Vom presupune că unul dintre ele poate fi reprezentat aproximativ ca o funcție liniară a celuilalt, de exemplu

Y ≈ g(Х) = α + βХ și determinăm parametrii α și β folosind metoda celor mai mici pătrate.

Definiție. Se numește funcția g(Х) = α + βХ cea mai bună aproximare Y în sensul metodei celor mai mici pătrate, dacă așteptarea matematică M(Y - g(X)) 2 ia cea mai mică valoare posibilă; se numeste functia g(X). regresie pătrată medie De la Y la X.

Teorema Regresia pătratică medie liniară a lui Y pe X are forma:

unde este coeficientul de corelație al lui X și Y.

Coeficienții ecuației.

Se poate verifica că pentru aceste valori funcția F(α, β)

F(α, β ) = M(Y - α - βX)² are un minim, ceea ce demonstrează teorema.

Definiție. Se numeste coeficientul coeficientul de regresie Y pe X, iar linia dreaptă - - regresia pătratică medie directă a lui Y pe X.

Înlocuind coordonatele punctului staționar în egalitate, putem găsi valoarea minimă a funcției F(α, β), egală cu Această mărime se numește varianta reziduala Y relativ la X și caracterizează cantitatea de eroare permisă la înlocuirea lui Y cu

g(X) = α+βX. Când varianța reziduală este egală cu 0, adică egalitatea nu este aproximativă, ci exactă. Prin urmare, la Y și X sunt legate printr-o dependență funcțională liniară. În mod similar, puteți obține o regresie pătratică medie directă a lui X pe Y:

iar varianța reziduală a lui X în raport cu Y. La ambele regresii directe coincid. Comparând ecuațiile de regresie Y pe X și X pe Y și rezolvând sistemul de ecuații, puteți găsi punctul de intersecție al dreptelor de regresie - un punct cu coordonate (m x, m y), numit centrul distribuției comune a valorilor X și Y.

Vom lua în considerare algoritmul de alcătuire a ecuațiilor de regresie din manualul lui V. E. Gmurman „Teoria probabilității și statistica matematică” p. 256.

1) Întocmește un tabel de calcul în care se vor înregistra numărul de elemente de probă, opțiunile de eșantionare, pătratele și produsul acestora.

2) Calculați suma pentru toate coloanele, cu excepția numărului.

3) Calculați valorile medii pentru fiecare valoare, varianță și abateri standard.

5) Testați ipoteza despre existența unei legături între X și Y.

6) Creați ecuații pentru ambele linii de regresie și desenați grafice ale acestor ecuații.

Panta dreptei de regresie Y pe X este coeficientul de regresie al probei

Coeficientul b=

Obținem ecuația necesară pentru dreapta de regresie a lui Y pe X:

Y = 0,202 X + 1,024

Ecuația de regresie pentru X pe Y este similară:

Panta dreptei de regresie Y pe X este coeficientul de regresie al eșantionului pxy:

Coeficientul b=

X = 4,119U - 3,714

3. Regresie neliniară

Dacă există relații neliniare între fenomenele economice, atunci acestea sunt exprimate folosind funcțiile neliniare corespunzătoare.

Există două clase de regresii neliniare:

1. Regresii care sunt neliniare în raport cu variabilele explicative incluse în analiză, dar liniare în raport cu parametrii estimați, de exemplu:

Polinoame de diferite grade

Hiperbola echilaterală - ;

Funcția semilogaritmică - .

2. Regresii care sunt neliniare în ceea ce privește parametrii estimați, de exemplu:

Putere -;

Demonstrativ - ;

Exponenţial - .

Regresiile care sunt neliniare în raport cu variabilele incluse sunt aduse într-o formă liniară prin simpla înlocuire a variabilelor, iar estimarea ulterioară a parametrilor este efectuată folosind metoda celor mai mici pătrate. Să ne uităm la câteva caracteristici.

O parabolă de gradul doi este redusă la formă liniară folosind înlocuirea: . Ca rezultat, ajungem la o ecuație cu doi factori, a cărei estimare a parametrilor folosind metoda celor mai mici pătrate duce la un sistem de ecuații:

O parabolă de gradul doi este utilizată de obicei în cazurile în care, pentru un anumit interval de valori ale factorilor, natura legăturii dintre caracteristicile luate în considerare se modifică: legătura directă se schimbă în inversă sau inversă în directă.

O hiperbolă echilaterală poate fi utilizată pentru a caracteriza relația dintre costurile specifice ale materiilor prime, materialelor, combustibilului și volumul producției, timpul de circulație a mărfurilor și volumul cifrei de afaceri. Exemplul său clasic este curba Phillips, care caracterizează relația neliniară dintre rata șomajului Xși procentul de creștere a salariilor y.

Hiperbola se reduce la o ecuație liniară printr-o substituție simplă: . De asemenea, puteți utiliza metoda celor mai mici pătrate pentru a construi un sistem de ecuații liniare.

În mod similar, dependențele sunt reduse la o formă liniară: , și altele.

O hiperbolă echilaterală și o curbă semilogaritmică sunt folosite pentru a descrie curba Engel (o descriere matematică a relației dintre ponderea cheltuielilor pentru bunuri de folosință îndelungată și cheltuielile totale (sau veniturile)). Ecuațiile în care acestea intră sunt utilizate în studiile de productivitate și intensitate a forței de muncă a producției agricole.

4. Regresie multiplă

Regresia multiplă este o ecuație de relație cu mai multe variabile independente:

unde este variabila dependentă (atribut rezultat);

Variabile independente (factori).

Pentru a construi o ecuație de regresie multiplă, se folosesc cel mai des următoarele funcții:

liniar -

putere -

exponent -

hiperbolă - .

Puteți utiliza alte funcții care pot fi reduse la formă liniară.

Pentru a estima parametrii ecuației de regresie multiplă, se utilizează metoda celor mai mici pătrate (OLS). Pentru ecuațiile liniare și ecuațiile neliniare reductibile la cele liniare se construiește următorul sistem de ecuații normale, a cărui soluție ne permite să obținem estimări ale parametrilor de regresie:

Pentru a o rezolva, se poate folosi metoda determinanților:

unde este determinantul sistemului;

Calificative speciale; care se obțin prin înlocuirea coloanei corespunzătoare a matricei determinanților sistemului cu datele din partea stângă a sistemului.

Un alt tip de ecuație de regresie multiplă este o ecuație de regresie pe o scară standardizată; OLS este aplicată unei ecuații de regresie multiplă pe o scară standardizată.

5.UtilizareDOMNIȘOARĂEXCELApentru a efectua o analiză de regresie

Analiza de regresie stabilește formele de dependență dintre variabila aleatoare Y (dependentă) și valorile uneia sau mai multor mărimi variabile (independente), iar valorile acestora din urmă sunt considerate a fi precizate cu precizie. O astfel de dependență este de obicei determinată de un model matematic (ecuație de regresie) care conține câțiva parametri necunoscuți. În timpul analizei de regresie, pe baza datelor din eșantion, se găsesc estimări ale acestor parametri, se determină erori statistice în estimări sau limite ale intervalelor de încredere și se verifică conformitatea (adecvarea) modelului matematic adoptat cu datele experimentale.

În analiza de regresie liniară, se presupune că relația dintre variabilele aleatoare este liniară. În cel mai simplu caz, într-un model de regresie liniară pereche există două variabile X și Y. Și este necesar să se construiască (potrivirea) o dreaptă folosind n perechi de observații (X1, Y1), (X2, Y2), .. ., (Xn, Yn), numită linia de regresie care „cel mai bine” aproximează valorile observate. Ecuația acestei drepte y=ax+b este o ecuație de regresie. Folosind o ecuație de regresie, puteți prezice valoarea așteptată a variabilei dependente y corespunzătoare unei valori date a variabilei independente x. În cazul în care se consideră dependența dintre o variabilă dependentă Y și mai multe variabile independente X1, X2, ..., Xm, vorbim de regresie liniară multiplă.

În acest caz, ecuația de regresie are forma

y = a 0 +a 1 x 1 +a 2 x 2 +…+a m x m ,

unde a0, a1, a2, …, am sunt coeficienți de regresie care necesită determinare.

Coeficienții ecuației de regresie se determină prin metoda celor mai mici pătrate, realizând suma minimă posibilă a diferențelor pătrate dintre valorile reale ale variabilei Y și cele calculate din ecuația de regresie. Astfel, de exemplu, o ecuație de regresie liniară poate fi construită chiar și în cazul în care nu există o corelație liniară.

O măsură a eficacității unui model de regresie este coeficientul de determinare R2 (R-pătrat). Coeficientul de determinare poate lua valori între 0 și 1; determină gradul de precizie cu care ecuația de regresie rezultată descrie (aproximează) datele originale. Semnificația modelului de regresie este de asemenea examinată folosind testul F (Fisher), iar fiabilitatea diferenței dintre coeficienții a0, a1, a2, ..., am și zero este verificată cu ajutorul testului t Student.

În Excel, datele experimentale sunt aproximate printr-o ecuație liniară până la ordinul al 16-lea:

y = a0+a1x1+a2x2+…+a16x16

Pentru a obține coeficienți de regresie liniară, se poate folosi procedura „Regresiune” din pachetul de analiză. De asemenea, informații complete despre ecuația de regresie liniară sunt furnizate de funcția LINEST. În plus, funcțiile SLOPE și INTERCEPT pot fi folosite pentru a obține parametrii ecuației de regresie, iar funcțiile TREND și FORECAST pot fi folosite pentru a obține valorile Y prezise în punctele dorite (pentru regresia perechi).

Să luăm în considerare în detaliu utilizarea funcției LINEST (cunoscut_y, [cunoscut_x], [constant], [statistici]): cunoscut_y - intervalul de valori cunoscute ale parametrului dependent Y. În analiza de regresie pereche poate avea orice formă; la plural trebuie să fie un rând sau o coloană; know_x - interval de valori cunoscute ale unuia sau mai multor parametri independenți. Trebuie să aibă aceeași formă ca și intervalul Y (pentru mai mulți parametri - mai multe coloane sau, respectiv, rânduri); constanta este un argument logic. Dacă, pe baza semnificației practice a problemei de analiză a regresiei, este necesar ca dreapta de regresie să treacă prin origine, adică coeficientul liber este egal cu 0, valoarea acestui argument trebuie stabilită egală cu 0 (sau „ fals"). Dacă valoarea este setată la 1 (sau adevărată) sau este omisă, atunci coeficientul liber este calculat în mod obișnuit; statisticile sunt un argument logic. Dacă valoarea este setată la 1 (sau „adevărat”), atunci statisticile de regresie sunt returnate suplimentar (vezi tabelul) utilizate pentru a evalua eficacitatea și semnificația modelului. În general, pentru regresia perechilor y=ax+b, rezultatul aplicării funcției LINEST are forma:

Masa. Domeniul de ieșire al funcției LINEST pentru analiza regresiei pe perechi

În cazul analizei de regresie multiplă pentru ecuația y=a0+a1x1+a2x2+…+amxm, prima linie afișează coeficienții am,…,a1,a0, iar pe a doua linie sunt afișate erorile standard pentru acești coeficienți. Rândurile 3-5, excluzând primele două coloane completate cu statistici de regresie, vor returna #N/A.

Funcția LINEST trebuie introdusă ca formulă matrice, mai întâi selectând o matrice de dimensiunea necesară pentru rezultat (m+1 coloane și 5 rânduri dacă sunt necesare statistici de regresie) și completând introducerea formulei apăsând CTRL+SHIFT+ENTER .

Rezultat pentru exemplul nostru:

În plus, programul are o funcție încorporată - Analiza datelor în fila Date.

Poate fi folosit și pentru a efectua analize de regresie:

Slide-ul arată rezultatul analizei de regresie efectuată folosind Analiza datelor.

CONCLUZIA REZULTATELOR

Statistici de regresie

Plural R

R-pătrat

R-pătrat normalizat

Eroare standard

Observatii

Analiza variatiei

Semnificația F

Regresia

Cote

Eroare standard

t-statistică

Valoarea P

De jos 95%

Top 95%

De jos 95,0%

Top 95,0%

Intersecția în Y

Variabila X 1

Ecuațiile de regresie pe care le-am analizat mai devreme au fost, de asemenea, construite în MS Excel. Pentru a le realiza, mai întâi construiți o diagramă de dispersie, apoi selectați din meniul contextual - Adăugați linie de tendință. În fereastra nouă, bifați caseta - Afișați ecuația pe diagramă și plasați valoarea de fiabilitate a aproximării (R^2) pe diagramă.

Literatură:

  1. Teoria Probabilității și Statistica Matematică. Gmurman V. E. Manual pentru universități. - Ed. al 10-lea, șters. - M.: Mai sus. şcoală, 2010. - 479 p.
  2. Matematică superioară în exerciții și probleme. Manual pentru universități / Danko P. E., Popov A. G., Kozhevnikova T. Ya., Danko S. P. În 2 ore - Ed. a 6-a, șters. - M.: Editura Onyx SRL: Editura Mir and Education SRL, 2007. - 416 p.
    1. 3. http://www.machinelearning.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8 %D1%8F - câteva informații despre analiza de regresie

Analiza de regresie stă la baza creării majorității modelelor econometrice, care includ modele de estimare a costurilor. Pentru a construi modele de evaluare, această metodă poate fi utilizată dacă numărul de analogi (obiecte comparabile) și numărul de factori de cost (elementele de comparație) sunt legate între ele, după cum urmează: P> (5 -g-10) x La, acestea. ar trebui să existe de 5-10 ori mai mulți analogi decât factori de cost. Aceeași cerință pentru raportul dintre cantitatea de date și numărul de factori se aplică și altor sarcini: stabilirea unei conexiuni între costul și parametrii de consum ai obiectului; justificarea procedurii de calcul a indicilor corectivi; identificarea tendințelor prețurilor; stabilirea unei legături între uzură și modificări ale factorilor de influență; obţinerea de dependenţe pentru calcularea standardelor de cost etc. Respectarea acestei cerințe este necesară pentru a reduce probabilitatea de a lucra cu un eșantion de date care nu satisface cerința de distribuție normală a variabilelor aleatoare.

Relația de regresie reflectă doar tendința medie a modificărilor variabilei rezultate, de exemplu, costul, din modificările uneia sau mai multor variabile factori, de exemplu, locația, numărul de camere, suprafața, etajul etc. Aceasta este diferența dintre o relație de regresie și una funcțională, în care valoarea variabilei rezultate este strict definită pentru o valoare dată a variabilelor factor.

Prezența unei relații de regresie / între rezultate lași variabile factori x p ..., x k(factori) indică faptul că această relație este determinată nu numai de influența variabilelor factoriale selectate, ci și de influența variabilelor, dintre care unele sunt în general necunoscute, altele nu pot fi evaluate și luate în considerare:

Influența variabilelor necontabilizate este indicată de al doilea termen al acestei ecuații ?, care se numește eroare de aproximare.

Se disting următoarele tipuri de dependențe de regresie:

  • ? regresie pereche - relația dintre două variabile (rezultant și factor);
  • ? regresie multiplă - relația dintre o variabilă de rezultat și două sau mai multe variabile factori incluse în studiu.

Sarcina principală a analizei de regresie este de a cuantifica proximitatea relației dintre variabile (în regresie pereche) și variabile multiple (în regresie multiplă). Apropierea conexiunii este exprimată cantitativ prin coeficientul de corelație.

Utilizarea analizei de regresie face posibilă stabilirea modelului de influență a principalilor factori (caracteristici hedonice) asupra indicatorului studiat, atât în ​​întregime, cât și pentru fiecare dintre ei separat. Cu ajutorul analizei de regresie, ca metodă de statistică matematică, este posibilă, în primul rând, să se găsească și să descrie forma dependenței analitice a variabilei rezultate (căutate) față de cele factoriale și, în al doilea rând, să se evalueze apropierea de această dependență.

Prin rezolvarea primei probleme se obține un model de regresie matematică, cu ajutorul căruia apoi se calculează indicatorul dorit pentru valorile date ale factorilor. Rezolvarea celei de-a doua probleme ne permite să stabilim fiabilitatea rezultatului calculat.

Astfel, analiza de regresie poate fi definită ca un set de proceduri formale (matematice) menite să măsoare apropierea, direcția și expresia analitică a formei de relație dintre variabilele rezultate și factori, i.e. rezultatul unei astfel de analize ar trebui să fie un model statistic definit structural și cantitativ de forma:

Unde y - valoarea medie a variabilei rezultate (indicatorul dorit, de exemplu, cost, chirie, rata de capitalizare) de P observațiile ei; x - valoarea variabilei factor (/-lea factor de cost); La - numărul de variabile factori.

Funcţie f(x l ,...,x lc), descrierea dependenței variabilei rezultate de factorii factori se numește ecuație (funcție) de regresie. Termenul „regresie” (regresie (latina) - retragere, întoarcere la ceva) este asociat cu specificul uneia dintre problemele specifice rezolvate în stadiul formării metodei și în prezent nu reflectă întreaga esență a metodei, dar continuă să fie folosit.

Analiza de regresie include, în general, următorii pași:

  • ? formarea unui eșantion de obiecte omogene și colectarea informațiilor inițiale despre aceste obiecte;
  • ? selectarea principalilor factori care influenteaza variabila rezultata;
  • ? verificarea probei pentru normalitate folosind X 2 sau test binom;
  • ? acceptarea unei ipoteze despre forma de comunicare;
  • ? prelucrarea datelor matematice;
  • ? obţinerea unui model de regresie;
  • ? evaluarea indicatorilor săi statistici;
  • ? calcule de verificare folosind un model de regresie;
  • ? analiza rezultatelor.

Secvența specificată de operații are loc atunci când se studiază atât o relație de pereche între o variabilă factor și o variabilă rezultantă, cât și o relație multiplă între o variabilă rezultantă și mai multe factori factoriale.

Utilizarea analizei de regresie impune anumite cerințe asupra informațiilor inițiale:

  • ? eşantionul statistic de obiecte trebuie să fie omogen din punct de vedere funcţional şi structural-tehnologic;
  • ? destul de numeroase;
  • ? indicatorul de cost studiat - variabila rezultată (preț, cost, cheltuieli) - trebuie adus în aceleași condiții pentru calcularea lui pentru toate obiectele din eșantion;
  • ? variabilele factorilor trebuie măsurate suficient de precis;
  • ? variabilele factorilor trebuie să fie independente sau minim dependente.

Cerințele de omogenitate și completitudine ale eșantionului sunt în conflict: cu cât selecția obiectelor pe baza omogenității lor este mai strictă, cu atât eșantionul obținut este mai mic și, invers, pentru a mări eșantionul este necesar să se includă obiecte care nu sunt foarte asemănătoare cu reciproc.

După ce au fost colectate date despre un grup de obiecte omogene, acestea sunt analizate pentru a stabili forma de legătură dintre variabilele rezultate și factorii sub forma unei linii de regresie teoretică. Procesul de găsire a unei linii de regresie teoretică constă într-o alegere rezonabilă a curbei de aproximare și calcularea coeficienților ecuației acesteia. Linia de regresie este o curbă netedă (într-un caz particular, o linie dreaptă) care descrie, folosind o funcție matematică, tendința generală a relației studiate și netezește emisiile neregulate, aleatorii, din influența factorilor laterali.

Pentru a afișa dependențe de regresie pereche în sarcinile de evaluare, următoarele funcții sunt cel mai des utilizate: liniar - y - a 0 + ars + s putere - y - aj&i + s indicativ - y - exponențial liniar - y - a 0 + ap* + c. Aici - e eroare de aproximare cauzată de acțiunea unor factori aleatori necontabilizați.

În aceste funcții, y este variabila rezultată; x - variabilă factor (factor); A 0 , a r a 2 - parametrii modelului de regresie, coeficienții de regresie.

Modelul exponențial liniar aparține clasei așa-numitelor modele hibride de forma:

Unde

unde x (i = 1, /) - valorile factorilor;

b t (i = 0, /) - coeficienții ecuației de regresie.

În această ecuație componentele A, BȘi Z corespund costului componentelor individuale ale activului evaluat, de exemplu, costul unui teren și costul îmbunătățirilor și parametrul Q este comun. Este conceput pentru a ajusta valoarea tuturor componentelor activului care este evaluat pentru un factor de influență comun, cum ar fi locația.

Valorile factorilor care sunt în puterea coeficienților corespunzători sunt variabile binare (0 sau 1). Factorii de la baza gradului sunt variabile discrete sau continue.

Factorii asociați cu coeficienții de multiplicare sunt, de asemenea, continui sau discreti.

Specificarea se realizează, de regulă, folosind o abordare empirică și include două etape:

  • ? trasarea punctelor de câmp de regresie pe un grafic;
  • ? analiza grafică (vizuală) a tipului de curbă de aproximare posibilă.

Tipul de curbă de regresie nu poate fi întotdeauna selectat imediat. Pentru a-l determina, mai întâi trasați punctele câmpului de regresie pe baza datelor originale. Apoi trageți vizual o linie de-a lungul poziției punctelor, încercând să aflați modelul calitativ al conexiunii: creștere uniformă sau scădere uniformă, creștere (scădere) cu o creștere (scădere) a ratei dinamicii, abordare lină la o anumită nivel.

Această abordare empirică este completată de analiză logică, pornind de la idei deja cunoscute despre natura economică și fizică a factorilor studiați și influența lor reciprocă.

De exemplu, se știe că dependențele variabilelor rezultate - indicatori economici (preț, chirie) de un număr de variabile factori - factori de formare a prețului (distanța de la centrul așezării, suprafață etc.) sunt neliniare. în natură și pot fi descrise destul de strict prin funcții de putere, exponențiale sau pătratice. Dar pentru intervale mici de modificări ale factorilor, rezultate acceptabile pot fi obținute folosind o funcție liniară.

Dacă, totuși, este încă imposibil să faceți imediat o alegere sigură a oricărei funcții, atunci sunt selectate două sau trei funcții, parametrii lor sunt calculați și apoi, folosind criteriile adecvate pentru apropierea conexiunii, funcția este în sfârșit. selectat.

În teorie, procesul de regresie al găsirii formei unei curbe se numește specificație modelul și coeficienții săi - calibrare modele.

Dacă se constată că variabila rezultată y depinde de mai multe variabile factori (factori) x ( , x 2 , ..., x k, apoi recurg la construirea unui model de regresie multiplă. În mod obișnuit, sunt utilizate trei forme de comunicare multiplă: liniară - y - a 0 + a x x x + a^x 2 + ... + a k x k, indicativ - y - a 0 a*i a x t- a x b, putere - y - a 0 x x ix 2 a 2. .x^sau combinaţii ale acestora.

Funcțiile exponențiale și de putere sunt mai universale, deoarece aproximează relațiile neliniare, care sunt majoritatea celor studiate în evaluarea dependențelor. În plus, ele pot fi utilizate la evaluarea obiectelor și în metoda modelării statistice în evaluarea în masă, și în metoda comparației directe în evaluarea individuală la stabilirea factorilor de corecție.

În etapa de calibrare, parametrii modelului de regresie sunt calculați folosind metoda celor mai mici pătrate, a cărei esență este că suma abaterilor pătrate a valorilor calculate ale variabilei rezultate la., adică calculat folosind ecuația de cuplare selectată, din valorile reale ar trebui să fie minime:

Valorile j) (. și u. sunt cunoscute deci Q este o funcție numai a coeficienților ecuației. Pentru a găsi minimul S trebuie să luați derivate parțiale Q de coeficienții ecuației și echivalează-i cu zero:

Ca rezultat, obținem un sistem de ecuații normale, al căror număr este egal cu numărul de coeficienți determinați ai ecuației de regresie dorite.

Să presupunem că trebuie să găsim coeficienții unei ecuații liniare y - a 0 + ars. Suma abaterilor pătrate are forma:

/=1

Diferențiază funcția Q prin coeficienți necunoscuți un 0și echivalează derivatele parțiale cu zero:

După transformări obținem:

Unde P - numărul de valori reale originale la ele (număr de analogi).

Procedura dată pentru calcularea coeficienților ecuației de regresie este aplicabilă și pentru dependențe neliniare, dacă aceste dependențe pot fi liniarizate, i.e. conduce la o formă liniară folosind o schimbare de variabile. Puterea și funcțiile exponențiale după logaritm și modificarea corespunzătoare a variabilelor capătă o formă liniară. De exemplu, o funcție de putere după logaritm ia forma: În y = 1p 0 +a x 1ph. După înlocuirea variabilelor Y-În y, L 0 -În și nr. X-În x obținem o funcție liniară

Y=A 0 + cijX, ai căror coeficienți se regăsesc în modul descris mai sus.

Metoda celor mai mici pătrate este, de asemenea, utilizată pentru a calcula coeficienții unui model de regresie multiplă. Astfel, un sistem de ecuații normale pentru calcularea unei funcții liniare cu două variabile XjȘi x 2 dupa o serie de transformari arata asa:

De obicei, acest sistem de ecuații este rezolvat folosind metode de algebră liniară. Funcția de putere multiplă este redusă la formă liniară prin luarea de logaritmi și modificarea variabilelor în același mod ca și funcția de putere pereche.

Atunci când se folosesc modele hibride, se găsesc coeficienți multipli de regresie folosind proceduri numerice ale metodei aproximărilor succesive.

Pentru a face o alegere finală dintre mai multe ecuații de regresie, este necesar să testați fiecare ecuație pentru puterea relației, care este măsurată prin coeficientul de corelație, varianța și coeficientul de variație. Testele Student și Fisher pot fi, de asemenea, folosite pentru evaluare. Cu cât este mai mare apropierea conexiunii pe care o prezintă o curbă, cu atât este mai preferată, toate celelalte lucruri fiind egale.

Dacă o problemă din această clasă este în curs de rezolvare, când este necesar să se stabilească dependența unui indicator de cost de factorii de cost, atunci este de înțeles dorința de a lua în considerare cât mai mulți factori de influență și de a construi astfel un model de regresie multiplă mai precis. . Cu toate acestea, extinderea numărului de factori este împiedicată de două limitări obiective. În primul rând, pentru a construi un model de regresie multiplă, este necesar un eșantion mult mai mare de obiecte decât pentru a construi un model pereche. Este în general acceptat că numărul de obiecte din eșantion ar trebui să depășească numărul P factori de cel puțin 5-10 ori. Rezultă că pentru a construi un model cu trei factori de influență, este necesar să se colecteze un eșantion de aproximativ 20 de obiecte cu un set diferit de valori ale factorilor. În al doilea rând, factorii selectați pentru model în influența lor asupra indicatorului de cost trebuie să fie suficient de independenți unul de celălalt. Acest lucru nu este ușor de asigurat, deoarece eșantionul combină de obicei obiecte aparținând aceleiași familii, pentru care există o schimbare naturală a multor factori de la obiect la obiect.

Calitatea modelelor de regresie este de obicei verificată folosind următorii indicatori statistici.

Abaterea standard a erorii ecuației de regresie (eroarea de estimare):

Unde P - dimensiunea eșantionului (număr de analogi);

La - numărul de factori (factori de cost);

Eroare neexplicată prin ecuația de regresie (Figura 3.2);

u. - valoarea reală a variabilei rezultate (de exemplu, costul); YT - valoarea calculată a variabilei rezultat.

Acest indicator este numit și eroare standard de estimare (eroare RMS). În figură, punctele indică valori specifice ale eșantionului, simbolul indică linia valorilor medii ale eșantionului, iar linia punctată înclinată este linia de regresie.


Orez. 3.2.

Abaterea standard a erorii de estimare măsoară valoarea abaterii valorilor reale ale lui y de la valorile calculate corespunzătoare la( , obținut folosind un model de regresie. Dacă eșantionul pe care se bazează modelul este supus legii distribuției normale, atunci se poate argumenta că 68% din valorile reale la sunt în gamă la ± &e de la linia de regresie, iar 95% este în interval la ± 2d e. Acest indicator este convenabil deoarece unitățile de măsură sg? potriviți unitățile de măsură la,. În acest sens, poate fi folosit pentru a indica acuratețea rezultatului obținut în procesul de evaluare. De exemplu, într-un certificat de valoare puteți indica că valoarea de piață obținută folosind un model de regresie V cu o probabilitate de 95% de a fi în intervalul de la (V -2d,.) inainte de (y + 2d s).

Coeficientul de variație al variabilei rezultate:

Unde y - valoarea medie a variabilei rezultate (Fig. 3.2).

În analiza de regresie, coeficientul de variație var este abaterea standard a rezultatului exprimată ca procent din media variabilei rezultat. Coeficientul de variație poate servi drept criteriu pentru calitățile predictive ale modelului de regresie rezultat: cu cât valoarea este mai mică var, cu atât calitățile predictive ale modelului sunt mai mari. Utilizarea coeficientului de variație este de preferat indicatorului &e, deoarece este un indicator relativ. Atunci când se utilizează în practică acest indicator, se poate recomanda să nu se folosească un model al cărui coeficient de variație depășește 33%, întrucât în ​​acest caz nu se poate spune că datele eșantionului sunt supuse unei legi normale de distribuție.

Coeficient de determinare (coeficient de corelație multiplă pătrat):

Acest indicator este utilizat pentru a analiza calitatea generală a modelului de regresie rezultat. Indică ce procent din varianța variabilei rezultate se explică prin influența tuturor variabilelor factorilor incluse în model. Coeficientul de determinare se află întotdeauna în intervalul de la zero la unu. Cu cât valoarea coeficientului de determinare este mai aproape de unu, cu atât modelul descrie mai bine seria de date inițială. Coeficientul de determinare poate fi reprezentat diferit:

Iată eroarea explicată de modelul de regresie,

A - eroare, inexplicabilă

model de regresie. Din punct de vedere economic, acest criteriu ne permite să judecăm ce procent din variația prețului este explicat prin ecuația de regresie.

Limita exactă de acceptabilitate a indicatorului R 2 Este imposibil de precizat pentru toate cazurile. Trebuie luate în considerare atât dimensiunea eșantionului, cât și interpretarea semnificativă a ecuației. De regulă, atunci când studiem date despre obiecte de același tip obținute aproximativ în același moment în timp, valoarea R 2 nu depășește nivelul de 0,6-0,7. Dacă toate erorile de prognoză sunt zero, de ex. atunci când relația dintre variabilele rezultante și factoriale este funcțională, atunci R 2 =1.

Coeficient de determinare ajustat:

Necesitatea introducerii unui coeficient de determinare ajustat se explică prin faptul că odată cu creșterea numărului de factori La coeficientul obișnuit de determinare crește aproape întotdeauna, dar numărul de grade de libertate scade (p - k- 1). Ajustarea introdusă reduce întotdeauna valoarea R2, deoarece (P - 1) > (p-k- 1). Ca urmare, valoarea R 2 CKOf) poate deveni chiar negativ. Aceasta înseamnă că valoarea R 2 a fost aproape de zero înainte de ajustare și proporția de varianță a variabilei a fost explicată folosind ecuația de regresie la foarte mic.

Dintre cele două opțiuni pentru modelele de regresie care diferă în valoarea coeficientului de determinare ajustat, dar au alte criterii de calitate la fel de bune, este de preferată opțiunea cu o valoare mai mare a coeficientului de determinare ajustat. Coeficientul de determinare nu este ajustat dacă (p - k): k> 20.

Coeficientul Fisher:

Acest criteriu este utilizat pentru a evalua semnificația coeficientului de determinare. Suma reziduală a pătratelor reprezintă o măsură a erorii de predicție folosind regresia valorilor de cost cunoscute y.. Comparația sa cu suma de regresie a pătratelor arată de câte ori dependența de regresie prezice rezultatul mai bine decât media la. Există un tabel cu valori critice F R Coeficientul Fisher, în funcție de numărul de grade de libertate al numărătorului - La, numitorul v 2 = p - k- 1 și nivelul de semnificație a. Dacă valoarea calculată a testului Fisher F R este mai mare decât valoarea tabelului, atunci ipoteza despre nesemnificația coeficientului de determinare, i.e. despre discrepanța dintre conexiunile înglobate în ecuația de regresie și cele care există efectiv, cu probabilitate p = 1 - a se respinge.

Eroare medie de aproximare(abaterea procentuală medie) se calculează ca diferența relativă medie, exprimată în procente, între valorile reale și calculate ale variabilei rezultate:

Cu cât valoarea acestui indicator este mai mică, cu atât calitățile predictive ale modelului sunt mai bune. Când acest indicator nu este mai mare de 7%, modelul este foarte precis. Dacă 8 > 15% indică o acuratețe nesatisfăcătoare a modelului.

Eroarea standard a coeficientului de regresie:

unde (/I) -1 .- element diagonal al matricei (X G X)~ 1 k - numărul de factori;

X- matricea valorilor variabilelor factor:

X 7 - matricea transpusă a valorilor variabilelor factor;

(ZhL) _| - matricea inversă a matricei.

Cu cât acești indicatori sunt mai mici pentru fiecare coeficient de regresie, cu atât estimarea coeficientului de regresie corespunzător este mai fiabilă.

Testul studentului (statistica t):

Acest criteriu vă permite să măsurați gradul de fiabilitate (semnificație) al relației determinat de un coeficient de regresie dat. Dacă valoarea calculată t. mai mare decât valoarea tabelului

t av, unde v - p - k - 1 este numărul de grade de libertate, apoi se respinge cu probabilitate (100 - a) ipoteza că acest coeficient este nesemnificativ statistic. Există tabele speciale de /-distribuție care permit determinarea valorii critice a criteriului pe baza unui anumit nivel de semnificație a și a numărului de grade de libertate v. Valoarea cel mai des folosită pentru a este 5%.

Multicoliniaritate, adică efectul relaţiilor reciproce dintre variabilele factorilor conduce la necesitatea de a se mulţumi cu un număr limitat al acestora. Dacă acest lucru nu este luat în considerare, atunci puteți ajunge la un model de regresie ilogic. Pentru a evita efectul negativ al multicolinearității, coeficienții de corelație pe perechi sunt calculați înainte de a construi un model de regresie multiplă r xjxjîntre variabilele selectate X.Și X

Aici XjX; - valoarea medie a produsului a două variabile factori;

XjXj- produsul valorilor medii a două variabile factori;

Estimarea varianței variabilei factor x..

Se consideră că două variabile sunt de regresie legate între ele (adică, coliniare) dacă coeficientul lor de corelație perechi în valoare absolută este strict mai mare de 0,8. În acest caz, oricare dintre aceste variabile trebuie exclusă din considerare.

În scopul extinderii capacităţilor de analiză economică a modelelor de regresie rezultate, medie coeficienții de elasticitate, determinat de formula:

Unde Xj- valoarea medie a variabilei factor corespunzătoare;

y - valoarea medie a variabilei rezultate; un eu - coeficient de regresie pentru variabila factor corespunzătoare.

Coeficientul de elasticitate arată cu ce procent în medie se va modifica valoarea variabilei rezultate atunci când variabila factor se modifică cu 1%, adică. modul în care variabila rezultată reacționează la modificările variabilei factor. De exemplu, cum reacționează prețul mp? m de suprafata de apartament la o distanta de centrul orasului.

Din punctul de vedere al analizei semnificației unui anumit coeficient de regresie, este util să se estimeze coeficient parțial de determinare:

Iată estimarea varianței rezultatului

variabil. Acest coeficient arată în ce procent variația variabilei rezultate este explicată prin variația variabilei factor i-a inclusă în ecuația de regresie.

  • Caracteristicile hedonice sunt înțelese ca caracteristici ale unui obiect care reflectă proprietățile sale utile (valoroase) din punctul de vedere al cumpărătorilor și vânzătorilor.

A) Analiza grafică a regresiei liniare simple.

Ecuație simplă de regresie liniară y=a+bx. Dacă există o corelație între variabilele aleatoare Y și X, atunci valoarea y = ý + ,

unde ý este valoarea teoretică a lui y obținută din ecuația ý = f(x),

 – eroarea de abatere a ecuaţiei teoretice ý de la datele reale (experimentale).

Ecuația pentru dependența valorii medii ý de x, adică ý = f(x), se numește ecuație de regresie. Analiza regresiei constă în patru etape:

1) stabilirea problemei și stabilirea motivelor conexiunii.

2) limitarea obiectului de cercetare, colectarea de informații statistice.

3) selectarea ecuației de cuplare pe baza analizei și naturii datelor colectate.

4) calculul valorilor numerice, caracteristicile conexiunilor de corelare.

Dacă două variabile sunt legate în așa fel încât o modificare a unei variabile să corespundă unei schimbări sistematice a celeilalte variabile, atunci analiza de regresie este utilizată pentru a estima și selecta ecuația pentru relația dintre ele dacă aceste variabile sunt cunoscute. Spre deosebire de analiza de regresie, analiza de corelație este utilizată pentru a analiza proximitatea relației dintre X și Y.

Să luăm în considerare găsirea unei linii drepte în analiza de regresie:

Ecuația de regresie teoretică.

Termenul „regresie simplă” indică faptul că valoarea unei variabile este estimată pe baza cunoștințelor despre o altă variabilă. Spre deosebire de regresia multivariată simplă, este folosită pentru a estima o variabilă pe baza cunoașterii a două, trei sau mai multe variabile. Să ne uităm la analiza grafică a regresiei liniare simple.

Să presupunem că există rezultate ale testelor de screening privind preîncadrarea în muncă și productivitatea muncii.

Rezultatele selecției (100 puncte), x

Productivitate (20 puncte), y

Prin trasarea punctelor pe un grafic, obținem o diagramă de împrăștiere (câmp). Îl folosim pentru a analiza rezultatele testelor de selecție și productivitatea muncii.

Folosind graficul de dispersie, să analizăm linia de regresie. În analiza de regresie, cel puțin două variabile sunt întotdeauna specificate. O modificare sistematică a unei variabile este asociată cu o schimbare a alteia. obiectivul principal analiza regresiei constă în estimarea valorii unei variabile dacă este cunoscută valoarea altei variabile. Pentru o sarcină completă, evaluarea productivității muncii este importantă.

Variabila independentaîn analiza de regresie, o cantitate care este utilizată ca bază pentru analiza unei alte variabile. În acest caz, acestea sunt rezultatele testelor de selecție (de-a lungul axei X).

Variabilă dependentă se numește valoare estimată (de-a lungul axei Y). În analiza de regresie, poate exista o singură variabilă dependentă și mai multe variabile independente.

Pentru o analiză de regresie simplă, dependența poate fi reprezentată într-un sistem cu două coordonate (x și y), cu axa X fiind variabila independentă și axa Y fiind variabila dependentă. Trasăm punctele de intersecție astfel încât o pereche de valori să fie reprezentată pe grafic. Programul este numit diagramă de dispersie. Construcția sa este a doua etapă a analizei de regresie, deoarece prima este selectarea valorilor analizate și colectarea datelor eșantionului. Astfel, analiza de regresie este utilizată pentru analiza statistică. Relația dintre datele eșantionului dintr-o diagramă este liniară.

Pentru a estima mărimea unei variabile y pe baza unei variabile x, este necesar să se determine poziția dreptei care reprezintă cel mai bine relația dintre x și y pe baza locației punctelor de pe graficul de dispersie. În exemplul nostru, aceasta este analiza performanței. Linie trasată prin puncte de împrăștiere – linie de regresie. O modalitate de a construi o linie de regresie bazată pe experiența vizuală este metoda cu mână liberă. Linia noastră de regresie poate fi folosită pentru a determina productivitatea muncii. La găsirea ecuaţiei dreptei de regresie

Testul celor mai mici pătrate este adesea folosit. Cea mai potrivită linie este cea în care suma abaterilor pătrate este minimă

Ecuația matematică a unei linii de creștere reprezintă legea creșterii într-o progresie aritmetică:

la = AbX.

Y = A + bX– ecuația dată cu un parametru este cel mai simplu tip de ecuație de cuplare. Este acceptabil pentru valori medii. Pentru a exprima mai exact relația dintre XȘi la, se introduce un coeficient de proporționalitate suplimentar b, care indică panta dreptei de regresie.

B) Construirea unei drepte teoretice de regresie.

Procesul de găsire a acestuia constă în alegerea și justificarea tipului de curbă și calcularea parametrilor A, b, Cu etc. Procesul de construcție se numește nivelare, iar furnizarea de curbe oferită de covoraș. analiză, variată. Cel mai adesea, în problemele economice, se folosește o familie de curbe, ecuații care sunt exprimate prin polinoame de puteri întregi pozitive.

1)
- ecuația unei linii drepte,

2)
– ecuația hiperbolei,

3)
– ecuația unei parabole,

unde ý sunt ordonatele dreptei de regresie teoretică.

După ce ați ales tipul de ecuație, trebuie să găsiți parametrii de care depinde această ecuație. De exemplu, natura locației punctelor în câmpul de împrăștiere a arătat că linia de regresie teoretică este dreaptă.

Un grafic de dispersie vă permite să reprezentați productivitatea muncii folosind analiza de regresie. În economie, analiza de regresie este utilizată pentru a prezice multe caracteristici care afectează produsul final (ținând cont de prețul).

B) Criteriul celor mai mici cadre pentru găsirea unei linii drepte.

Un criteriu pe care l-am putea aplica pentru o linie de regresie adecvată într-un grafic de dispersie se bazează pe alegerea dreptei pentru care suma erorilor pătrate este minimă.

Proximitatea punctelor de împrăștiere față de linia dreaptă este măsurată prin ordonatele segmentelor. Abaterile acestor puncte pot fi pozitive și negative, dar suma pătratelor abaterilor dreptei teoretice de la dreapta experimentală este întotdeauna pozitivă și ar trebui să fie minimă. Faptul că toate punctele de împrăștiere nu coincid cu poziția dreptei de regresie indică existența unei discrepanțe între datele experimentale și cele teoretice. Astfel, putem spune că nicio altă linie de regresie, cu excepția celei găsite, nu poate da o cantitate mai mică de abateri între datele experimentale și cele experimentale. Prin urmare, după ce am găsit ecuația teoretică ý și linia de regresie, îndeplinim cerința celor mai mici pătrate.

Acest lucru se face folosind ecuația de cuplare
folosind formule pentru a găsi parametrii AȘi b. Luând valoarea teoretică
și notând partea stângă a ecuației prin f, obținem funcția
din parametri necunoscuți AȘi b. Valori AȘi b va satisface funcţia minimă fși se găsesc din ecuații cu diferențe parțiale
Și
. Acest conditie necesara, cu toate acestea, pentru o funcție pătratică pozitivă, aceasta este și o condiție suficientă pentru a găsi AȘi b.

Să derivăm formulele parametrilor din ecuațiile cu derivate parțiale AȘi b:



obținem un sistem de ecuații:

Unde
– erori de medie aritmetică.

Înlocuind valorile numerice, găsim parametrii AȘi b.

Există un concept
. Acesta este factorul de aproximare.

Dacă e < 33%, то модель приемлема для дальнейшего анализа;

Dacă e> 33%, apoi luăm o hiperbolă, parabolă etc. Acest lucru dă dreptul la analiză în diferite situații.

Concluzie: după criteriul coeficientului de aproximare, dreapta cea mai potrivită este cea pentru care

, și nicio altă linie de regresie pentru problema noastră nu oferă o abatere minimă.

D) Eroarea pătrată de estimare, verificând tipicitatea acestora.

În raport cu o populație în care numărul de parametri de cercetare este mai mic de 30 ( n < 30), для проверки типичности параметров уравнения регрессии используется t-Testul studentului. Aceasta calculează valoarea reală t-criterii:

De aici

Unde – eroare pătratică medie reziduală. Primit t AȘi t b comparativ cu critic t k din tabelul Student ținând cont de nivelul de semnificație acceptat ( = 0,01 = 99% sau  = 0,05 = 95%). P = f = k 1 = m– numărul de parametri ai ecuației studiate (grad de libertate). De exemplu, dacă y = A + bx; m = 2, k 2 = f 2 = p 2 = n – (m+ 1), unde n– numărul de caracteristici studiate.

t A < t k < t b .

Concluzie: folosind parametrii ecuației de regresie testați pentru tipicitate, se construiește un model matematic de comunicare
. În acest caz, parametrii funcției matematice utilizate în analiză (liniară, hiperbolă, parabolă) primesc valorile cantitative corespunzătoare. Conținutul semantic al modelelor astfel obținute este că ele caracterizează valoarea medie a caracteristicii rezultate
din caracteristica factorului X.

D) Regresia curbilinie.

Destul de des, o relație curbilinie apare atunci când se stabilește o relație în schimbare între variabile. Intensitatea creșterii (scăderii) depinde de nivelul lui X. Există diferite tipuri de dependență curbilinie. De exemplu, luați în considerare relația dintre randamentul culturii și precipitații. Cu o creștere a precipitațiilor în condiții naturale egale, are loc o creștere intensivă a randamentului, dar până la o anumită limită. După punctul critic, precipitațiile se dovedesc a fi excesive, iar randamentele scad catastrofal. Exemplul arată că la început relația a fost pozitivă și apoi negativă. Punctul critic este nivelul optim al atributului X, care corespunde valorii maxime sau minime a atributului Y.

În economie, o astfel de relație se observă între preț și consum, productivitate și experiență.

Dependenta parabolica.

Dacă datele arată că o creștere a unei caracteristici factor duce la o creștere a caracteristicii rezultante, atunci o ecuație de ordinul doi (parabolă) este luată ca o ecuație de regresie.

. Coeficienții a,b,c se găsesc din ecuațiile cu diferențe parțiale:

Obținem un sistem de ecuații:

Tipuri de ecuații curbilinie:

,

,

Avem dreptul să presupunem că există o relație curbilinie între productivitatea muncii și scorurile testelor de selecție. Aceasta înseamnă că, pe măsură ce sistemul de notare crește, performanța va începe să scadă la un anumit nivel, astfel încât modelul drept se poate dovedi curbiliniu.

Al treilea model va fi o hiperbolă, iar în toate ecuațiile variabila x va fi înlocuită cu expresia .

Ce este regresia?

Luați în considerare două variabile continue x=(x1, x2, .., xn), y=(y1, y2, ..., yn).

Să plasăm punctele pe o diagramă de dispersie bidimensională și să spunem că avem relație liniară, dacă datele sunt aproximate printr-o linie dreaptă.

Dacă credem asta y depinde de X, și modificări în y sunt cauzate tocmai de modificări în X, putem determina linia de regresie (regresia y pe X), care descrie cel mai bine relația liniară dintre aceste două variabile.

Utilizarea statistică a cuvântului regresie provine de la fenomenul cunoscut sub numele de regresie la medie, atribuit lui Sir Francis Galton (1889).

El a arătat că, deși tații înalți tind să aibă fii înalți, înălțimea medie a fiilor este mai mică decât cea a taților lor înalți. Înălțimea medie a fiilor „a regresat” și „a revenit” spre înălțimea medie a tuturor taților din populație. Astfel, în medie, tații înalți au fii mai scunzi (dar încă destul de înalți), iar tații scunzi au fii mai înalți (dar încă destul de scunzi).

Linia de regresie

O ecuație matematică care estimează o dreaptă de regresie liniară simplă (în perechi):

X numită variabilă independentă sau predictor.

Y- variabilă dependentă sau variabilă de răspuns. Aceasta este valoarea la care ne așteptăm y(în medie) dacă știm valoarea X, adică este „valoarea estimată” y»

  • A- membru liber (intersectia) liniei de evaluare; acesta este sensul Y, Când x=0(Fig.1).
  • b- panta sau panta liniei estimate; reprezintă suma cu care Y crește în medie dacă creștem X pentru o unitate.
  • AȘi b se numesc coeficienți de regresie ai liniei estimate, deși acest termen este adesea folosit doar pentru b.

Regresia liniară în perechi poate fi extinsă pentru a include mai mult de o variabilă independentă; în acest caz este cunoscut ca regresie multiplă.

Fig.1. Linie de regresie liniară care arată intersecția a și panta b (cantitatea Y crește pe măsură ce x crește cu o unitate)

Metoda celor mai mici pătrate

Efectuăm analiza de regresie folosind un eșantion de observații unde AȘi b- estimări prin eșantion ale parametrilor adevărați (generali), α și β, care determină linia de regresie liniară în populație (populație generală).

Cea mai simplă metodă de determinare a coeficienților AȘi b este metoda celor mai mici pătrate(MNC).

Potrivirea este evaluată analizând reziduurile (distanța verticală a fiecărui punct de la linie, de exemplu, rezidual = observat y- prezis y, Orez. 2).

Linia de cea mai bună potrivire este aleasă astfel încât suma pătratelor reziduurilor să fie minimă.

Orez. 2. Linie de regresie liniară cu reziduuri reprezentate (linii punctate verticale) pentru fiecare punct.

Ipoteze de regresie liniară

Deci, pentru fiecare valoare observată, restul este egal cu diferența și valoarea prezisă corespunzătoare.Fiecare rest poate fi pozitiv sau negativ.

Puteți utiliza reziduurile pentru a testa următoarele ipoteze din spatele regresiei liniare:

  • Reziduurile sunt distribuite în mod normal cu o medie de zero;

Dacă ipotezele de liniaritate, normalitate și/sau variație constantă sunt discutabile, putem transforma sau și calcula o nouă linie de regresie pentru care aceste ipoteze sunt îndeplinite (de exemplu, folosiți o transformare logaritmică etc.).

Valori anormale (outliers) și puncte de influență

O observație „influentă”, dacă este omisă, modifică una sau mai multe estimări ale parametrilor modelului (adică, panta sau interceptarea).

Un outlier (o observație care este în contradicție cu majoritatea valorilor dintr-un set de date) poate fi o observație „influentă” și poate fi detectată cu ușurință vizual prin inspectarea unui grafic de dispersie bivariat sau a unui grafic rezidual.

Atât pentru valori aberante, cât și pentru observațiile (puncte) „influențiale”, sunt utilizate modele, atât cu, cât și fără includerea lor, și se acordă atenție modificărilor estimărilor (coeficienți de regresie).

Când efectuați o analiză, nu trebuie să eliminați automat valorile aberante sau punctele de influență, deoarece pur și simplu ignorarea acestora poate afecta rezultatele obținute. Studiați întotdeauna motivele acestor valori aberante și analizați-le.

Ipoteza regresiei liniare

La construirea regresiei liniare, se testează ipoteza nulă că panta generală a dreptei de regresie β este egală cu zero.

Dacă panta dreptei este zero, nu există o relație liniară între și: modificarea nu afectează

Pentru a testa ipoteza nulă că panta adevărată este zero, puteți utiliza următorul algoritm:

Calculați statistica de test egală cu raportul , care este supus unei distribuții cu grade de libertate, unde eroarea standard a coeficientului


,

- estimarea dispersiei reziduurilor.

De obicei, dacă nivelul de semnificație este atins, ipoteza nulă este respinsă.


unde este punctul procentual al distribuției cu grade de libertate, care oferă probabilitatea unui test cu două fețe

Acesta este intervalul care conține panta generală cu o probabilitate de 95%.

Pentru eșantioane mari, să zicem, putem aproxima cu o valoare de 1,96 (adică statistica testului va tinde să fie distribuită normal)

Evaluarea calității regresiei liniare: coeficientul de determinare R 2

Din cauza relației liniare și ne așteptăm să se schimbe ca , și numiți-o variația care se datorează sau se explică prin regresie. Variația reziduală ar trebui să fie cât mai mică posibil.

Dacă acest lucru este adevărat, atunci cea mai mare parte a variației va fi explicată prin regresie, iar punctele se vor afla aproape de dreapta de regresie, adică. linia se potrivește bine datelor.

Proporția varianței totale care este explicată prin regresie se numește coeficient de determinare, de obicei exprimat ca procent și notat R 2(în regresia liniară pereche aceasta este cantitatea r 2, pătratul coeficientului de corelație), vă permite să evaluați subiectiv calitatea ecuației de regresie.

Diferența reprezintă procentul de varianță care nu poate fi explicat prin regresie.

Nu există un test formal de evaluat; trebuie să ne bazăm pe judecata subiectivă pentru a determina bunătatea potrivirii dreptei de regresie.

Aplicarea unei linii de regresie la prognoză

Puteți utiliza o linie de regresie pentru a prezice o valoare dintr-o valoare aflată la capătul extrem al intervalului observat (nu extrapolați niciodată dincolo de aceste limite).

Prezim media observabilelor care au o anumită valoare prin introducerea acelei valori în ecuația dreptei de regresie.

Deci, dacă estimam ca Utilizați această valoare estimată și eroarea ei standard pentru a estima un interval de încredere pentru media reală a populației.

Repetarea acestei proceduri pentru diferite valori vă permite să construiți limite de încredere pentru această linie. Aceasta este banda sau zona care conține linia adevărată, de exemplu la un nivel de încredere de 95%.

Planuri simple de regresie

Modelele de regresie simple conțin un predictor continuu. Dacă există 3 observații cu valori de predictor P, cum ar fi 7, 4 și 9, iar proiectul include un efect de ordinul întâi P, atunci matricea de proiectare X va fi

iar ecuația de regresie folosind P pentru X1 este

Y = b0 + b1 P

Dacă un design de regresie simplă conține un efect de ordin mai mare asupra P, cum ar fi un efect pătratic, atunci valorile din coloana X1 din matricea de proiectare vor fi ridicate la a doua putere:

iar ecuația va lua forma

Y = b0 + b1 P2

Metodele de codare constrânse de Sigma și supraparametrizate nu se aplică modelelor de regresie simple și altor modele care conțin doar predictori continui (deoarece pur și simplu nu există predictori categoriali). Indiferent de metoda de codare aleasă, valorile variabilelor continue sunt incrementate corespunzător și utilizate ca valori pentru variabilele X. În acest caz, nu se efectuează nicio recodificare. În plus, atunci când descrieți planurile de regresie, puteți omite luarea în considerare a matricei de proiectare X și puteți lucra numai cu ecuația de regresie.

Exemplu: analiză de regresie simplă

Acest exemplu utilizează datele prezentate în tabel:

Orez. 3. Tabelul datelor inițiale.

Date compilate dintr-o comparație a recensămintelor din 1960 și 1970 în 30 de județe selectate aleatoriu. Numele județelor sunt prezentate ca nume de observație. Informațiile referitoare la fiecare variabilă sunt prezentate mai jos:

Orez. 4. Tabel de specificații variabile.

Problema de cercetare

Pentru acest exemplu, se va analiza corelația dintre rata sărăciei și gradul care prezice procentul de familii care se află sub pragul sărăciei. Prin urmare, vom trata variabila 3 (Pt_Poor) ca variabilă dependentă.

Putem înainta o ipoteză: schimbările în dimensiunea populației și procentul de familii care se află sub pragul sărăciei sunt legate. Pare rezonabil să ne așteptăm ca sărăcia să ducă la emigrare, deci ar exista o corelație negativă între procentul de oameni sub pragul sărăciei și schimbarea populației. Prin urmare, vom trata variabila 1 (Pop_Chng) ca o variabilă predictivă.

Vezi rezultate

Coeficienți de regresie

Orez. 5. Coeficienții de regresie ai Pt_Poor pe Pop_Chng.

La intersecția rândului Pop_Chng și a coloanei Param. coeficientul nestandardizat pentru regresia lui Pt_Poor pe Pop_Chng este -0,40374. Aceasta înseamnă că pentru fiecare unitate de scădere a populației, există o creștere a ratei sărăciei de .40374. Limitele de încredere superioară și inferioară (implicit) de 95% pentru acest coeficient nestandardizat nu includ zero, astfel încât coeficientul de regresie este semnificativ la nivelul p<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Distribuție variabilă

Coeficienții de corelație pot deveni semnificativ supraestimați sau subestimați dacă în date sunt prezente valori aberante mari. Să studiem distribuția variabilei dependente Pt_Poor pe district. Pentru a face acest lucru, să construim o histogramă a variabilei Pt_Poor.

Orez. 6. Histograma variabilei Pt_Poor.

După cum puteți vedea, distribuția acestei variabile diferă semnificativ de distribuția normală. Cu toate acestea, deși chiar și două județe (cele două coloane din dreapta) au un procent mai mare de familii care se află sub pragul sărăciei decât se aștepta într-o distribuție normală, ele par a fi „în intervalul”.

Orez. 7. Histograma variabilei Pt_Poor.

Această judecată este oarecum subiectivă. Regula generală este că valorile aberante ar trebui luate în considerare dacă observația (sau observațiile) nu se încadrează în interval (media ± 3 ori abaterea standard). În acest caz, merită repetat analiza cu și fără valori aberante pentru a ne asigura că acestea nu au un efect major asupra corelației dintre membrii populației.

Scatterplot

Dacă una dintre ipoteze este a priori despre relația dintre variabile date, atunci este util să o testăm pe graficul graficului de dispersie corespunzător.

Orez. 8. Diagrama de dispersie.

Graficul de dispersie arată o corelație negativă clară (-.65) între cele două variabile. De asemenea, arată intervalul de încredere de 95% pentru linia de regresie, adică există o probabilitate de 95% ca linia de regresie să se afle între cele două curbe punctate.

Criterii de semnificație

Orez. 9. Tabel cuprinzând criteriile de semnificație.

Testul pentru coeficientul de regresie Pop_Chng confirmă faptul că Pop_Chng este strâns legat de Pt_Poor , p<.001 .

Concluzie

Acest exemplu a arătat cum se analizează un design de regresie simplu. De asemenea, au fost prezentate interpretări ale coeficienților de regresie nestandardizați și standardizați. Se discută importanța studierii distribuției răspunsului unei variabile dependente și se demonstrează o tehnică pentru determinarea direcției și intensității relației dintre un predictor și o variabilă dependentă.