Cartea completează în mod logic publicațiile de referință „Applied Statistics: Fundamentals of Modeling and Primary Data Processing” (1983) și „Applied Statistics: Study of Dependencies” (1985). Sunt luate în considerare problemele clasificării obiectelor și reducerii dimensiunilor. Se acordă multă atenție analizei statistice exploratorii.
Pentru specialiștii care folosesc metode de analiză a datelor.

Efectul multidimensionalității esențiale.
Esența acestui principiu este că concluziile obținute în urma analizei și clasificării unui set de obiecte cercetate statistic (prin un număr de proprietăți) trebuie să se bazeze simultan pe totalitatea acestor proprietăți interdependente, cu luarea în considerare obligatorie a structurii și natura legăturilor lor. În 15], natura efectului de multidimensionalitate semnificativă este explicată cu următorul exemplu: o încercare de a distinge între două tipuri de comportament de consum al familiilor, pe baza aplicării secvenţiale a criteriului de omogenitate al Studentului 112, paragraful 11.2.81, mai întâi. pe o bază (costurile unitare cu alimente), apoi pe alta (cheltuielile unitare pentru bunuri și servicii industriale) nu a dat un rezultat, în timp ce un analog multivariat al acestui criteriu, bazat pe așa-numita distanță Mahalanobis și luând în considerare simultan valorile atât a caracteristicilor menționate, cât și a naturii relației statistice dintre ele, dă rezultatul corect (adică detectează statistic diferența semnificativă între cele două seturi de familii analizate). Formularea esenței acestui principiu o găsim deja în lucrarea menționată a lui V.I. Lenin.

Opunând încadrării izolate a fermelor ţărăneşti pentru fiecare dintre caracteristicile analizate, cu accent pe valorile medii ale acestora, el scrie: „Caracteristicile pentru deosebirea acestor tipuri trebuie luate în concordanţă cu condiţiile şi formele locale de agricultură; Dacă în cultura extensivă de cereale se poate limita la gruparea pe cultură (sau pe animale de tracțiune), atunci în alte condiții este necesar să se țină cont de însămânțarea plantelor industriale, prelucrarea tehnică a produselor agricole, însămânțarea rădăcinilor sau ierburi furajere, producția de lapte, grădinărit etc.


Descărcați cartea electronică gratuit într-un format convenabil, vizionați și citiți:
Descarcă cartea Statistici aplicate, clasificări și reducere a dimensionalității, Ayvazyan S.A., Buchstaber V.M., Enyukov I.S., Meshalkin L.D., 1989 - fileskachat.com, descărcare rapidă și gratuită.

  • Statistică aplicată, Bazele modelării și procesării datelor primare, Ayvazyan S.A., Enyukov I.S., Meshalkin L.D., 1983

Lectură: 1-2 module 3 cursuri
Cerințe preliminare: Metode de analiză statistică preliminară sau cunoaștere a statisticii la nivel de bază
Intensitatea muncii: 5 credite

76 de ore de clasă:

  • 28 de ore de prelegeri;
  • 48 de ore de pregătire practică.

Forme de control:

  • examen;
  • 2 teme


Profesori

Despre curs

Metodele de analiză a tipului de dependență și a gradului de relație dintre variabile sunt utilizate pe scară largă în diverse domenii ale cercetării statistice aplicate.
Cursul acoperă metode analiza corelației pentru a evalua prezența și gradul de relație statistică între semne de natură diferită, pentru a determina structura conexiunii. Secțiunea de analiză de regresie examinează problemele de estimare și testare a semnificației parametrilor modelelor de regresie liniară și neliniară, modelelor de regresie cu structură variabilă, regresiei tipologice și modelelor de alegere binară și sistemelor de ecuații simultane. Modelarea dependenței este ilustrată cu exemple bazate pe date reale.

Cunoștințele și abilitățile dobândite în cadrul cursului vă vor permite să rezolvați o gamă largă de probleme pentru a crea o bază informațională pentru luarea deciziilor în diverse domenii de cunoaștere și activitate practică.

Studiul dependențelor este ocupația principală a experimentatorilor din orice domeniu al cunoașterii. Un obiect studiat, mai ales unul la fel de complex ca unul biologic, nu poate fi studiat în întregime. Este necesar să se evidențieze în ea anumite relații cauză-efect, care se formalizează sub formă de dependențe. Se studiază dependența efectelor de cauze sau dependența dintre mai multe efecte datorate unei cauze comune.

Un caz special este dependența oricărui atribut al unui obiect de timp– Capitolul 7 a fost dedicat studiului acestor dependențe.În acest (al optulea) capitol, dimpotrivă, vom lua în considerare în principal static dependențe în descrierea cărora timpul nu participă și totuși subiectul acestui capitol este extrem de amplu. Datorită domeniului limitat al cursului, va fi necesar să se prezinte doar „scheletul” temei luate în considerare. Se speră că cititorii se vor familiariza cu problemele specifice în studiul dependențelor prin propriile cercetări, folosind literatura extinsă despre diverse aspecte ale acestei sarcini complexe, precum și software-ul disponibil.

De exemplu, o carte de referință amănunțită, care este dificilă pentru cunoașterea inițială, este dedicată subiectului direct luat în considerare. O sursă mai simplă ar putea fi un manual. Pur și simplu și pe scurt, din perspectivă aplicativă, problemele cercetării dependenței sunt discutate în broșură. Metode moderne prelucrarea datelor experimentale este prezentată în monografie. Cu toate acestea, alături de metodele statistice complexe de analiză și prelucrare a datelor, în multe cazuri sunt utile metodele de „analiza exploratorie” vizuală, care nu vor fi luate în considerare aici, deși, desigur, nici acestea nu trebuie uitate.

8.2. Structura generală a unui experiment pentru studierea dependențelor

În formularea generală a problemei studierii dependențelor, se presupune (Fig. 8.1) că obiectul studiat este afectat de multe factori(în capitolul anterior termenul a fost folosit aproape în același sens stimul), iar rezultatul acestei influențe este raspuns, V caz general de asemenea multi-component. Printre parametrii care caracterizează componentele impactului și răspunsului, în general, pot fi cantitativi, ordinali și de clasificare și, desigur, tipurile de scale utilizate influențează foarte mult metodologia experimentului și prelucrarea datelor.

Unii dintre factori (mai precis - parametrii factori, dar în cele ce urmează nu vom urmări strictețea expresiilor) pot fi precizate sau măsurate; valorile celorlalți rămân de obicei necunoscute - introduc incertitudine în răspunsul obiectului la modificările factorilor controlați. La această incertitudine se adaugă incertitudinea în măsurarea (sau clasificarea) componentelor răspunsului. De asemenea, comportamentul obiectului în sine nu trebuie să fie complet determinist. Toate acestea duc la necesitatea utilizării pe scară largă a metodelor de statistică matematică.

Astfel, putem spune că aparatul matematic pentru studierea dependențelor are ca scop rezolvarea problemei: cum, pe baza unor rezultate particulare observatie statistica dintre evenimentele analizate, identificați și descrieți legăturile stocastice (probabilistice) existente între ele.

Pentru a reduce formulele atunci când studiați dependențele, puteți lua în considerare variabile independente („predictor”) X 1 X k ca componente vectoriale X, și variabilele dependente y 1 y m– ca componente vectoriale y. Destul de des te poți limita la a studia dependența unu variabil y din k componente vectoriale X(sau luați în considerare y 1 y m separat, ca și cum ar fi împărțit un singur experiment în m experimente private).

Cititorul este invitat la o carte care continuă implementarea planului autorilor: crearea unui manual de referință în mai multe volume despre metodele matematice moderne de prelucrare a datelor statistice, inclusiv acoperirea simultană a aparatului matematic necesar corespunzător. software Calculatoare și recomandări pentru depășirea dificultăților de calcul asociate cu utilizarea metodelor și algoritmilor descriși. Cartea se adresează specialiștilor din diverse domenii ale activității umane care folosesc metode de statistică matematică și de analiză a datelor în activitatea lor.

Pentru a înțelege materialul din carte, cititorul trebuie doar să aibă pregătire matematică în domeniul programelor unei universități de economie sau tehnică sau să se familiarizeze cu conceptele de bază ale teoriei probabilităților și statisticii matematice descrise în primul volum al cărții de referință. . La rândul său, stăpânirea materialului din cartea propusă poate servi drept bază fiabilă și convenabilă pentru o pătrundere mai profundă în subiectul de cercetare, pe baza studiului de monografii speciale și articole de reviste.

Tema cărții este, fără îndoială, centrală pentru întreaga lucrare de referință. Este așa atât în ​​profunzimea și diversitatea aparaturii matematice dezvoltate până în prezent, cât și în proporția de utilizare a metodelor și modelelor descrise în dezvoltări practice de diferite profiluri.

Scopul principal pe care mașinile și l-au stabilit a fost acela de a echipa cercetătorul care îl folosește în munca lor metode statistice, instrumentele necesare pentru rezolvarea problemei cheie a oricărei cercetări: cum, pe baza rezultatelor parțiale ale observării statistice a evenimentelor sau indicatorilor analizați, să identifice și să descrie relațiile care există între aceștia. Această problemă, problema cercetării statistice a dependențelor, se dovedește a fi principala în rezolvarea unor astfel de probleme practice tipice precum standardizarea, prognoza, planificarea, diagnosticarea, evaluarea caracteristicilor sistemului analizat, care sunt greu de observat direct și măsurarea, evaluarea eficienței de funcționare sau a calității unui obiect, reglarea parametrilor de proces sau de sistem.

Autorii s-au străduit pentru o prezentare echilibrată obiectiv a materialului atât în ​​structura cărții, cât și în conținutul acesteia. Cu toate acestea, amploarea și diversitatea problemei ridicate nu le permite acestora să pretindă o acoperire cuprinzătoare a subiectului. De exemplu, este reprezentat relativ restrâns în acest volum subiecte de analiză statistică a dependențelor dinamice; nu se face o descriere a aparatului de reguli logice de decizie, ceea ce este foarte util în anumite tipuri de probleme; Cartea nu a inclus material pe tema planificării experimentelor de regresie, ceea ce este relevant din punct de vedere practic (în special în problemele de control al proceselor tehnologice).

Cartea constă dintr-o introducere și patru secțiuni.

Introducerea joacă un rol deosebit în înțelegerea metodelor descrise mai târziu și a logicii întregii cărți în ansamblu. Putem spune că prezintă conținutul și conexiunile logice ale tuturor părților cărții într-o formă accesibilă cititorului neexperimentat. Sunt prezentate principalele enunțuri ale problemelor și „adresele” (în carte) ale soluțiilor acestora. Prezentarea este ilustrată exemple simple. Prin urmare, recomandăm cititorului relativ slab pregătit să-și facă timp pentru a citi introducerea.

Secțiunea I este dedicată metodelor și tehnicilor care ne permit să răspundem la întrebările: există vreo legătură între variabilele studiate, cum să măsuram apropierea lor și care este structura relațiilor dintre indicatorii setului studiat? ? În acest caz, structura este înțeleasă ca natura tuturor relațiilor binare posibile în perechi ale caracteristicilor luate în considerare (de tipul „există o conexiune” sau „nu există conexiune”), dar nu și forma dependenței uneia de alte. Metodele descrise în această secțiune formează conținutul analizei de corelație.

Secțiunea II conține o descriere a metodelor și modelelor care ne permit să studiem tipul de dependență a indicatorului cantitativ „ieșire” (sau „rezultat”) care ne interesează de un set de variabile explicative de natură cantitativă ( analiza regresiei). Un capitol separat (Capitolul 12) are în vedere cazul în care „timpul” joacă rolul unei variabile explicative.

ÎN secțiunea III se rezolvă aceleaşi probleme ca în secţiunea II, dar într-o situaţie în care caracteristicile necantitative sau simultan necantitative şi cantitative acţionează ca variabile explicative (analiza varianţei şi covarianţei).

În sfârșit, Secțiunea IV include un capitol dedicat descrierii metodelor de analiză statistică a așa-numitelor sisteme de ecuații econometrice simultane (adică un set de relații executate simultan în care aceleași variabile pot participa în relații diferite: ambele ca indicator rezultat). și ca variabilă predictor) și un capitol care oferă o privire de ansamblu asupra celor mai interesante metode software interne și străine pentru cercetarea statistică a dependențelor.

Pentru a restrânge rezultatele căutării, vă puteți rafina interogarea specificând câmpurile de căutat. Lista câmpurilor este prezentată mai sus. De exemplu:

Puteți căuta în mai multe câmpuri în același timp:

Operatori logici

Operatorul implicit este ȘI.
Operator ȘIînseamnă că documentul trebuie să se potrivească cu toate elementele din grup:

Cercetare & Dezvoltare

Operator SAUînseamnă că documentul trebuie să se potrivească cu una dintre valorile din grup:

studiu SAU dezvoltare

Operator NU exclude documentele care conțin acest element:

studiu NU dezvoltare

Tipul de căutare

Când scrieți o interogare, puteți specifica metoda în care va fi căutată expresia. Sunt acceptate patru metode: căutare ținând cont de morfologie, fără morfologie, căutare de prefix, căutare de fraze.
În mod implicit, căutarea este efectuată ținând cont de morfologie.
Pentru a căuta fără morfologie, trebuie doar să puneți un semn „dolar” în fața cuvintelor din fraza:

$ studiu $ dezvoltare

Pentru a căuta un prefix, trebuie să puneți un asterisc după interogare:

studiu *

Pentru a căuta o expresie, trebuie să includeți interogarea între ghilimele duble:

" cercetare si dezvoltare "

Căutați după sinonime

Pentru a include sinonime ale unui cuvânt în rezultatele căutării, trebuie să puneți un hash " # „ înaintea unui cuvânt sau înaintea unei expresii între paranteze.
Când se aplică unui cuvânt, vor fi găsite până la trei sinonime pentru acesta.
Când se aplică unei expresii între paranteze, la fiecare cuvânt se va adăuga un sinonim dacă se găsește unul.
Nu este compatibil cu căutarea fără morfologie, căutarea de prefix sau căutarea de expresii.

# studiu

Gruparea

Pentru a grupa expresiile de căutare, trebuie să utilizați paranteze. Acest lucru vă permite să controlați logica booleană a cererii.
De exemplu, trebuie să faceți o cerere: găsiți documente al căror autor este Ivanov sau Petrov, iar titlul conține cuvintele cercetare sau dezvoltare:

Căutare aproximativă de cuvinte

Pentru o căutare aproximativă trebuie să puneți un tilde " ~ " la sfârșitul unui cuvânt dintr-o frază. De exemplu:

brom ~

La căutare, vor fi găsite cuvinte precum „brom”, „rom”, „industrial”, etc.
Puteti specifica in plus suma maxima posibile editări: 0, 1 sau 2. De exemplu:

brom ~1

În mod implicit, sunt permise 2 editări.

Criteriul de proximitate

Pentru a căuta după criteriul de proximitate, trebuie să puneți un tilde " ~ " la sfârșitul frazei. De exemplu, pentru a găsi documente cu cuvintele cercetare și dezvoltare în termen de 2 cuvinte, utilizați următoarea interogare:

" Cercetare & Dezvoltare "~2

Relevanța expresiilor

Pentru a modifica relevanța expresiilor individuale în căutare, utilizați semnul „ ^ „ la finalul expresiei, urmat de nivelul de relevanță al acestei expresii în raport cu celelalte.
Cu cât nivelul este mai ridicat, cu atât expresia este mai relevantă.
De exemplu, în această expresie, cuvântul „cercetare” este de patru ori mai relevant decât cuvântul „dezvoltare”:

studiu ^4 dezvoltare

În mod implicit, nivelul este 1. Valorile valide sunt un număr real pozitiv.

Căutați într-un interval

Pentru a indica intervalul în care ar trebui să fie situată valoarea unui câmp, trebuie să indicați valorile limită în paranteze, separate de operator LA.
Se va efectua sortarea lexicografică.

O astfel de interogare va returna rezultate cu un autor care începe de la Ivanov și se termină cu Petrov, dar Ivanov și Petrov nu vor fi incluși în rezultat.
Pentru a include o valoare într-un interval, utilizați paranteze pătrate. Pentru a exclude o valoare, utilizați acolade.