Η ανάλυση παλινδρόμησης είναι μια μέθοδος μοντελοποίησης δεδομένων μέτρησης και μελέτης των ιδιοτήτων τους. Τα δεδομένα αποτελούνται από ζεύγη τιμών της εξαρτημένης μεταβλητής (μεταβλητή απόκρισης) και της ανεξάρτητης μεταβλητής (επεξηγηματική μεταβλητή). Ένα μοντέλο παλινδρόμησης είναι μια συνάρτηση της ανεξάρτητης μεταβλητής και των παραμέτρων με μια πρόσθετη τυχαία μεταβλητή.

Η ανάλυση συσχέτισης και η ανάλυση παλινδρόμησης είναι σχετικές ενότητες μαθηματικών στατιστικών και προορίζονται για τη μελέτη της στατιστικής εξάρτησης ενός αριθμού ποσοτήτων χρησιμοποιώντας δειγματοληπτικά δεδομένα. μερικά από τα οποία είναι τυχαία. Με τη στατιστική εξάρτηση, οι ποσότητες δεν σχετίζονται λειτουργικά, αλλά ορίζονται ως τυχαίες μεταβλητές με κοινή κατανομή πιθανοτήτων.

Η μελέτη της εξάρτησης των τυχαίων μεταβλητών οδηγεί σε μοντέλα παλινδρόμησης και ανάλυση παλινδρόμησης με βάση δειγματοληπτικά δεδομένα. Η θεωρία πιθανοτήτων και οι μαθηματικές στατιστικές αντιπροσωπεύουν μόνο ένα εργαλείο για τη μελέτη της στατιστικής εξάρτησης, αλλά δεν στοχεύουν στη δημιουργία μιας αιτιώδους σχέσης. Ιδέες και υποθέσεις για μια αιτιακή σχέση πρέπει να προέρχονται από κάποια άλλη θεωρία που επιτρέπει μια ουσιαστική εξήγηση του φαινομένου που μελετάται.

Τα αριθμητικά δεδομένα έχουν συνήθως ρητές (γνωστές) ή σιωπηρές (κρυφές) σχέσεις μεταξύ τους.

Οι δείκτες που λαμβάνονται με άμεσες μεθόδους υπολογισμού, δηλαδή, που υπολογίζονται με χρήση προηγουμένως γνωστών τύπων, σχετίζονται σαφώς. Για παράδειγμα, ποσοστά ολοκλήρωσης σχεδίου, επίπεδα, ειδικά βάρη, αποκλίσεις στο ποσό, αποκλίσεις σε ποσοστά, ρυθμοί ανάπτυξης, ρυθμοί ανάπτυξης, δείκτες κ.λπ.

Οι συνδέσεις του δεύτερου τύπου (σιωπηρές) είναι άγνωστες εκ των προτέρων. Ωστόσο, είναι απαραίτητο να μπορούμε να εξηγήσουμε και να προβλέψουμε (πρόβλεψη) πολύπλοκα φαινόμενα για να τα διαχειριστούμε. Επομένως, οι ειδικοί, με τη βοήθεια των παρατηρήσεων, προσπαθούν να εντοπίσουν κρυφές εξαρτήσεις και να τις εκφράσουν με τη μορφή τύπων, δηλαδή να μοντελοποιήσουν μαθηματικά φαινόμενα ή διαδικασίες. Μια τέτοια ευκαιρία παρέχεται από την ανάλυση συσχέτισης-παλίνδρομου.

Τα μαθηματικά μοντέλα κατασκευάζονται και χρησιμοποιούνται για τρεις γενικούς σκοπούς:

  • * για εξήγηση.
  • * για πρόβλεψη?
  • * Για οδήγηση.

Χρησιμοποιώντας μεθόδους συσχέτισης ανάλυση παλινδρόμησης, οι αναλυτές μετρούν τη στενότητα των συνδέσεων μεταξύ των δεικτών χρησιμοποιώντας τον συντελεστή συσχέτισης. Σε αυτή την περίπτωση, ανακαλύπτονται συνδέσεις που είναι διαφορετικές σε δύναμη (ισχυρή, ασθενής, μέτρια κ.λπ.) και διαφορετική κατεύθυνση (άμεση, αντίστροφη). Εάν οι συνδέσεις αποδειχθούν σημαντικές, τότε θα ήταν σκόπιμο να βρεθεί η μαθηματική τους έκφραση με τη μορφή ενός μοντέλου παλινδρόμησης και να αξιολογηθεί η στατιστική σημασία του μοντέλου.

Η ανάλυση παλινδρόμησης ονομάζεται η κύρια μέθοδος των σύγχρονων μαθηματικών στατιστικών για τον εντοπισμό άρρητων και συγκαλυμμένων συνδέσεων μεταξύ δεδομένων παρατήρησης.

Η δήλωση προβλήματος της ανάλυσης παλινδρόμησης διατυπώνεται ως εξής.

Υπάρχει ένα σύνολο αποτελεσμάτων παρατήρησης. Σε αυτό το σύνολο, μια στήλη αντιστοιχεί σε έναν δείκτη για τον οποίο είναι απαραίτητο να δημιουργηθεί μια λειτουργική σχέση με τις παραμέτρους του αντικειμένου και του περιβάλλοντος που αντιπροσωπεύονται από τις υπόλοιπες στήλες. Απαιτείται: καθιερώστε μια ποσοτική σχέση μεταξύ του δείκτη και των παραγόντων. Σε αυτή την περίπτωση, το πρόβλημα της ανάλυσης παλινδρόμησης κατανοείται ως το καθήκον του προσδιορισμού μιας τέτοιας λειτουργικής εξάρτησης y = f (x2, x3, ..., xт), η οποία περιγράφει καλύτερα τα διαθέσιμα πειραματικά δεδομένα.

Υποθέσεις:

ο αριθμός των παρατηρήσεων είναι επαρκής για να καταδείξει στατιστικά πρότυπα σχετικά με τους παράγοντες και τις σχέσεις τους.

τα επεξεργασμένα δεδομένα περιέχουν ορισμένα σφάλματα (θόρυβος) που οφείλονται σε σφάλματα μέτρησης και στην επίδραση μη καταγεγραμμένων τυχαίων παραγόντων.

ο πίνακας αποτελεσμάτων παρατήρησης είναι η μόνη πληροφορία για το αντικείμενο που μελετάται που είναι διαθέσιμη πριν από την έναρξη της μελέτης.

Η συνάρτηση f (x2, x3, ..., xт), που περιγράφει την εξάρτηση του δείκτη από τις παραμέτρους, ονομάζεται εξίσωση παλινδρόμησης (συνάρτηση). Ο όρος «οπισθοδρόμηση» (οπισθοδρόμηση (λατ.) - υποχώρηση, επιστροφή σε κάτι) σχετίζεται με τις ιδιαιτερότητες ενός από συγκεκριμένα καθήκοντα, αποφασίστηκε στο στάδιο ανάπτυξης της μεθόδου.

Συνιστάται να χωριστεί η λύση στο πρόβλημα της ανάλυσης παλινδρόμησης σε διάφορα στάδια:

προεπεξεργασία δεδομένων·

Επιλέγοντας τον τύπο των εξισώσεων παλινδρόμησης.

υπολογισμός των συντελεστών εξίσωσης παλινδρόμησης.

έλεγχος της καταλληλότητας της κατασκευασμένης συνάρτησης στα αποτελέσματα παρατήρησης.

Η προεπεξεργασία περιλαμβάνει την τυποποίηση του πίνακα δεδομένων, τον υπολογισμό των συντελεστών συσχέτισης, τον έλεγχο της σημασίας τους και τον αποκλεισμό ασήμαντων παραμέτρων από την εξέταση.

Επιλογή του τύπου της εξίσωσης παλινδρόμησης Το έργο του προσδιορισμού της λειτουργικής σχέσης που περιγράφει καλύτερα τα δεδομένα περιλαμβάνει την υπέρβαση ορισμένων θεμελιωδών δυσκολιών. ΣΕ γενική περίπτωσηγια τυποποιημένα δεδομένα, η λειτουργική εξάρτηση του δείκτη από τις παραμέτρους μπορεί να αναπαρασταθεί ως

y = f (x1, x2, …, xm) + e

όπου f είναι μια προηγουμένως άγνωστη συνάρτηση που πρέπει να προσδιοριστεί.

e - σφάλμα προσέγγισης δεδομένων.

Αυτή η εξίσωση ονομάζεται συνήθως εξίσωση παλινδρόμησης δείγματος. Αυτή η εξίσωση χαρακτηρίζει τη σχέση μεταξύ της διακύμανσης του δείκτη και των διακυμάνσεων των παραγόντων. Και το μέτρο συσχέτισης μετρά το ποσοστό διακύμανσης σε έναν δείκτη που σχετίζεται με διακύμανση παραγόντων. Με άλλα λόγια, η συσχέτιση μεταξύ ενός δείκτη και των παραγόντων δεν μπορεί να ερμηνευθεί ως σύνδεση μεταξύ των επιπέδων τους και η ανάλυση παλινδρόμησης δεν εξηγεί το ρόλο των παραγόντων στη δημιουργία ενός δείκτη.

Ένα άλλο χαρακτηριστικό αφορά την αξιολόγηση του βαθμού επιρροής κάθε παράγοντα στον δείκτη. Η εξίσωση παλινδρόμησης δεν παρέχει αξιολόγηση της χωριστής επιρροής κάθε παράγοντα στον δείκτη· μια τέτοια εκτίμηση είναι δυνατή μόνο στην περίπτωση που όλοι οι άλλοι παράγοντες δεν σχετίζονται με αυτόν που μελετάται. Εάν ο παράγοντας που μελετάται σχετίζεται με άλλους που επηρεάζουν τον δείκτη, τότε το αποτέλεσμα θα είναι μικτά χαρακτηριστικάεπιρροή παράγοντα. Αυτό το χαρακτηριστικό περιέχει τόσο την άμεση επιρροή του παράγοντα όσο και την έμμεση επιρροή που ασκείται μέσω της σύνδεσης με άλλους παράγοντες και την επιρροή τους στον δείκτη.

Δεν συνιστάται να συμπεριλάβετε παράγοντες που σχετίζονται ασθενώς με τον δείκτη, αλλά σχετίζονται στενά με άλλους παράγοντες, στην εξίσωση παλινδρόμησης. Οι παράγοντες που σχετίζονται λειτουργικά μεταξύ τους δεν περιλαμβάνονται στην εξίσωση (για αυτούς ο συντελεστής συσχέτισης είναι 1). Η συμπερίληψη τέτοιων παραγόντων οδηγεί σε εκφυλισμό του συστήματος εξισώσεων για την εκτίμηση των συντελεστών παλινδρόμησης και στην αβεβαιότητα της λύσης.

Η συνάρτηση f πρέπει να επιλεγεί έτσι ώστε το σφάλμα e να είναι κατά κάποιο τρόπο ελάχιστο. Για να επιλέξετε μια συναρτησιακή σύνδεση, τίθεται εκ των προτέρων μια υπόθεση σχετικά με την κατηγορία στην οποία μπορεί να ανήκει η συνάρτηση f και στη συνέχεια επιλέγεται η «καλύτερη» συνάρτηση αυτής της κλάσης. Η επιλεγμένη κατηγορία συναρτήσεων πρέπει να έχει κάποια «ομαλότητα», π.χ. Οι "μικρές" αλλαγές στις τιμές των ορισμάτων θα πρέπει να προκαλούν "μικρές" αλλαγές στις τιμές των συναρτήσεων.

Μια ειδική περίπτωση που χρησιμοποιείται ευρέως στην πράξη είναι μια εξίσωση πολυωνυμικής ή γραμμικής παλινδρόμησης πρώτου βαθμού

Για να επιλέξετε τον τύπο της λειτουργικής εξάρτησης, μπορεί να προταθεί η ακόλουθη προσέγγιση:

Τα σημεία με τιμές ενδείξεων εμφανίζονται γραφικά στο χώρο παραμέτρων. Στο μεγάλες ποσότητεςπαραμέτρους, μπορείτε να κατασκευάσετε σημεία σε σχέση με καθένα από αυτά, λαμβάνοντας δισδιάστατες κατανομές τιμών.

με βάση τη θέση των σημείων και με βάση την ανάλυση της ουσίας της σχέσης μεταξύ του δείκτη και των παραμέτρων του αντικειμένου, συνάγεται ένα συμπέρασμα σχετικά με τον κατά προσέγγιση τύπο παλινδρόμησης ή τις πιθανές επιλογές του.

Μετά τον υπολογισμό των παραμέτρων, αξιολογείται η ποιότητα της προσέγγισης, δηλ. να αξιολογήσει τον βαθμό ομοιότητας μεταξύ υπολογισμένων και πραγματικών τιμών.

εάν οι υπολογισμένες και οι πραγματικές τιμές είναι κοντά σε ολόκληρη την περιοχή εργασιών, τότε το πρόβλημα της ανάλυσης παλινδρόμησης μπορεί να θεωρηθεί λυμένο. Διαφορετικά, μπορείτε να δοκιμάσετε να επιλέξετε διαφορετικό τύπο πολυωνύμου ή άλλη αναλυτική συνάρτηση, όπως μια περιοδική.

Υπολογισμός Συντελεστών Εξίσωσης Παλινδρόμησης

Είναι αδύνατο να λυθεί ξεκάθαρα ένα σύστημα εξισώσεων με βάση τα διαθέσιμα δεδομένα, καθώς ο αριθμός των αγνώστων είναι πάντα μεγαλύτερος από τον αριθμό των εξισώσεων. Για να ξεπεραστεί αυτό το πρόβλημα, χρειάζονται πρόσθετες υποθέσεις. ΚΟΙΝΗ ΛΟΓΙΚΗπροτείνει: συνιστάται η επιλογή των συντελεστών του πολυωνύμου με τέτοιο τρόπο ώστε να διασφαλίζεται ένα ελάχιστο σφάλμα στην προσέγγιση των δεδομένων. Μπορούν να χρησιμοποιηθούν διάφορα μέτρα για την αξιολόγηση των σφαλμάτων προσέγγισης. Το ριζικό μέσο τετραγωνικό σφάλμα χρησιμοποιείται ευρέως ως τέτοιο μέτρο. Στη βάση της, έχει αναπτυχθεί μια ειδική μέθοδος για την εκτίμηση των συντελεστών των εξισώσεων παλινδρόμησης - η μέθοδος ελάχιστα τετράγωνα(MNC). Αυτή η μέθοδος σάς επιτρέπει να λαμβάνετε εκτιμήσεις μέγιστης πιθανότητας των άγνωστων συντελεστών της εξίσωσης παλινδρόμησης κάτω από την επιλογή κανονικής κατανομής, αλλά μπορεί να χρησιμοποιηθεί για οποιαδήποτε άλλη κατανομή παραγόντων.

Το MNC βασίζεται στις ακόλουθες διατάξεις:

οι τιμές των σφαλμάτων και των παραγόντων είναι ανεξάρτητες και επομένως ασύνδετες, δηλ. Υποτίθεται ότι οι μηχανισμοί για τη δημιουργία παρεμβολών δεν σχετίζονται με τον μηχανισμό για τη δημιουργία τιμών συντελεστών.

αναμενόμενη αξίαΤο σφάλμα e πρέπει να είναι ίσο με μηδέν (η σταθερή συνιστώσα περιλαμβάνεται στον συντελεστή a0), με άλλα λόγια, το σφάλμα είναι μια κεντραρισμένη ποσότητα.

η εκτίμηση του δείγματος της διακύμανσης σφάλματος πρέπει να είναι ελάχιστη.

Αν γραμμικό μοντέλοείναι ανακριβής ή οι παράμετροι μετρώνται ανακριβώς, τότε σε αυτήν την περίπτωση η μέθοδος των ελαχίστων τετραγώνων μας επιτρέπει να βρούμε τέτοιες τιμές των συντελεστών στους οποίους το γραμμικό μοντέλο περιγράφει καλύτερα το πραγματικό αντικείμενο με την έννοια του επιλεγμένου κριτηρίου τυπικής απόκλισης.

Η ποιότητα της προκύπτουσας εξίσωσης παλινδρόμησης αξιολογείται από το βαθμό εγγύτητας μεταξύ των αποτελεσμάτων των παρατηρήσεων του δείκτη και των τιμών που προβλέπονται από την εξίσωση παλινδρόμησης στο δοθέντες πόντουςχώρο παραμέτρων. Εάν τα αποτελέσματα είναι κοντά, τότε το πρόβλημα της ανάλυσης παλινδρόμησης μπορεί να θεωρηθεί λυμένο. Διαφορετικά, θα πρέπει να αλλάξετε την εξίσωση παλινδρόμησης και να επαναλάβετε τους υπολογισμούς για να υπολογίσετε τις παραμέτρους.

Εάν υπάρχουν πολλοί δείκτες, το πρόβλημα της ανάλυσης παλινδρόμησης επιλύεται ανεξάρτητα για καθέναν από αυτούς.

Αναλύοντας την ουσία της εξίσωσης παλινδρόμησης, πρέπει να σημειωθούν τα ακόλουθα σημεία. Η εξεταζόμενη προσέγγιση δεν παρέχει χωριστή (ανεξάρτητη) αξιολόγηση των συντελεστών - μια αλλαγή στην τιμή ενός συντελεστή συνεπάγεται αλλαγή στις τιμές άλλων. Οι λαμβανόμενοι συντελεστές δεν πρέπει να θεωρούνται ως η συμβολή της αντίστοιχης παραμέτρου στην τιμή του δείκτη. Μια εξίσωση παλινδρόμησης είναι απλώς μια καλή αναλυτική περιγραφή των διαθέσιμων δεδομένων και όχι ένας νόμος που περιγράφει τη σχέση μεταξύ παραμέτρων και ενός δείκτη. Αυτή η εξίσωση χρησιμοποιείται για τον υπολογισμό των τιμών του δείκτη σε ένα δεδομένο εύρος αλλαγών παραμέτρων. Είναι περιορισμένης καταλληλότητας για υπολογισμούς εκτός αυτού του εύρους, δηλ. μπορεί να χρησιμοποιηθεί για την επίλυση προβλημάτων παρεμβολής και, σε περιορισμένο βαθμό, για παρέκταση.

Ο κύριος λόγος για την ανακρίβεια της πρόβλεψης δεν είναι τόσο η αβεβαιότητα της παρέκτασης της γραμμής παλινδρόμησης, αλλά η σημαντική διακύμανση του δείκτη λόγω παραγόντων που δεν λαμβάνονται υπόψη στο μοντέλο. Ο περιορισμός της ικανότητας πρόβλεψης είναι η συνθήκη σταθερότητας των παραμέτρων που δεν λαμβάνονται υπόψη στο μοντέλο και η φύση της επίδρασης των παραγόντων του μοντέλου που λαμβάνονται υπόψη. Αν αλλάξει απότομα εξωτερικό περιβάλλον, τότε η μεταγλωττισμένη εξίσωση παλινδρόμησης θα χάσει το νόημά της.

Η πρόβλεψη που προκύπτει αντικαθιστώντας την αναμενόμενη τιμή της παραμέτρου στην εξίσωση παλινδρόμησης είναι ένα σημείο. Η πιθανότητα να πραγματοποιηθεί μια τέτοια πρόβλεψη είναι αμελητέα. Είναι σκόπιμο να προσδιοριστεί διάστημα εμπιστοσύνηςπρόβλεψη. Για μεμονωμένες τιμές του δείκτη, το διάστημα θα πρέπει να λαμβάνει υπόψη τα σφάλματα στη θέση της γραμμής παλινδρόμησης και τις αποκλίσεις των μεμονωμένων τιμών από αυτήν τη γραμμή.

Διάλεξη 3.

Ανάλυση παλινδρόμησης.

1) Αριθμητικά χαρακτηριστικά παλινδρόμησης

2) Γραμμική παλινδρόμηση

3) Μη γραμμική παλινδρόμηση

4) Πολλαπλή παλινδρόμηση

5) Χρήση του MS EXCEL για την εκτέλεση ανάλυσης παλινδρόμησης

Εργαλείο ελέγχου και αξιολόγησης - εργασίες δοκιμής

1. Αριθμητικά χαρακτηριστικά παλινδρόμησης

Ανάλυση παλινδρόμησης - στατιστική μέθοδοςμελέτες της επιρροής μιας ή περισσότερων ανεξάρτητων μεταβλητών σε μια εξαρτημένη μεταβλητή. Οι ανεξάρτητες μεταβλητές ονομάζονται αλλιώς παλινδρομητές ή προγνωστικοί παράγοντες και οι εξαρτημένες μεταβλητές ονομάζονται μεταβλητές κριτηρίου. Η ορολογία των εξαρτημένων και ανεξάρτητων μεταβλητών αντικατοπτρίζει μόνο τη μαθηματική εξάρτηση των μεταβλητών και όχι τις σχέσεις αιτίου-αποτελέσματος.

Στόχοι Ανάλυσης Παλινδρόμησης

  • Προσδιορισμός του βαθμού προσδιορισμού της διακύμανσης μιας μεταβλητής κριτηρίου (εξαρτώμενη) από προγνωστικούς παράγοντες (ανεξάρτητες μεταβλητές).
  • Πρόβλεψη της τιμής μιας εξαρτημένης μεταβλητής χρησιμοποιώντας τις ανεξάρτητες μεταβλητές.
  • Προσδιορισμός της συμβολής μεμονωμένων ανεξάρτητων μεταβλητών στη διακύμανση της εξαρτημένης μεταβλητής.

Η ανάλυση παλινδρόμησης δεν μπορεί να χρησιμοποιηθεί για να προσδιοριστεί εάν υπάρχει σχέση μεταξύ των μεταβλητών, καθώς η παρουσία μιας τέτοιας σχέσης αποτελεί προϋπόθεση για την εφαρμογή της ανάλυσης.

Για να πραγματοποιήσετε ανάλυση παλινδρόμησης, πρέπει πρώτα να εξοικειωθείτε ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣστατιστική και θεωρία πιθανοτήτων.

Βασικά αριθμητικά χαρακτηριστικά διακριτών και συνεχών τυχαίων μεταβλητών: μαθηματική προσδοκία, διασπορά και τυπική απόκλιση.

Οι τυχαίες μεταβλητές χωρίζονται σε δύο τύπους:

  • · διακριτό, το οποίο μπορεί να λάβει μόνο συγκεκριμένες, προκαθορισμένες τιμές (για παράδειγμα, οι τιμές των αριθμών στο πάνω άκρο ενός πεταμένου ζάριαή τις τακτικές τιμές του τρέχοντος μήνα).
  • · συνεχής (τις περισσότερες φορές - οι τιμές ορισμένων φυσικών μεγεθών: βάρος, απόσταση, θερμοκρασία κ.λπ.), οι οποίες, σύμφωνα με τους νόμους της φύσης, μπορούν να λάβουν οποιεσδήποτε τιμές, τουλάχιστον σε ένα ορισμένο διάστημα.

Ο νόμος κατανομής μιας τυχαίας μεταβλητής είναι η αντιστοιχία μεταξύ των πιθανών τιμών μιας διακριτής τυχαίας μεταβλητής και των πιθανοτήτων της, που συνήθως γράφονται σε έναν πίνακα:

Ο στατιστικός ορισμός της πιθανότητας εκφράζεται μέσω της σχετικής συχνότητας ενός τυχαίου γεγονότος, δηλαδή, βρίσκεται ως ο λόγος του αριθμού των τυχαίων μεταβλητών προς τον συνολικό αριθμό των τυχαίων μεταβλητών.

Μαθηματική προσδοκία μιας διακριτής τυχαίας μεταβλητήςΧονομάζεται το άθροισμα των γινομένων των τιμών μιας ποσότητας Χσχετικά με την πιθανότητα αυτών των τιμών. Η μαθηματική προσδοκία συμβολίζεται με ή Μ(Χ) .

n

= Μ(Χ) = Χ 1 Π 1 + Χ 2 Π 2 +… + x n p n = μικρό x i πι

Εγώ=1

Η διασπορά μιας τυχαίας μεταβλητής σε σχέση με τη μαθηματική της προσδοκία προσδιορίζεται χρησιμοποιώντας ένα αριθμητικό χαρακτηριστικό που ονομάζεται διασπορά. Με απλά λόγια, η διακύμανση είναι η εξάπλωση μιας τυχαίας μεταβλητής γύρω από τη μέση τιμή. Για να κατανοήσετε την ουσία της διασποράς, εξετάστε ένα παράδειγμα. Μέση τιμή μισθόςσε εθνικό επίπεδο είναι περίπου 25 χιλιάδες ρούβλια. Από πού προέρχεται αυτός ο αριθμός; Πιθανότατα, όλοι οι μισθοί αθροίζονται και διαιρούνται με τον αριθμό των εργαζομένων. Σε αυτή την περίπτωση, υπάρχει πολύ μεγάλη διασπορά (ο ελάχιστος μισθός είναι περίπου 4 χιλιάδες ρούβλια και ο μέγιστος είναι περίπου 100 χιλιάδες ρούβλια). Αν ο μισθός όλων ήταν ο ίδιος, τότε η διακύμανση θα ήταν μηδενική και δεν θα υπήρχε spread.

Διασπορά μιας διακριτής τυχαίας μεταβλητήςΧείναι η μαθηματική προσδοκία της διαφοράς του τετραγώνου μιας τυχαίας μεταβλητής και η μαθηματική της προσδοκία:

D = M [ ((X - M (X)) 2 ]

Χρησιμοποιώντας τον ορισμό της μαθηματικής προσδοκίας για τον υπολογισμό της διακύμανσης, λαμβάνουμε τον τύπο:

D = S (x i - M (X)) 2 p i

Η διακύμανση έχει τη διάσταση του τετραγώνου της τυχαίας μεταβλητής. Σε περιπτώσεις που πρέπει να έχετε αριθμητικό χαρακτηριστικόΗ διασπορά πιθανών τιμών στην ίδια διάσταση με την ίδια την τυχαία μεταβλητή χρησιμοποιεί τον μέσο όρο τυπική απόκλιση.

Τυπική απόκλισημια τυχαία μεταβλητή ονομάζεται τετραγωνική ρίζα της διακύμανσής της.

Η τυπική απόκλιση είναι ένα μέτρο της διασποράς των τιμών μιας τυχαίας μεταβλητής γύρω από τις μαθηματικές προσδοκίες της.

Παράδειγμα.

Ο νόμος κατανομής της τυχαίας μεταβλητής X δίνεται από τον ακόλουθο πίνακα:

Βρείτε τη μαθηματική προσδοκία, τη διακύμανση και την τυπική απόκλιση .

Χρησιμοποιούμε τους παραπάνω τύπους:

M (X) = 1 0,1 + 2 0,4 + 4 0,4 ​​+ 5 0,1 = 3

D = (1-3) 2 0,1 + (2 - 3) 2 0,4 + (4 - 3) 2 0,4 + (5 - 3) 2 0,1 = 1,6

Παράδειγμα.

Στην κλήρωση μετρητών παίζονται 1 νίκη των 1000 ρούβλια, 10 νίκες από 100 ρούβλια η καθεμία και 100 νίκες από 1 ρούβλι η καθεμία. συνολικός αριθμός 10.000 δελτία Σχεδιάστε έναν νόμο κατανομής τυχαίων κερδών X για τον κάτοχο ενός λαχνού και προσδιορίστε τη μαθηματική προσδοκία, τη διασπορά και την τυπική απόκλιση της τυχαίας μεταβλητής.

X 1 = 1000, X 2 = 100, X 3 = 1, X 4 = 0,

P 1 = 1/10000 = 0,0001, P 2 = 10/10000 = 0,001, P 3 = 100/10000 = 0,01, P 4 = 1 - (P 1 + P 2 + P 3) = 0,9889 .

Ας βάλουμε τα αποτελέσματα στον πίνακα:

Η μαθηματική προσδοκία είναι το άθροισμα των ζευγαρωμένων γινομένων της τιμής μιας τυχαίας μεταβλητής και της πιθανότητάς της. Για αυτήν την εργασία, συνιστάται να την υπολογίσετε χρησιμοποιώντας τον τύπο

1000 · 0,0001 + 100 · 0,001 + 1 · 0,01 + 0 · 0,9889 = 0,21 ρούβλια.

Λάβαμε μια πραγματική «δίκαιη» τιμή εισιτηρίου.

D = S (x i - M (X)) 2 p i = (1000 - 0,21) 2 0,0001 + (100 - 0,21) 2 0,001 +

+ (1 - 0,21) 2 0,01 + (0 - 0,21) 2 0,9889 ≈ 109,97

Συνάρτηση κατανομής συνεχών τυχαίων μεταβλητών

Μια τιμή που, ως αποτέλεσμα μιας δοκιμής, θα λάβει μια πιθανή τιμή (η οποία δεν είναι γνωστή εκ των προτέρων) ονομάζεται τυχαία μεταβλητή. Όπως αναφέρθηκε παραπάνω, οι τυχαίες μεταβλητές μπορεί να είναι διακριτές (ασυνεχείς) και συνεχείς.

Η διακριτή είναι μια τυχαία μεταβλητή που χωρίζεται η μία από την άλλη πιθανές τιμέςμε ορισμένες πιθανότητες που μπορούν να αριθμηθούν.

Το Continuous είναι μια τυχαία μεταβλητή που μπορεί να πάρει όλες τις τιμές από κάποιο πεπερασμένο ή άπειρο διάστημα.

Μέχρι αυτό το σημείο, περιοριζόμασταν μόνο σε έναν «τύπο» τυχαίων μεταβλητών - διακριτές, δηλ. λαμβάνοντας πεπερασμένες τιμές.

Αλλά η θεωρία και η πρακτική της στατιστικής απαιτούν τη χρήση της έννοιας μιας συνεχούς τυχαίας μεταβλητής - επιτρέποντας οποιαδήποτε αριθμητικές τιμές, από οποιοδήποτε διάστημα.

Είναι βολικό να ορίσουμε τον νόμο κατανομής μιας συνεχούς τυχαίας μεταβλητής χρησιμοποιώντας τη λεγόμενη συνάρτηση πυκνότητας πιθανότητας. f(x). Πιθανότητα P (α< X < b) того, что значение, принятое случайной величиной Х, попадет в промежуток (a; b), определяется равенством

P(a< X < b) = ∫ φά(Χ) dx

Η γραφική παράσταση της συνάρτησης f (x) ονομάζεται καμπύλη κατανομής. Γεωμετρικά, η πιθανότητα μιας τυχαίας μεταβλητής να πέσει στο διάστημα (a; b) είναι ίση με το εμβαδόν του αντίστοιχου καμπύλο τραπεζοειδές, που περιορίζεται από την καμπύλη κατανομής, τον άξονα Ox και τις ευθείες x = a, x = b.

P(a £ X

Εάν ένα πεπερασμένο ή μετρήσιμο σύνολο αφαιρεθεί από ένα μιγαδικό γεγονός, η πιθανότητα εμφάνισης ενός νέου γεγονότος παραμένει αμετάβλητη.

Συνάρτηση f(x) - μια αριθμητική βαθμωτή συνάρτηση του πραγματικού ορίσματος x ονομάζεται πυκνότητα πιθανότητας και υπάρχει σε ένα σημείο x εάν υπάρχει όριο σε αυτό το σημείο:

Ιδιότητες πυκνότητας πιθανότητας:

  1. Η πυκνότητα πιθανότητας είναι μια μη αρνητική συνάρτηση, δηλαδή f(x) ≥ 0

(αν όλες οι τιμές της τυχαίας μεταβλητής X περιέχονται στο διάστημα (a;b), τότε η τελευταία

η ισότητα μπορεί να γραφτεί ως ∫ f (x) dx = 1).

Ας εξετάσουμε τώρα τη συνάρτηση F(x) = P(X< х). Эта функция называется функцией распределения вероятности случайной величины Х. Функция F(х) существует как для дискретных, так и для непрерывных случайных величин. Если f (x) - функция плотности распределения вероятности

συνεχής τυχαία μεταβλητή X, μετά F (x) = ∫ f(x) dx = 1).

Από την τελευταία ισότητα προκύπτει ότι f (x) = F" (x)

Μερικές φορές η συνάρτηση f(x) ονομάζεται συνάρτηση κατανομής διαφορικής πιθανότητας και η συνάρτηση F(x) ονομάζεται συνάρτηση αθροιστικής κατανομής πιθανότητας.

Ας σημειώσουμε τις πιο σημαντικές ιδιότητες της συνάρτησης κατανομής πιθανότητας:

  1. Η F(x) είναι μια μη φθίνουσα συνάρτηση.
  2. F (- ∞) = 0.
  3. F (+ ∞) = 1.

Η έννοια της συνάρτησης κατανομής είναι κεντρική στη θεωρία πιθανοτήτων. Χρησιμοποιώντας αυτήν την έννοια, μπορούμε να δώσουμε έναν άλλο ορισμό μιας συνεχούς τυχαίας μεταβλητής. Μια τυχαία μεταβλητή ονομάζεται συνεχής εάν η αθροιστική συνάρτηση κατανομής της F(x) είναι συνεχής.

Αριθμητικά χαρακτηριστικά συνεχών τυχαίων μεταβλητών

Οι μαθηματικές προσδοκίες, η διασπορά και άλλες παράμετροι οποιωνδήποτε τυχαίων μεταβλητών υπολογίζονται σχεδόν πάντα χρησιμοποιώντας τύπους που προκύπτουν από τον νόμο κατανομής.

Για μια συνεχή τυχαία μεταβλητή, η μαθηματική προσδοκία υπολογίζεται χρησιμοποιώντας τον τύπο:

M(X) = ∫ x f(Χ) dx

Διασπορά:

D (X) = ∫ ( Χ-Μ (Χ)) 2 φά(Χ) dx ή D(X) = ∫ Χ 2 φά(Χ) dx - (Μ (Χ)) 2

2. Γραμμική παλινδρόμηση

Έστω εξαρτώμενα τα συστατικά X και Y μιας δισδιάστατης τυχαίας μεταβλητής (X, Y). Θα υποθέσουμε ότι ένα από αυτά μπορεί να αναπαρασταθεί περίπου ως γραμμική συνάρτηση του άλλου, για παράδειγμα

Y ≈ g(Χ) = α + βΧ, και προσδιορίζουμε τις παραμέτρους α και β χρησιμοποιώντας τη μέθοδο των ελαχίστων τετραγώνων.

Ορισμός. Καλείται η συνάρτηση g(Χ) = α + βΧ καλύτερη προσέγγιση Y με την έννοια της μεθόδου των ελαχίστων τετραγώνων, εάν η μαθηματική προσδοκία M(Y - g(X)) 2 παίρνει τη μικρότερη δυνατή τιμή. καλείται η συνάρτηση g(X). μέση τετραγωνική παλινδρόμησηΥ έως Χ.

ΘεώρημαΗ γραμμική μέση τετραγωνική παλινδρόμηση του Y στο X έχει τη μορφή:

πού είναι ο συντελεστής συσχέτισης των X και Y.

Συντελεστές εξισώσεων.

Μπορεί να επαληθευτεί ότι για αυτές τις τιμές η συνάρτηση F(α, β)

φά(α, β ) = Μ(Υ - α - βΧΤο )² έχει ένα ελάχιστο, το οποίο αποδεικνύει το θεώρημα.

Ορισμός. Ο συντελεστής ονομάζεται Συντελεστής παλινδρόμησης Υ στο Χκαι η ευθεία - - άμεση μέση τετραγωνική παλινδρόμηση του Y στο X.

Αντικαθιστώντας τις συντεταγμένες του ακίνητου σημείου στην ισότητα, μπορούμε να βρούμε την ελάχιστη τιμή της συνάρτησης F(α, β), ίση με Αυτή η ποσότητα ονομάζεται υπολειπόμενη διακύμανσηΤο Y σε σχέση με το X και χαρακτηρίζει το μέγεθος του σφάλματος που επιτρέπεται κατά την αντικατάσταση του Y με

g(X) = α+βΧ. Όταν η υπολειπόμενη διακύμανση είναι ίση με 0, δηλαδή η ισότητα δεν είναι κατά προσέγγιση, αλλά ακριβής. Επομένως, στο Y και το X σχετίζονται με μια γραμμική συναρτησιακή εξάρτηση. Ομοίως, μπορείτε να πάρετε μια άμεση μέση τετραγωνική παλινδρόμηση του X στο Y:

και η υπολειπόμενη διακύμανση του Χ σε σχέση με το Υ. Και στις δύο άμεσες παλινδρομήσεις συμπίπτουν. Συγκρίνοντας τις εξισώσεις παλινδρόμησης Y στο X και X στο Y και λύνοντας το σύστημα εξισώσεων, μπορείτε να βρείτε το σημείο τομής των γραμμών παλινδρόμησης - ένα σημείο με συντεταγμένες (m x, m y), που ονομάζεται το κέντρο της κοινής κατανομής των τιμών Χ και Υ.

Θα εξετάσουμε τον αλγόριθμο για τη σύνθεση εξισώσεων παλινδρόμησης από το σχολικό βιβλίο του V. E. Gmurman «Θεωρία Πιθανοτήτων και Μαθηματική Στατιστική» σελ. 256.

1) Σχεδιάστε έναν πίνακα υπολογισμού στον οποίο θα καταγράφονται οι αριθμοί των στοιχείων δείγματος, οι επιλογές δειγματοληψίας, τα τετράγωνά τους και το γινόμενο τους.

2) Υπολογίστε το άθροισμα για όλες τις στήλες εκτός από τον αριθμό.

3) Υπολογίστε τις μέσες τιμές για κάθε τιμή, διακύμανση και τυπικές αποκλίσεις.

5) Ελέγξτε την υπόθεση για την ύπαρξη σύνδεσης μεταξύ X και Y.

6) Δημιουργήστε εξισώσεις και για τις δύο γραμμές παλινδρόμησης και σχεδιάστε γραφήματα αυτών των εξισώσεων.

Η κλίση της ευθείας γραμμής παλινδρόμησης Υ στο X είναι ο συντελεστής παλινδρόμησης του δείγματος

Συντελεστής b=

Λαμβάνουμε την απαιτούμενη εξίσωση για τη γραμμή παλινδρόμησης του Y στο X:

Υ = 0,202 Χ + 1,024

Η εξίσωση παλινδρόμησης για το X στο Y είναι παρόμοια:

Η κλίση της ευθείας γραμμής παλινδρόμησης Y στο X είναι ο συντελεστής παλινδρόμησης του δείγματος pxy:

Συντελεστής b=

X = 4,119U - 3,714

3. Μη γραμμική παλινδρόμηση

Εάν υπάρχουν μη γραμμικές σχέσεις μεταξύ των οικονομικών φαινομένων, τότε αυτές εκφράζονται χρησιμοποιώντας τις αντίστοιχες μη γραμμικές συναρτήσεις.

Υπάρχουν δύο κατηγορίες μη γραμμικών παλινδρομήσεων:

1. Παλινδρομήσεις που είναι μη γραμμικές ως προς τις επεξηγηματικές μεταβλητές που περιλαμβάνονται στην ανάλυση, αλλά γραμμικές ως προς τις εκτιμώμενες παραμέτρους, για παράδειγμα:

Πολυώνυμα διαφορετικών βαθμών

Ισόπλευρη υπερβολή - ;

Ημιλογαριθμική συνάρτηση - .

2. Παλινδρομήσεις που είναι μη γραμμικές ως προς τις παραμέτρους που εκτιμώνται, για παράδειγμα:

Εξουσία - ;

Επιδεικτικό - ;

Εκθετική - .

Οι παλινδρομήσεις που είναι μη γραμμικές σε σχέση με τις συμπεριλαμβανόμενες μεταβλητές μεταφέρονται σε γραμμική μορφή με απλή αντικατάσταση μεταβλητών και η περαιτέρω εκτίμηση των παραμέτρων πραγματοποιείται χρησιμοποιώντας τη μέθοδο των ελαχίστων τετραγώνων. Ας δούμε μερικά χαρακτηριστικά.

Μια παραβολή δεύτερου βαθμού ανάγεται σε γραμμική μορφή χρησιμοποιώντας την αντικατάσταση: . Ως αποτέλεσμα, φτάνουμε σε μια εξίσωση δύο παραγόντων, η εκτίμηση των παραμέτρων της οποίας χρησιμοποιώντας τη μέθοδο των ελαχίστων τετραγώνων οδηγεί σε ένα σύστημα εξισώσεων:

Μια παραβολή δεύτερου βαθμού χρησιμοποιείται συνήθως σε περιπτώσεις όπου, για ένα ορισμένο διάστημα τιμών συντελεστών, η φύση της σύνδεσης μεταξύ των υπό εξέταση χαρακτηριστικών αλλάζει: η άμεση σύνδεση αλλάζει σε αντίστροφη ή αντίστροφη σε άμεση.

Μια ισόπλευρη υπερβολή μπορεί να χρησιμοποιηθεί για να χαρακτηρίσει τη σχέση μεταξύ του ειδικού κόστους των πρώτων υλών, των υλικών, των καυσίμων και του όγκου της παραγωγής, του χρόνου κυκλοφορίας των αγαθών και του ποσού του κύκλου εργασιών. Το κλασικό της παράδειγμα είναι η καμπύλη Phillips, η οποία χαρακτηρίζει τη μη γραμμική σχέση μεταξύ του ποσοστού ανεργίας Χκαι το ποσοστό αύξησης των μισθών y.

Η υπερβολή ανάγεται σε γραμμική εξίσωση με απλή αντικατάσταση: . Μπορείτε επίσης να χρησιμοποιήσετε τη μέθοδο των ελάχιστων τετραγώνων για να κατασκευάσετε ένα σύστημα γραμμικών εξισώσεων.

Με παρόμοιο τρόπο, οι εξαρτήσεις μειώνονται σε γραμμική μορφή: , και άλλα.

Μια ισόπλευρη υπερβολή και μια ημι-λογαριθμική καμπύλη χρησιμοποιούνται για την περιγραφή της καμπύλης Engel (μαθηματική περιγραφή της σχέσης μεταξύ του μεριδίου των δαπανών για διαρκή αγαθά και των συνολικών δαπανών (ή εισοδήματος)). Οι εξισώσεις στις οποίες εισέρχονται χρησιμοποιούνται σε μελέτες παραγωγικότητας και έντασης εργασίας της αγροτικής παραγωγής.

4. Πολλαπλή παλινδρόμηση

Η πολλαπλή παλινδρόμηση είναι μια εξίσωση σχέσης με πολλές ανεξάρτητες μεταβλητές:

πού είναι η εξαρτημένη μεταβλητή (αποτελεσματικό χαρακτηριστικό);

Ανεξάρτητες μεταβλητές (παράγοντες).

Για τη δημιουργία μιας εξίσωσης πολλαπλής παλινδρόμησης, χρησιμοποιούνται συχνότερα οι ακόλουθες συναρτήσεις:

γραμμικός -

εξουσία -

εκθέτης -

υπερβολή - .

Μπορείτε να χρησιμοποιήσετε άλλες συναρτήσεις που μπορούν να μειωθούν σε γραμμική μορφή.

Για την εκτίμηση των παραμέτρων της εξίσωσης πολλαπλής παλινδρόμησης, χρησιμοποιείται η μέθοδος των ελαχίστων τετραγώνων (OLS). Για γραμμικές εξισώσεις και μη γραμμικές εξισώσεις αναγώγιμες σε γραμμικές, κατασκευάζεται το ακόλουθο σύστημα κανονικών εξισώσεων, η λύση του οποίου μας επιτρέπει να λάβουμε εκτιμήσεις των παραμέτρων παλινδρόμησης:

Για την επίλυσή του, μπορεί να χρησιμοποιηθεί η μέθοδος των οριζόντων:

πού είναι ο καθοριστικός παράγοντας του συστήματος;

Ιδιαίτερα προκριματικά; τα οποία προκύπτουν αντικαθιστώντας την αντίστοιχη στήλη του πίνακα προσδιορισμού του συστήματος με τα δεδομένα στην αριστερή πλευρά του συστήματος.

Ένας άλλος τύπος εξίσωσης πολλαπλής παλινδρόμησης είναι μια εξίσωση παλινδρόμησης σε τυποποιημένη κλίμακα· η OLS εφαρμόζεται σε μια εξίσωση πολλαπλής παλινδρόμησης σε τυποποιημένη κλίμακα.

5.ΧρήσηΚυρίαΠΡΟΕΧΩγια την εκτέλεση ανάλυσης παλινδρόμησης

Η ανάλυση παλινδρόμησης καθορίζει τις μορφές εξάρτησης μεταξύ της τυχαίας μεταβλητής Y (εξαρτώμενη) και των τιμών μιας ή περισσότερων μεταβλητών μεγεθών (ανεξάρτητων) και οι τιμές των τελευταίων θεωρείται ότι έχουν καθοριστεί με ακρίβεια. Μια τέτοια εξάρτηση συνήθως καθορίζεται από κάποιο μαθηματικό μοντέλο (εξίσωση παλινδρόμησης) που περιέχει πολλές άγνωστες παραμέτρους. Κατά την ανάλυση παλινδρόμησης, με βάση δειγματοληπτικά δεδομένα, εντοπίζονται εκτιμήσεις αυτών των παραμέτρων, προσδιορίζονται στατιστικά σφάλματα σε εκτιμήσεις ή όρια διαστημάτων εμπιστοσύνης και ελέγχεται η συμμόρφωση (καταλληλότητα) του μαθηματικού μοντέλου που υιοθετήθηκε με τα πειραματικά δεδομένα.

Στην ανάλυση γραμμικής παλινδρόμησης, η σχέση μεταξύ τυχαίων μεταβλητών θεωρείται ότι είναι γραμμική. Στην απλούστερη περίπτωση, σε ένα μοντέλο ζευγαρωμένης γραμμικής παλινδρόμησης υπάρχουν δύο μεταβλητές X και Y. Και απαιτείται η κατασκευή (προσαρμογή) μιας ευθείας γραμμής χρησιμοποιώντας n ζεύγη παρατηρήσεων (X1, Y1), (X2, Y2), .. ., (Xn, Yn), που ονομάζεται η γραμμή παλινδρόμησης που "καλύτερα" προσεγγίζει τις παρατηρούμενες τιμές. Η εξίσωση αυτής της ευθείας y=ax+b είναι εξίσωση παλινδρόμησης. Χρησιμοποιώντας μια εξίσωση παλινδρόμησης, μπορείτε να προβλέψετε την αναμενόμενη τιμή της εξαρτημένης μεταβλητής y που αντιστοιχεί σε μια δεδομένη τιμή της ανεξάρτητης μεταβλητής x. Στην περίπτωση που λαμβάνεται υπόψη η εξάρτηση μεταξύ μιας εξαρτημένης μεταβλητής Y και πολλών ανεξάρτητων μεταβλητών X1, X2, ..., Xm, μιλάμε για πολλαπλή γραμμική παλινδρόμηση.

Σε αυτή την περίπτωση, η εξίσωση παλινδρόμησης έχει τη μορφή

y = a 0 +a 1 x 1 +a 2 x 2 +…+a m x m,

όπου a0, a1, a2, …, am είναι συντελεστές παλινδρόμησης που απαιτούν προσδιορισμό.

Οι συντελεστές της εξίσωσης παλινδρόμησης προσδιορίζονται με τη μέθοδο των ελαχίστων τετραγώνων, επιτυγχάνοντας το ελάχιστο δυνατό άθροισμα των τετραγωνικών διαφορών μεταξύ των πραγματικών τιμών της μεταβλητής Y και εκείνων που υπολογίζονται από την εξίσωση παλινδρόμησης. Έτσι, για παράδειγμα, μια εξίσωση γραμμικής παλινδρόμησης μπορεί να κατασκευαστεί ακόμη και στην περίπτωση που δεν υπάρχει γραμμική συσχέτιση.

Ένα μέτρο της αποτελεσματικότητας ενός μοντέλου παλινδρόμησης είναι ο συντελεστής προσδιορισμού R2 (R-τετράγωνο). Ο συντελεστής προσδιορισμού μπορεί να λάβει τιμές μεταξύ 0 και 1· καθορίζει τον βαθμό ακρίβειας με τον οποίο η προκύπτουσα εξίσωση παλινδρόμησης περιγράφει (προσεγγίζει) τα αρχικά δεδομένα. Η σημασία του μοντέλου παλινδρόμησης εξετάζεται επίσης με τη χρήση του F-test (Fisher) και η αξιοπιστία της διαφοράς μεταξύ των συντελεστών a0, a1, a2, ..., am και μηδέν ελέγχεται χρησιμοποιώντας το Student’s t-test.

Στο Excel, τα πειραματικά δεδομένα προσεγγίζονται με μια γραμμική εξίσωση μέχρι την 16η τάξη:

y = a0+a1x1+a2x2+…+a16x16

Για την απόκτηση συντελεστών γραμμικής παλινδρόμησης, μπορεί να χρησιμοποιηθεί η διαδικασία «Παλινδρόμηση» από το πακέτο ανάλυσης. Επίσης, πλήρεις πληροφορίες σχετικά με την εξίσωση γραμμικής παλινδρόμησης παρέχονται από τη συνάρτηση LINEST. Επιπλέον, οι συναρτήσεις SLOPE και INTERCEPT μπορούν να χρησιμοποιηθούν για τη λήψη των παραμέτρων της εξίσωσης παλινδρόμησης και οι συναρτήσεις TREND και FORECAST μπορούν να χρησιμοποιηθούν για να ληφθούν οι προβλεπόμενες τιμές Y στα επιθυμητά σημεία (για παλινδρόμηση κατά ζεύγη).

Ας εξετάσουμε λεπτομερώς τη χρήση της συνάρτησης LINEST (γνωστό_y, [γνωστό_x], [σταθερό], [στατιστικά]): γνωστό_y - το εύρος των γνωστών τιμών της εξαρτημένης παραμέτρου Y. Στην ανάλυση παλινδρόμησης ζευγαρώματος μπορεί να έχει οποιαδήποτε μορφή; στον πληθυντικό πρέπει να είναι γραμμή ή στήλη. γνωστό_x - εύρος γνωστών τιμών μιας ή περισσότερων ανεξάρτητων παραμέτρων. Πρέπει να έχει το ίδιο σχήμα με το εύρος Y (για πολλές παραμέτρους - πολλές στήλες ή σειρές, αντίστοιχα). σταθερά είναι ένα λογικό επιχείρημα. Εάν, με βάση την πρακτική σημασία του προβλήματος της ανάλυσης παλινδρόμησης, είναι απαραίτητο η γραμμή παλινδρόμησης να διέρχεται από την αρχή, δηλαδή ο ελεύθερος συντελεστής είναι ίσος με 0, η τιμή αυτού του ορίσματος θα πρέπει να οριστεί ίση με 0 (ή « ψευδής"). Εάν η τιμή οριστεί σε 1 (ή true) ή παραλειφθεί, τότε ο ελεύθερος συντελεστής υπολογίζεται με τον συνήθη τρόπο. τα στατιστικά είναι ένα λογικό επιχείρημα. Εάν η τιμή οριστεί σε 1 (ή "true"), τότε επιστρέφονται επιπλέον στατιστικές παλινδρόμησης (βλ. πίνακα) που χρησιμοποιούνται για την αξιολόγηση της αποτελεσματικότητας και της σημασίας του μοντέλου. Γενικά, για την παλινδρόμηση ζεύγους y=ax+b, το αποτέλεσμα της εφαρμογής της συνάρτησης LINEST έχει τη μορφή:

Τραπέζι. Εύρος εξόδου της συνάρτησης LINEST για ανάλυση παλινδρόμησης κατά ζεύγη

Στην περίπτωση ανάλυσης πολλαπλής παλινδρόμησης για την εξίσωση y=a0+a1x1+a2x2+…+amxm, η πρώτη γραμμή εμφανίζει τους συντελεστές am,…,a1,a0 και η δεύτερη γραμμή εμφανίζει τα τυπικά σφάλματα για αυτούς τους συντελεστές. Οι σειρές 3-5, εξαιρουμένων των δύο πρώτων στηλών που είναι γεμάτες με στατιστικά παλινδρόμησης, θα επιστρέψουν #N/A.

Η συνάρτηση LINEST πρέπει να εισαχθεί ως τύπος πίνακα, επιλέγοντας πρώτα έναν πίνακα με το απαιτούμενο μέγεθος για το αποτέλεσμα (m+1 στήλες και 5 σειρές εάν απαιτούνται στατιστικά παλινδρόμησης) και ολοκληρώνοντας την καταχώριση του τύπου πατώντας CTRL+SHIFT+ENTER .

Αποτέλεσμα για το παράδειγμά μας:

Επιπλέον, το πρόγραμμα έχει μια ενσωματωμένη λειτουργία - Ανάλυση δεδομένων στην καρτέλα Δεδομένα.

Μπορεί επίσης να χρησιμοποιηθεί για την εκτέλεση ανάλυσης παλινδρόμησης:

Η διαφάνεια δείχνει το αποτέλεσμα της ανάλυσης παλινδρόμησης που πραγματοποιήθηκε με χρήση της Ανάλυσης Δεδομένων.

ΣΥΜΠΕΡΑΣΜΑ ΑΠΟΤΕΛΕΣΜΑΤΩΝ

Στατιστικά παλινδρόμησης

Πληθυντικός R

R-τετράγωνο

Κανονικοποιημένο R-τετράγωνο

Τυπικό σφάλμα

Παρατηρήσεις

Ανάλυση της διακύμανσης

Σημασία ΣΤ

Οπισθοδρόμηση

Πιθανότητα

Τυπικό σφάλμα

t-statistic

P-Τιμή

Κάτω 95%

Κορυφαίο 95%

Κάτω 95,0%

Κορυφαίο 95,0%

Υ-τομή

Μεταβλητή X 1

Οι εξισώσεις παλινδρόμησης που εξετάσαμε νωρίτερα δημιουργήθηκαν επίσης στο MS Excel. Για να τα εκτελέσετε, δημιουργήστε πρώτα ένα διάγραμμα διασποράς και, στη συνέχεια, από το μενού περιβάλλοντος επιλέξτε - Προσθήκη γραμμής τάσης. Στο νέο παράθυρο, επιλέξτε το πλαίσιο - Εμφάνιση της εξίσωσης στο διάγραμμα και τοποθετήστε την τιμή αξιοπιστίας προσέγγισης (R^2) στο διάγραμμα.

Βιβλιογραφία:

  1. Θεωρία Πιθανοτήτων και Μαθηματική Στατιστική. Gmurman V. E. Εγχειρίδιο για τα πανεπιστήμια. - Εκδ. 10ο, διαγράφηκε. - Μ.: Πιο ψηλά. σχολείο, 2010. - 479 σελ.
  2. Ανώτερα μαθηματικά σε ασκήσεις και προβλήματα. Εγχειρίδιο για πανεπιστήμια / Danko P. E., Popov A. G., Kozhevnikova T. Ya., Danko S. P. Σε 2 ώρες - Εκδ. 6ο, σβήστηκε. - M.: Onyx Publishing House LLC: Mir and Education Publishing House LLC, 2007. - 416 p.
    1. 3. http://www.machinelearning.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8 %D1%8F - μερικές πληροφορίες σχετικά με την ανάλυση παλινδρόμησης

Η ανάλυση παλινδρόμησης αποτελεί τη βάση της δημιουργίας των περισσότερων οικονομετρικών μοντέλων, τα οποία περιλαμβάνουν μοντέλα εκτίμησης κόστους. Για τη δημιουργία μοντέλων αποτίμησης, αυτή η μέθοδος μπορεί να χρησιμοποιηθεί εάν ο αριθμός των αναλόγων (συγκρίσιμα αντικείμενα) και ο αριθμός των παραγόντων κόστους (στοιχεία σύγκρισης) σχετίζονται μεταξύ τους ως εξής: Π> (5 -g-10) x Προς την,εκείνοι. θα πρέπει να υπάρχουν 5-10 φορές περισσότερα ανάλογα από τους παράγοντες κόστους. Η ίδια απαίτηση για την αναλογία της ποσότητας δεδομένων και του αριθμού των παραγόντων ισχύει και για άλλες εργασίες: δημιουργία σύνδεσης μεταξύ των παραμέτρων κόστους και καταναλωτή του αντικειμένου. αιτιολόγηση της διαδικασίας υπολογισμού των διορθωτικών δεικτών· τον προσδιορισμό των τάσεων των τιμών· δημιουργία σύνδεσης μεταξύ της φθοράς και των αλλαγών στους παράγοντες που επηρεάζουν· απόκτηση εξαρτήσεων για τον υπολογισμό των προτύπων κόστους κ.λπ. Η συμμόρφωση με αυτήν την απαίτηση είναι απαραίτητη προκειμένου να μειωθεί η πιθανότητα εργασίας με δείγμα δεδομένων που δεν ικανοποιεί την απαίτηση της κανονικής κατανομής τυχαίων μεταβλητών.

Η σχέση παλινδρόμησης αντικατοπτρίζει μόνο τη μέση τάση των αλλαγών στην προκύπτουσα μεταβλητή, για παράδειγμα, κόστος, από αλλαγές σε μία ή περισσότερες μεταβλητές παραγόντων, για παράδειγμα, τοποθεσία, αριθμός δωματίων, περιοχή, όροφος κ.λπ. Αυτή είναι η διαφορά μεταξύ μιας σχέσης παλινδρόμησης και μιας λειτουργικής, στην οποία η τιμή της μεταβλητής που προκύπτει ορίζεται αυστηρά για μια δεδομένη τιμή των μεταβλητών παράγοντα.

Η παρουσία μιας σχέσης παλινδρόμησης / μεταξύ του προκύπτοντος στοκαι μεταβλητές παραγόντων x σελ ..., x k(παράγοντες) υποδηλώνει ότι αυτή η σχέση καθορίζεται όχι μόνο από την επίδραση επιλεγμένων μεταβλητών παραγόντων, αλλά και από την επίδραση μεταβλητών, μερικές από τις οποίες είναι γενικά άγνωστες, άλλες δεν μπορούν να αξιολογηθούν και να ληφθούν υπόψη:

Η επίδραση των μη λογιστικών μεταβλητών υποδεικνύεται από τον δεύτερο όρο αυτής της εξίσωσης ?, που ονομάζεται σφάλμα προσέγγισης.

Διακρίνονται οι ακόλουθοι τύποι εξαρτήσεων παλινδρόμησης:

  • ? ζευγαρωμένη παλινδρόμηση - σχέση μεταξύ δύο μεταβλητών (αποτέλεσμα και παράγοντας).
  • ? πολλαπλή παλινδρόμηση - η σχέση μεταξύ μιας μεταβλητής έκβασης και δύο ή περισσότερων μεταβλητών παραγόντων που περιλαμβάνονται στη μελέτη.

Το κύριο καθήκον της ανάλυσης παλινδρόμησης είναι να ποσοτικοποιήσει την εγγύτητα της σχέσης μεταξύ μεταβλητών (σε ζευγαρωμένη παλινδρόμηση) και πολλαπλών μεταβλητών (σε πολλαπλή παλινδρόμηση). Η εγγύτητα της σύνδεσης εκφράζεται ποσοτικά με τον συντελεστή συσχέτισης.

Η χρήση της ανάλυσης παλινδρόμησης καθιστά δυνατό τον καθορισμό του μοτίβου επιρροής των κύριων παραγόντων (ηδονικά χαρακτηριστικά) στον υπό μελέτη δείκτη, τόσο στο σύνολό τους όσο και για τον καθένα ξεχωριστά. Με τη βοήθεια της ανάλυσης παλινδρόμησης, ως μέθοδος μαθηματικής στατιστικής, είναι δυνατό, πρώτον, να βρεθεί και να περιγραφεί η μορφή της αναλυτικής εξάρτησης της προκύπτουσας (αναζήτησης) μεταβλητής από τους παράγοντες και, δεύτερον, να αξιολογηθεί η εγγύτητα της αυτή η εξάρτηση.

Με την επίλυση του πρώτου προβλήματος, προκύπτει ένα μοντέλο μαθηματικής παλινδρόμησης, με τη βοήθεια του οποίου υπολογίζεται στη συνέχεια ο επιθυμητός δείκτης για δεδομένες τιμές των παραγόντων. Η επίλυση του δεύτερου προβλήματος μας επιτρέπει να διαπιστώσουμε την αξιοπιστία του υπολογισμένου αποτελέσματος.

Έτσι, η ανάλυση παλινδρόμησης μπορεί να οριστεί ως ένα σύνολο τυπικών (μαθηματικών) διαδικασιών που έχουν σχεδιαστεί για να μετρούν την εγγύτητα, την κατεύθυνση και την αναλυτική έκφραση της μορφής σχέσης μεταξύ των μεταβλητών που προκύπτουν και των παραγόντων, δηλ. το αποτέλεσμα μιας τέτοιας ανάλυσης θα πρέπει να είναι ένα δομικά και ποσοτικά καθορισμένο στατιστικό μοντέλο της μορφής:

Οπου y -η μέση τιμή της μεταβλητής που προκύπτει (ο επιθυμητός δείκτης, για παράδειγμα, κόστος, μίσθωμα, ποσοστό κεφαλαιοποίησης) κατά Πτις παρατηρήσεις της· x - τιμή της μεταβλητής συντελεστή (/ος συντελεστής κόστους). Προς την -αριθμός μεταβλητών παραγόντων.

Λειτουργία f(x l,...,x lc),Η περιγραφή της εξάρτησης της μεταβλητής που προκύπτει από τους παράγοντες παραγόντων ονομάζεται εξίσωση παλινδρόμησης (συνάρτηση). Ο όρος "παλίνδρομος" (παλίνδρομος (λατινικά) - υποχώρηση, επιστροφή σε κάτι) σχετίζεται με τις ιδιαιτερότητες ενός από τα συγκεκριμένα προβλήματα που επιλύθηκαν στο στάδιο του σχηματισμού της μεθόδου και επί του παρόντος δεν αντικατοπτρίζει ολόκληρη την ουσία της μεθόδου, αλλά συνεχίζει να χρησιμοποιείται.

Η ανάλυση παλινδρόμησης περιλαμβάνει γενικά τα ακόλουθα βήματα:

  • ? σχηματισμός δείγματος ομοιογενών αντικειμένων και συλλογή αρχικών πληροφοριών για αυτά τα αντικείμενα.
  • ? επιλογή των κύριων παραγόντων που επηρεάζουν τη μεταβλητή που προκύπτει.
  • ? έλεγχος του δείγματος για κανονικότητα χρησιμοποιώντας Χ 2 ή διωνυμική δοκιμή?
  • ? αποδοχή μιας υπόθεσης σχετικά με τη μορφή επικοινωνίας.
  • ? Μαθηματική επεξεργασία δεδομένων·
  • ? απόκτηση ενός μοντέλου παλινδρόμησης.
  • ? αξιολόγηση των στατιστικών δεικτών του·
  • ? υπολογισμοί επαλήθευσης χρησιμοποιώντας μοντέλο παλινδρόμησης.
  • ? ανάλυση των αποτελεσμάτων.

Η καθορισμένη ακολουθία πράξεων λαμβάνει χώρα κατά τη μελέτη τόσο μιας ζευγαρωμένης σχέσης μεταξύ μιας μεταβλητής παράγοντα και μιας προκύπτουσας μεταβλητής όσο και μιας πολλαπλής σχέσης μεταξύ μιας προκύπτουσας μεταβλητής και πολλών παραγοντικών.

Η χρήση της ανάλυσης παλινδρόμησης επιβάλλει ορισμένες απαιτήσεις στις αρχικές πληροφορίες:

  • ? το στατιστικό δείγμα των αντικειμένων πρέπει να είναι ομοιογενές από λειτουργική και δομική-τεχνολογική άποψη.
  • ? αρκετά πολυάριθμα?
  • ? ο υπό μελέτη δείκτης κόστους - η μεταβλητή που προκύπτει (τιμή, κόστος, έξοδα) - πρέπει να φέρει τις ίδιες συνθήκες για τον υπολογισμό του για όλα τα αντικείμενα του δείγματος.
  • ? Οι μεταβλητές των παραγόντων πρέπει να μετρώνται με αρκετή ακρίβεια.
  • ? Οι μεταβλητές παραγόντων πρέπει να είναι ανεξάρτητες ή ελάχιστα εξαρτώμενες.

Οι απαιτήσεις για ομοιογένεια και πληρότητα του δείγματος έρχονται σε σύγκρουση: όσο πιο αυστηρή είναι η επιλογή των αντικειμένων με βάση την ομοιογένειά τους, τόσο μικρότερο είναι το δείγμα που λαμβάνεται και, αντιστρόφως, για τη μεγέθυνση του δείγματος είναι απαραίτητο να συμπεριληφθούν αντικείμενα που δεν μοιάζουν πολύ με ο ένας τον άλλον.

Αφού συλλεχθούν δεδομένα για μια ομάδα ομοιογενών αντικειμένων, αναλύονται για να καθοριστεί η μορφή σύνδεσης μεταξύ των μεταβλητών που προκύπτουν και των παραγόντων με τη μορφή μιας θεωρητικής γραμμής παλινδρόμησης. Η διαδικασία εύρεσης μιας θεωρητικής γραμμής παλινδρόμησης αποτελείται από μια λογική επιλογή της προσεγγιστικής καμπύλης και τον υπολογισμό των συντελεστών της εξίσωσής της. Η γραμμή παλινδρόμησης είναι μια ομαλή καμπύλη (σε μια συγκεκριμένη περίπτωση, μια ευθεία γραμμή) που περιγράφει, χρησιμοποιώντας μια μαθηματική συνάρτηση, τη γενική τάση της υπό μελέτη σχέσης και εξομαλύνει τις ακανόνιστες, τυχαίες εκπομπές από την επίδραση πλευρικών παραγόντων.

Για την εμφάνιση ζευγαρωμένων εξαρτήσεων παλινδρόμησης σε εργασίες αξιολόγησης, χρησιμοποιούνται συχνότερα οι ακόλουθες συναρτήσεις: γραμμική - y - a 0 + ars + sεξουσία - y - aj&i + sενδεικτικά - y -γραμμική εκθετική - y - a 0 + ap* + c.Εδώ - μισφάλμα προσέγγισης που προκαλείται από τη δράση μη καταγεγραμμένων τυχαίων παραγόντων.

Σε αυτές τις συναρτήσεις, το y είναι η μεταβλητή που προκύπτει. x - μεταβλητή παράγοντα (παράγοντας); ΕΝΑ 0 , a r a 2 -παράμετροι μοντέλου παλινδρόμησης, συντελεστές παλινδρόμησης.

Το γραμμικό εκθετικό μοντέλο ανήκει στην κατηγορία των λεγόμενων υβριδικών μοντέλων της μορφής:

Οπου

όπου x (i = 1, /) - τιμές παραγόντων.

b t (i = 0, /) - συντελεστές της εξίσωσης παλινδρόμησης.

Στην εξίσωση αυτή τα συστατικά Α, ΒΚαι Ζαντιστοιχούν στο κόστος των επιμέρους στοιχείων του περιουσιακού στοιχείου που αποτιμάται, για παράδειγμα, το κόστος ενός οικοπέδου και το κόστος των βελτιώσεων, και την παράμετρο Qείναι κοινό. Έχει σχεδιαστεί για να προσαρμόζει την αξία όλων των στοιχείων του περιουσιακού στοιχείου που αποτιμάται για έναν κοινό παράγοντα επιρροής, όπως η τοποθεσία.

Οι τιμές των παραγόντων που είναι στην ισχύ των αντίστοιχων συντελεστών είναι δυαδικές μεταβλητές (0 ή 1). Οι παράγοντες στη βάση του βαθμού είναι διακριτές ή συνεχείς μεταβλητές.

Οι παράγοντες που σχετίζονται με τους συντελεστές πολλαπλασιασμού είναι επίσης συνεχείς ή διακριτοί.

Η προδιαγραφή πραγματοποιείται, κατά κανόνα, χρησιμοποιώντας μια εμπειρική προσέγγιση και περιλαμβάνει δύο στάδια:

  • ? σχεδίαση σημείων πεδίου παλινδρόμησης σε ένα γράφημα.
  • ? γραφική (οπτική) ανάλυση του τύπου πιθανής καμπύλης προσέγγισης.

Ο τύπος της καμπύλης παλινδρόμησης δεν μπορεί πάντα να επιλεγεί αμέσως. Για να το προσδιορίσετε, σχεδιάστε πρώτα τα σημεία του πεδίου παλινδρόμησης με βάση τα αρχικά δεδομένα. Στη συνέχεια, σχεδιάστε οπτικά μια γραμμή κατά μήκος της θέσης των σημείων, προσπαθώντας να μάθετε το ποιοτικό μοτίβο της σύνδεσης: ομοιόμορφη ανάπτυξη ή ομοιόμορφη πτώση, ανάπτυξη (μείωση) με αύξηση (μείωση) του ρυθμού δυναμικής, ομαλή προσέγγιση σε ένα συγκεκριμένο επίπεδο.

Αυτή η εμπειρική προσέγγιση συμπληρώνεται από λογική ανάλυση, ξεκινώντας από ήδη γνωστές ιδέες για την οικονομική και φυσική φύση των υπό μελέτη παραγόντων και την αμοιβαία επιρροή τους.

Για παράδειγμα, είναι γνωστό ότι οι εξαρτήσεις των μεταβλητών που προκύπτουν - οικονομικοί δείκτες (τιμή, ενοίκιο) από έναν αριθμό μεταβλητών παραγόντων - παράγοντες διαμόρφωσης τιμών (απόσταση από το κέντρο του οικισμού, περιοχή κ.λπ.) είναι μη γραμμικές στη φύση, και μπορούν να περιγραφούν αρκετά αυστηρά με συναρτήσεις ισχύος, εκθετικές ή τετραγωνικές. Αλλά για μικρά εύρη μεταβολών παραγόντων, μπορούν να ληφθούν αποδεκτά αποτελέσματα χρησιμοποιώντας μια γραμμική συνάρτηση.

Εάν, ωστόσο, εξακολουθείτε να είναι αδύνατο να κάνετε αμέσως μια σίγουρη επιλογή οποιασδήποτε συνάρτησης, τότε επιλέγονται δύο ή τρεις συναρτήσεις, υπολογίζονται οι παράμετροί τους και, στη συνέχεια, χρησιμοποιώντας τα κατάλληλα κριτήρια για την εγγύτητα της σύνδεσης, η συνάρτηση είναι τελικά επιλεγμένο.

Θεωρητικά, η διαδικασία παλινδρόμησης για την εύρεση του σχήματος μιας καμπύλης ονομάζεται προσδιορισμόςμοντέλο και οι συντελεστές του - βαθμονόμησημοντέλα.

Εάν διαπιστωθεί ότι η προκύπτουσα μεταβλητή y εξαρτάται από πολλές μεταβλητές παραγόντων (παράγοντες) x ( , x 2 , ..., x k,τότε καταφεύγουν στην κατασκευή ενός μοντέλου πολλαπλής παλινδρόμησης. Συνήθως, χρησιμοποιούνται τρεις μορφές πολλαπλής επικοινωνίας: γραμμική - y - a 0 + a x x x + a^x 2 + ... + a k x k,ενδεικτικά - y - a 0 a*Εγώ a x t- a x b,εξουσία - y - a 0 x x ix 2 a 2. .χ^ή συνδυασμοί αυτών.

Οι εκθετικές συναρτήσεις και οι συναρτήσεις ισχύος είναι πιο καθολικές, καθώς προσεγγίζουν μη γραμμικές σχέσεις, οι οποίες είναι οι περισσότερες από αυτές που μελετώνται στην εκτίμηση των εξαρτήσεων. Επιπλέον, μπορούν να χρησιμοποιηθούν κατά την αξιολόγηση αντικειμένων και στη μέθοδο στατιστικής μοντελοποίησης στην εκτίμηση μάζας και στη μέθοδο άμεσης σύγκρισης σε ατομική αξιολόγηση κατά τον καθορισμό των συντελεστών διόρθωσης.

Στο στάδιο της βαθμονόμησης, οι παράμετροι του μοντέλου παλινδρόμησης υπολογίζονται χρησιμοποιώντας τη μέθοδο των ελαχίστων τετραγώνων, η ουσία της οποίας είναι ότι το άθροισμα των τετραγωνικών αποκλίσεων των υπολογισμένων τιμών της προκύπτουσας μεταβλητής στο., δηλ. υπολογίζεται χρησιμοποιώντας την επιλεγμένη εξίσωση σύζευξης, από τις πραγματικές τιμές θα πρέπει να είναι ελάχιστες:

Τιμές ι) (. και u.είναι γνωστά λοιπόν Qείναι συνάρτηση μόνο των συντελεστών της εξίσωσης. Για να βρείτε το ελάχιστο μικρόπρέπει να πάρετε μερικά παράγωγα Qμε τους συντελεστές της εξίσωσης και εξισώστε τους με μηδέν:

Ως αποτέλεσμα, λαμβάνουμε ένα σύστημα κανονικών εξισώσεων, ο αριθμός των οποίων είναι ίσος με τον αριθμό των καθορισμένων συντελεστών της επιθυμητής εξίσωσης παλινδρόμησης.

Ας υποθέσουμε ότι πρέπει να βρούμε τους συντελεστές μιας γραμμικής εξίσωσης y - a 0 + ars.Το άθροισμα των τετραγωνικών αποκλίσεων έχει τη μορφή:

/=1

Διαφοροποιήστε τη συνάρτηση Qμε άγνωστους συντελεστές ένα 0και εξισώνουμε τις μερικές παραγώγους με μηδέν:

Μετά τους μετασχηματισμούς παίρνουμε:

Οπου Π -αριθμός των αρχικών πραγματικών τιμών στοτους (αριθμός αναλόγων).

Η δεδομένη διαδικασία για τον υπολογισμό των συντελεστών της εξίσωσης παλινδρόμησης ισχύει επίσης για μη γραμμικές εξαρτήσεις, εάν αυτές οι εξαρτήσεις μπορούν να γραμμικοποιηθούν, π.χ. οδηγεί σε μια γραμμική μορφή χρησιμοποιώντας μια αλλαγή μεταβλητών. Οι συναρτήσεις ισχύος και εκθετικής μετά από λογάριθμο και κατάλληλη αλλαγή μεταβλητών αποκτούν γραμμική μορφή. Για παράδειγμα, μια συνάρτηση ισχύος μετά τον λογάριθμο έχει τη μορφή: Σε y = 1p 0 +a x 1ph. Μετά την αντικατάσταση μεταβλητών Υ-Σε y, L 0 -Σε και αρ. Χ-Στο x παίρνουμε μια γραμμική συνάρτηση

Y=A 0 + cijX,οι συντελεστές των οποίων βρίσκονται με τον τρόπο που περιγράφεται παραπάνω.

Η μέθοδος των ελαχίστων τετραγώνων χρησιμοποιείται επίσης για τον υπολογισμό των συντελεστών ενός μοντέλου πολλαπλής παλινδρόμησης. Έτσι, ένα σύστημα κανονικών εξισώσεων για τον υπολογισμό μιας γραμμικής συνάρτησης με δύο μεταβλητές XjΚαι x 2μετά από μια σειρά μετασχηματισμών μοιάζει με αυτό:

Συνήθως, αυτό το σύστημα εξισώσεων λύνεται χρησιμοποιώντας μεθόδους γραμμικής άλγεβρας. Η συνάρτηση πολλαπλής ισχύος μειώνεται σε γραμμική μορφή λαμβάνοντας λογάριθμους και αλλάζοντας τις μεταβλητές με τον ίδιο τρόπο όπως η συνάρτηση ισχύος ζεύγους.

Όταν χρησιμοποιούνται υβριδικά μοντέλα, οι πολλαπλοί συντελεστές παλινδρόμησης βρίσκονται χρησιμοποιώντας αριθμητικές διαδικασίες της μεθόδου των διαδοχικών προσεγγίσεων.

Για να κάνετε μια τελική επιλογή από πολλές εξισώσεις παλινδρόμησης, είναι απαραίτητο να ελέγξετε κάθε εξίσωση για την ισχύ της σχέσης, η οποία μετράται από τον συντελεστή συσχέτισης, τη διακύμανση και τον συντελεστή διακύμανσης. Τα τεστ του μαθητή και του Fisher μπορούν επίσης να χρησιμοποιηθούν για αξιολόγηση. Όσο μεγαλύτερη είναι η εγγύτητα της σύνδεσης που παρουσιάζει μια καμπύλη, τόσο πιο προτιμότερη είναι, καθώς όλα τα άλλα πράγματα είναι ίσα.

Εάν επιλυθεί ένα πρόβλημα αυτής της κατηγορίας, όταν είναι απαραίτητο να καθοριστεί η εξάρτηση ενός δείκτη κόστους από παράγοντες κόστους, τότε είναι κατανοητή η επιθυμία να ληφθούν υπόψη όσο το δυνατόν περισσότεροι παράγοντες που επηρεάζουν και έτσι να δημιουργηθεί ένα πιο ακριβές μοντέλο πολλαπλής παλινδρόμησης. . Ωστόσο, η διεύρυνση του αριθμού των παραγόντων παρεμποδίζεται από δύο αντικειμενικούς περιορισμούς. Πρώτον, για τη δημιουργία ενός μοντέλου πολλαπλής παλινδρόμησης, απαιτείται ένα πολύ μεγαλύτερο δείγμα αντικειμένων από ό,τι για τη δημιουργία ενός ζευγαρωμένου μοντέλου. Είναι γενικά αποδεκτό ότι ο αριθμός των αντικειμένων στο δείγμα πρέπει να υπερβαίνει τον αριθμό Ππαράγοντες κατά τουλάχιστον 5-10 φορές. Ως εκ τούτου, για να κατασκευαστεί ένα μοντέλο με τρεις παράγοντες που επηρεάζουν, είναι απαραίτητο να συλλεχθεί ένα δείγμα περίπου 20 αντικειμένων με διαφορετικό σύνολο τιμών παραγόντων. Δεύτερον, οι παράγοντες που επιλέγονται για το μοντέλο στην επιρροή τους στον δείκτη κόστους πρέπει να είναι επαρκώς ανεξάρτητοι μεταξύ τους. Αυτό δεν είναι εύκολο να διασφαλιστεί, αφού το δείγμα συνήθως συνδυάζει αντικείμενα που ανήκουν στην ίδια οικογένεια, για τα οποία υπάρχει φυσική αλλαγή σε πολλούς παράγοντες από αντικείμενο σε αντικείμενο.

Η ποιότητα των μοντέλων παλινδρόμησης συνήθως ελέγχεται χρησιμοποιώντας τους ακόλουθους στατιστικούς δείκτες.

Τυπική απόκλιση σφάλματος εξίσωσης παλινδρόμησης (σφάλμα εκτίμησης):

Οπου Π -Μέγεθος δείγματος (αριθμός αναλόγων).

Προς την -αριθμός παραγόντων (παράγοντες κόστους).

Το σφάλμα δεν εξηγείται από την εξίσωση παλινδρόμησης (Εικόνα 3.2).

u. -την πραγματική αξία της μεταβλητής που προκύπτει (για παράδειγμα, κόστος). y t -την υπολογισμένη τιμή της μεταβλητής αποτελέσματος.

Αυτός ο δείκτης ονομάζεται επίσης τυπικό σφάλμα εκτίμησης (σφάλμα RMS). Στο σχήμα, οι κουκκίδες υποδεικνύουν συγκεκριμένες τιμές δείγματος, το σύμβολο υποδεικνύει τη γραμμή των μέσων τιμών του δείγματος και η κεκλιμένη παύλα με διακεκομμένη γραμμή είναι η γραμμή παλινδρόμησης.


Ρύζι. 3.2.

Η τυπική απόκλιση του σφάλματος εκτίμησης μετρά το μέγεθος της απόκλισης των πραγματικών τιμών του y από τις αντίστοιχες υπολογισμένες τιμές στο( , λαμβάνεται με χρήση μοντέλου παλινδρόμησης. Εάν το δείγμα στο οποίο βασίζεται το μοντέλο υπόκειται στον νόμο της κανονικής κατανομής, τότε μπορεί να υποστηριχθεί ότι το 68% των πραγματικών τιμών στοβρίσκονται στην περιοχή στο ± &μιαπό τη γραμμή παλινδρόμησης και το 95% βρίσκεται στο εύρος στο ± 2η ε. Αυτός ο δείκτης είναι βολικός επειδή οι μονάδες μέτρησης sg;ταιριάζουν με τις μονάδες μέτρησης στο,. Από αυτή την άποψη, μπορεί να χρησιμοποιηθεί για να υποδείξει την ακρίβεια του αποτελέσματος που προέκυψε στη διαδικασία αξιολόγησης. Για παράδειγμα, σε ένα πιστοποιητικό αξίας μπορείτε να υποδείξετε ότι η αγοραία αξία αποκτήθηκε χρησιμοποιώντας ένα μοντέλο παλινδρόμησης Vμε 95% πιθανότητα να βρίσκεται στο εύρος από (V -2d,.)πριν + 2d s).

Συντελεστής διακύμανσης της μεταβλητής που προκύπτει:

Οπου y -τη μέση τιμή της μεταβλητής που προκύπτει (Εικ. 3.2).

Στην ανάλυση παλινδρόμησης, ο συντελεστής διακύμανσης var είναι η τυπική απόκλιση του αποτελέσματος που εκφράζεται ως ποσοστό του μέσου όρου της μεταβλητής αποτελέσματος. Ο συντελεστής διακύμανσης μπορεί να χρησιμεύσει ως κριτήριο για τις προγνωστικές ιδιότητες του προκύπτοντος μοντέλου παλινδρόμησης: όσο μικρότερη είναι η τιμή var, τόσο υψηλότερες είναι οι προγνωστικές ιδιότητες του μοντέλου. Η χρήση του συντελεστή διακύμανσης είναι προτιμότερη από τον δείκτη &e, αφού είναι σχετικός δείκτης. Όταν χρησιμοποιείται αυτός ο δείκτης στην πράξη, μπορεί να συνιστάται η μη χρήση μοντέλου του οποίου ο συντελεστής διακύμανσης υπερβαίνει το 33%, καθώς σε αυτήν την περίπτωση δεν μπορεί να ειπωθεί ότι τα δεδομένα του δείγματος υπόκεινται σε έναν κανονικό νόμο κατανομής.

Συντελεστής προσδιορισμού (τετράγωνος πολλαπλός συντελεστής συσχέτισης):

Αυτός ο δείκτης χρησιμοποιείται για την ανάλυση της συνολικής ποιότητας του προκύπτοντος μοντέλου παλινδρόμησης. Δείχνει ποιο ποσοστό της διακύμανσης στην προκύπτουσα μεταβλητή εξηγείται από την επίδραση όλων των μεταβλητών παραγόντων που περιλαμβάνονται στο μοντέλο. Ο συντελεστής προσδιορισμού βρίσκεται πάντα στην περιοχή από το μηδέν έως το ένα. Όσο πιο κοντά είναι η τιμή του συντελεστή προσδιορισμού στο ένα, τόσο καλύτερα το μοντέλο περιγράφει την αρχική σειρά δεδομένων. Ο συντελεστής προσδιορισμού μπορεί να αναπαρασταθεί διαφορετικά:

Εδώ είναι το σφάλμα που εξηγείται από το μοντέλο παλινδρόμησης,

ΕΝΑ - λάθος, ανεξήγητο

μοντέλο παλινδρόμησης. Από οικονομική άποψη, αυτό το κριτήριο μας επιτρέπει να κρίνουμε ποιο ποσοστό της διακύμανσης της τιμής εξηγείται από την εξίσωση παλινδρόμησης.

Το ακριβές όριο αποδοχής του δείκτη R 2Είναι αδύνατο να καθοριστεί για όλες τις περιπτώσεις. Τόσο το μέγεθος του δείγματος όσο και η ουσιαστική ερμηνεία της εξίσωσης πρέπει να ληφθούν υπόψη. Κατά κανόνα, κατά τη μελέτη δεδομένων για αντικείμενα του ίδιου τύπου που λαμβάνονται περίπου στο ίδιο χρονικό σημείο, η τιμή R 2δεν ξεπερνά το επίπεδο 0,6-0,7. Εάν όλα τα σφάλματα πρόβλεψης είναι μηδενικά, π.χ. όταν η σχέση μεταξύ των μεταβλητών που προκύπτουν και του παράγοντα είναι λειτουργική, τότε R 2 =1.

Προσαρμοσμένος συντελεστής προσδιορισμού:

Η ανάγκη εισαγωγής ενός προσαρμοσμένου συντελεστή προσδιορισμού εξηγείται από το γεγονός ότι με την αύξηση του αριθμού των παραγόντων Προς τηνο συνήθης συντελεστής προσδιορισμού σχεδόν πάντα αυξάνεται, αλλά ο αριθμός των βαθμών ελευθερίας μειώνεται (σ - κ- 1). Η προσαρμογή που εισάγεται μειώνει πάντα την τιμή R2,επειδή η - 1) > (p-k- 1). Ως αποτέλεσμα, η αξία R 2 CKOf)μπορεί ακόμη και να γίνει αρνητικός. Αυτό σημαίνει ότι η αξία R 2ήταν κοντά στο μηδέν πριν από την προσαρμογή και το ποσοστό διακύμανσης της μεταβλητής εξηγήθηκε χρησιμοποιώντας την εξίσωση παλινδρόμησης στοπολύ μικρό.

Από τις δύο επιλογές για μοντέλα παλινδρόμησης που διαφέρουν ως προς την τιμή του προσαρμοσμένου συντελεστή προσδιορισμού, αλλά έχουν εξίσου καλά άλλα κριτήρια ποιότητας, προτιμάται η επιλογή με μεγαλύτερη τιμή του προσαρμοσμένου συντελεστή προσδιορισμού. Ο συντελεστής προσδιορισμού δεν προσαρμόζεται αν (ρ - κ): κ> 20.

Συντελεστής Fisher:

Αυτό το κριτήριο χρησιμοποιείται για την αξιολόγηση της σημασίας του συντελεστή προσδιορισμού. Υπολειπόμενο άθροισμα τετραγώνων αντιπροσωπεύει ένα μέτρο του σφάλματος πρόβλεψης χρησιμοποιώντας παλινδρόμηση γνωστών τιμών κόστους ε..Η σύγκρισή του με το άθροισμα των τετραγώνων δείχνει πόσες φορές η εξάρτηση παλινδρόμησης προβλέπει το αποτέλεσμα καλύτερα από τον μέσο όρο στο. Υπάρχει ένας πίνακας κρίσιμων τιμών F RΣυντελεστής Fisher, ανάλογα με τον αριθμό των βαθμών ελευθερίας του αριθμητή - Προς την, παρονομαστής v 2 = p - k- 1 και επίπεδο σημαντικότητας α. Εάν η υπολογισμένη τιμή της δοκιμής Fisher F Rείναι μεγαλύτερη από την τιμή του πίνακα, τότε η υπόθεση για την ασήμαντη σημασία του συντελεστή προσδιορισμού, δηλ. σχετικά με την ασυμφωνία μεταξύ των συνδέσεων που είναι ενσωματωμένες στην εξίσωση παλινδρόμησης και εκείνων που υπάρχουν στην πραγματικότητα, με πιθανότητα p = 1 - a απορρίπτεται.

Μέσο σφάλμα προσέγγισης(μέση ποσοστιαία απόκλιση) υπολογίζεται ως η μέση σχετική διαφορά, εκφρασμένη ως ποσοστό, μεταξύ των πραγματικών και των υπολογισμένων τιμών της μεταβλητής που προκύπτει:

Όσο χαμηλότερη είναι η τιμή αυτού του δείκτη, τόσο καλύτερες είναι οι προγνωστικές ιδιότητες του μοντέλου. Όταν αυτός ο δείκτης δεν είναι υψηλότερος από 7%, το μοντέλο είναι πολύ ακριβές. Αν 8 > 15% υποδηλώνει μη ικανοποιητική ακρίβεια του μοντέλου.

Τυπικό σφάλμα του συντελεστή παλινδρόμησης:

όπου (/I) -1 .- διαγώνιο στοιχείο του πίνακα (X G X)~ 1 k -αριθμός παραγόντων·

Χ-πίνακας τιμών μεταβλητών παραγόντων:

X 7 -μεταφερόμενος πίνακας τιμών μεταβλητών παραγόντων.

(ZhL) _| - αντίστροφη μήτρα του πίνακα.

Όσο μικρότεροι αυτοί οι δείκτες για κάθε συντελεστή παλινδρόμησης, τόσο πιο αξιόπιστη είναι η εκτίμηση του αντίστοιχου συντελεστή παλινδρόμησης.

Τεστ μαθητή (t-statistics):

Αυτό το κριτήριο σάς επιτρέπει να μετρήσετε τον βαθμό αξιοπιστίας (σημαντικότητα) της σχέσης που καθορίζεται από έναν δεδομένο συντελεστή παλινδρόμησης. Εάν η υπολογιζόμενη τιμή t. μεγαλύτερη από την τιμή του πίνακα

t av, όπου v - p - k - 1 είναι ο αριθμός των βαθμών ελευθερίας, τότε η υπόθεση ότι αυτός ο συντελεστής είναι στατιστικά ασήμαντος απορρίπτεται με πιθανότητα (100 - α)%. Υπάρχουν ειδικοί πίνακες κατανομής /- που επιτρέπουν τον προσδιορισμό της κρίσιμης τιμής του κριτηρίου με βάση ένα δεδομένο επίπεδο σημασίας a και τον αριθμό των βαθμών ελευθερίας v. Η πιο συχνά χρησιμοποιούμενη τιμή για το a είναι 5%.

Πολυσυγγραμμικότητα, δηλ. η επίδραση των αμοιβαίων σχέσεων μεταξύ των μεταβλητών παραγόντων οδηγεί στην ανάγκη να αρκεστούμε σε έναν περιορισμένο αριθμό από αυτές. Εάν αυτό δεν ληφθεί υπόψη, τότε μπορείτε να καταλήξετε σε ένα παράλογο μοντέλο παλινδρόμησης. Για να αποφευχθεί η αρνητική επίδραση της πολυσυγγραμμικότητας, υπολογίζονται συντελεστές συσχέτισης κατά ζεύγη πριν από την κατασκευή ενός μοντέλου πολλαπλής παλινδρόμησης r xjxjμεταξύ επιλεγμένων μεταβλητών Χ.Και Χ

Εδώ XjX; -τη μέση τιμή του γινομένου δύο μεταβλητών παραγόντων·

XjXj-το γινόμενο των μέσων τιμών δύο μεταβλητών παραγόντων.

Εκτίμηση της διακύμανσης της παραγοντικής μεταβλητής x..

Θεωρείται ότι δύο μεταβλητές είναι παλινδρόμηση που σχετίζονται μεταξύ τους (δηλαδή, συγγραμμικές) εάν ο συντελεστής συσχέτισης κατά ζεύγη σε απόλυτη τιμή είναι αυστηρά μεγαλύτερος από 0,8. Σε αυτήν την περίπτωση, οποιαδήποτε από αυτές τις μεταβλητές πρέπει να εξαιρεθεί από την εξέταση.

Προκειμένου να επεκταθούν οι δυνατότητες οικονομικής ανάλυσης των μοντέλων παλινδρόμησης που προκύπτουν, ο μέσος όρος συντελεστές ελαστικότητας,καθορίζεται από τον τύπο:

Οπου Xj-τη μέση τιμή της αντίστοιχης μεταβλητής παράγοντα·

y -τη μέση τιμή της μεταβλητής που προκύπτει· ένα εγώ -συντελεστής παλινδρόμησης για την αντίστοιχη μεταβλητή παράγοντα.

Ο συντελεστής ελαστικότητας δείχνει σε ποιο ποσοστό κατά μέσο όρο θα αλλάξει η τιμή της μεταβλητής που προκύπτει όταν η μεταβλητή του παράγοντα αλλάξει κατά 1%, δηλ. πώς η μεταβλητή που προκύπτει αντιδρά στις αλλαγές της μεταβλητής παράγοντα. Πώς αντιδρά για παράδειγμα η τιμή των τ.μ. μ εμβαδού διαμερίσματος σε απόσταση από το κέντρο της πόλης.

Από την άποψη της ανάλυσης της σημασίας ενός συγκεκριμένου συντελεστή παλινδρόμησης, είναι χρήσιμο να εκτιμηθεί μερικός συντελεστής προσδιορισμού:

Εδώ είναι η εκτίμηση της διακύμανσης του προκύπτοντος

μεταβλητός. Αυτός ο συντελεστής δείχνει με ποιο ποσοστό η διακύμανση στην προκύπτουσα μεταβλητή εξηγείται από τη διακύμανση της μεταβλητής του i-ου παράγοντα που περιλαμβάνεται στην εξίσωση παλινδρόμησης.

  • Ως ηδονικά χαρακτηριστικά νοούνται τα χαρακτηριστικά ενός αντικειμένου που αντικατοπτρίζουν τις χρήσιμες (πολύτιμες) ιδιότητές του από τη σκοπιά των αγοραστών και των πωλητών.

Α) Γραφική ανάλυση απλής γραμμικής παλινδρόμησης.

Απλή γραμμική εξίσωση παλινδρόμησης y=a+bx. Εάν υπάρχει συσχέτιση μεταξύ των τυχαίων μεταβλητών Y και X, τότε η τιμή y = ý + ,

όπου ý είναι η θεωρητική τιμή του y που προκύπτει από την εξίσωση ý = f(x),

 – σφάλμα απόκλισης της θεωρητικής εξίσωσης ý από τα πραγματικά (πειραματικά) δεδομένα.

Η εξίσωση για την εξάρτηση της μέσης τιμής ý από το x, δηλαδή ý = f(x), ονομάζεται εξίσωση παλινδρόμησης. Η ανάλυση παλινδρόμησης αποτελείται από τέσσερα στάδια:

1) ρύθμιση του προβλήματος και καθορισμός των λόγων της σύνδεσης.

2) περιορισμός του ερευνητικού αντικειμένου, συλλογή στατιστικών πληροφοριών.

3) επιλογή της εξίσωσης σύζευξης με βάση την ανάλυση και τη φύση των δεδομένων που συλλέγονται.

4) υπολογισμός αριθμητικών τιμών, χαρακτηριστικά συνδέσεων συσχέτισης.

Εάν δύο μεταβλητές συσχετίζονται με τέτοιο τρόπο ώστε μια αλλαγή σε μια μεταβλητή αντιστοιχεί σε συστηματική αλλαγή στην άλλη μεταβλητή, τότε η ανάλυση παλινδρόμησης χρησιμοποιείται για την εκτίμηση και την επιλογή της εξίσωσης για τη σχέση μεταξύ τους, εάν αυτές οι μεταβλητές είναι γνωστές. Σε αντίθεση με την ανάλυση παλινδρόμησης, η ανάλυση συσχέτισης χρησιμοποιείται για την ανάλυση της εγγύτητας της σχέσης μεταξύ X και Y.

Ας εξετάσουμε την εύρεση μιας ευθείας γραμμής στην ανάλυση παλινδρόμησης:

Θεωρητική εξίσωση παλινδρόμησης.

Ο όρος "απλή παλινδρόμηση" υποδηλώνει ότι η τιμή μιας μεταβλητής εκτιμάται με βάση τη γνώση για μια άλλη μεταβλητή. Σε αντίθεση με την απλή πολυμεταβλητή παλινδρόμηση, χρησιμοποιείται για την εκτίμηση μιας μεταβλητής με βάση τη γνώση δύο, τριών ή περισσότερων μεταβλητών. Ας δούμε τη γραφική ανάλυση της απλής γραμμικής παλινδρόμησης.

Ας υποθέσουμε ότι υπάρχουν αποτελέσματα δοκιμών προσυμπτωματικού ελέγχου σχετικά με την προ-εργασία και την παραγωγικότητα της εργασίας.

Αποτελέσματα επιλογής (100 βαθμοί), x

Παραγωγικότητα (20 βαθμοί), y

Σχεδιάζοντας τα σημεία σε ένα γράφημα, παίρνουμε ένα διάγραμμα διασποράς (πεδίο). Το χρησιμοποιούμε για να αναλύσουμε τα αποτελέσματα των δοκιμών επιλογής και την παραγωγικότητα της εργασίας.

Χρησιμοποιώντας το scatterplot, ας αναλύσουμε τη γραμμή παλινδρόμησης. Στην ανάλυση παλινδρόμησης, καθορίζονται πάντα τουλάχιστον δύο μεταβλητές. Μια συστηματική αλλαγή σε μια μεταβλητή συνδέεται με μια αλλαγή σε μια άλλη. Πρωταρχικός στόχος ανάλυση παλινδρόμησηςσυνίσταται στην εκτίμηση της τιμής μιας μεταβλητής εάν η τιμή μιας άλλης μεταβλητής είναι γνωστή. Για μια ολοκληρωμένη εργασία, η αξιολόγηση της παραγωγικότητας της εργασίας είναι σημαντική.

Ανεξάρτητη μεταβλητήστην ανάλυση παλινδρόμησης, μια ποσότητα που χρησιμοποιείται ως βάση για την ανάλυση μιας άλλης μεταβλητής. Σε αυτή την περίπτωση, αυτά είναι τα αποτελέσματα των δοκιμών επιλογής (κατά μήκος του άξονα Χ).

Εξαρτημένη μεταβλητήονομάζεται εκτιμώμενη τιμή (κατά μήκος του άξονα Υ). Στην ανάλυση παλινδρόμησης, μπορεί να υπάρχει μόνο μία εξαρτημένη μεταβλητή και περισσότερες από μία ανεξάρτητες μεταβλητές.

Για απλή ανάλυση παλινδρόμησης, η εξάρτηση μπορεί να αναπαρασταθεί σε ένα σύστημα δύο συντεταγμένων (x και y), με τον άξονα X να είναι η ανεξάρτητη μεταβλητή και ο άξονας Y να είναι η εξαρτημένη μεταβλητή. Σχεδιάζουμε τα σημεία τομής έτσι ώστε ένα ζεύγος τιμών να παριστάνεται στο γράφημα. Το πρόγραμμα καλείται διάγραμμα διασποράς. Η κατασκευή του είναι το δεύτερο στάδιο της ανάλυσης παλινδρόμησης, αφού το πρώτο είναι η επιλογή των αναλυόμενων τιμών και η συλλογή δειγματοληπτικών δεδομένων. Έτσι, η ανάλυση παλινδρόμησης χρησιμοποιείται για στατιστική ανάλυση. Η σχέση μεταξύ των δεδομένων δείγματος σε ένα γράφημα είναι γραμμική.

Για να εκτιμηθεί το μέγεθος μιας μεταβλητής y με βάση μια μεταβλητή x, είναι απαραίτητο να προσδιοριστεί η θέση της ευθείας που αντιπροσωπεύει καλύτερα τη σχέση μεταξύ x και y με βάση τη θέση των σημείων στο διάγραμμα διασποράς. Στο παράδειγμά μας, αυτή είναι η ανάλυση απόδοσης. Γραμμή που χαράσσεται μέσω σημείων σκέδασης - γραμμή παλινδρόμησης. Ένας τρόπος για τη δημιουργία μιας γραμμής παλινδρόμησης με βάση την οπτική εμπειρία είναι η μέθοδος με ελεύθερο χέρι. Η γραμμή παλινδρόμησής μας μπορεί να χρησιμοποιηθεί για τον προσδιορισμό της παραγωγικότητας της εργασίας. Κατά την εύρεση της εξίσωσης της γραμμής παλινδρόμησης

Συχνά χρησιμοποιείται η δοκιμή ελαχίστων τετραγώνων. Η πιο κατάλληλη γραμμή είναι αυτή όπου το άθροισμα των τετραγωνικών αποκλίσεων είναι ελάχιστο

Η μαθηματική εξίσωση μιας γραμμής ανάπτυξης αντιπροσωπεύει τον νόμο της ανάπτυξης σε μια αριθμητική πρόοδο:

στο = ΕΝΑσιΧ.

Υ = ΕΝΑ + σιΧ– η δεδομένη εξίσωση με μία παράμετρο είναι ο απλούστερος τύπος εξίσωσης σύζευξης. Είναι αποδεκτό για μέσες τιμές. Για να εκφράσουμε με μεγαλύτερη ακρίβεια τη σχέση μεταξύ ΧΚαι στο, εισάγεται πρόσθετος συντελεστής αναλογικότητας σι, που δείχνει την κλίση της γραμμής παλινδρόμησης.

Β) Κατασκευή θεωρητικής γραμμής παλινδρόμησης.

Η διαδικασία εύρεσης της συνίσταται στην επιλογή και αιτιολόγηση του τύπου της καμπύλης και στον υπολογισμό των παραμέτρων ΕΝΑ, σι, Μεκαι τα λοιπά. Η διαδικασία κατασκευής ονομάζεται ισοπέδωση, και η παροχή καμπυλών που προσφέρει η ψάθα. ανάλυση, ποικίλη. Τις περισσότερες φορές, σε οικονομικά προβλήματα, χρησιμοποιείται μια οικογένεια καμπυλών, εξισώσεις που εκφράζονται με πολυώνυμα θετικών ακέραιων δυνάμεων.

1)
– εξίσωση ευθείας γραμμής,

2)
– εξίσωση υπερβολής,

3)
– εξίσωση παραβολής,

όπου ý είναι οι τεταγμένες της θεωρητικής γραμμής παλινδρόμησης.

Έχοντας επιλέξει τον τύπο της εξίσωσης, πρέπει να βρείτε τις παραμέτρους από τις οποίες εξαρτάται αυτή η εξίσωση. Για παράδειγμα, η φύση της θέσης των σημείων στο πεδίο σκέδασης έδειξε ότι η θεωρητική γραμμή παλινδρόμησης είναι ευθεία.

Ένα scatterplot σάς επιτρέπει να αναπαραστήσετε την παραγωγικότητα της εργασίας χρησιμοποιώντας ανάλυση παλινδρόμησης. Στα οικονομικά, η ανάλυση παλινδρόμησης χρησιμοποιείται για την πρόβλεψη πολλών χαρακτηριστικών που επηρεάζουν το τελικό προϊόν (λαμβάνοντας υπόψη την τιμολόγηση).

Β) Το κριτήριο των μικρότερων πλαισίων για την εύρεση ευθείας.

Ένα κριτήριο που θα μπορούσαμε να εφαρμόσουμε για μια κατάλληλη γραμμή παλινδρόμησης σε ένα διάγραμμα διασποράς βασίζεται στην επιλογή της γραμμής για την οποία το άθροισμα των τετραγώνων σφαλμάτων είναι ελάχιστο.

Η εγγύτητα των σημείων σκέδασης στην ευθεία μετράται από τις τεταγμένες των τμημάτων. Οι αποκλίσεις αυτών των σημείων μπορεί να είναι θετικές και αρνητικές, αλλά το άθροισμα των τετραγώνων των αποκλίσεων της θεωρητικής ευθείας από την πειραματική γραμμή είναι πάντα θετικό και θα πρέπει να είναι ελάχιστο. Το γεγονός ότι όλα τα σημεία σκέδασης δεν συμπίπτουν με τη θέση της γραμμής παλινδρόμησης υποδηλώνει την ύπαρξη ασυμφωνίας μεταξύ των πειραματικών και των θεωρητικών δεδομένων. Έτσι, μπορούμε να πούμε ότι καμία άλλη γραμμή παλινδρόμησης, εκτός από αυτή που βρέθηκε, δεν μπορεί να δώσει μικρότερο αριθμό αποκλίσεων μεταξύ των πειραματικών και των πειραματικών δεδομένων. Επομένως, έχοντας βρει τη θεωρητική εξίσωση ý και τη γραμμή παλινδρόμησης, ικανοποιούμε την απαίτηση ελαχίστων τετραγώνων.

Αυτό γίνεται χρησιμοποιώντας την εξίσωση σύζευξης
χρησιμοποιώντας τύπους για την εύρεση παραμέτρων ΕΝΑΚαι σι. Λαμβάνοντας τη θεωρητική αξία
και δηλώνοντας την αριστερή πλευρά της εξίσωσης με φά, παίρνουμε τη συνάρτηση
από άγνωστες παραμέτρους ΕΝΑΚαι σι. Αξίες ΕΝΑΚαι σιθα ικανοποιήσει την ελάχιστη λειτουργία φάκαι βρίσκονται από μερικές διαφορικές εξισώσεις
Και
. Αυτό απαραίτητη προϋπόθεση, ωστόσο, για μια θετική τετραγωνική συνάρτηση αυτή είναι επίσης επαρκής συνθήκη για εύρεση ΕΝΑΚαι σι.

Ας εξάγουμε τους τύπους παραμέτρων από τις μερικές εξισώσεις παραγώγων ΕΝΑΚαι σι:



παίρνουμε ένα σύστημα εξισώσεων:

Οπου
– λάθη αριθμητικού μέσου όρου.

Αντικαθιστώντας αριθμητικές τιμές, βρίσκουμε τις παραμέτρους ΕΝΑΚαι σι.

Υπάρχει μια έννοια
. Αυτός είναι ο παράγοντας προσέγγισης.

Αν μι < 33%, то модель приемлема для дальнейшего анализа;

Αν μι> 33%, τότε παίρνουμε υπερβολή, παραβολή κ.λπ. Αυτό δίνει το δικαίωμα ανάλυσης σε διάφορες καταστάσεις.

Συμπέρασμα: σύμφωνα με το κριτήριο του συντελεστή προσέγγισης, η καταλληλότερη γραμμή είναι αυτή για την οποία

, και καμία άλλη γραμμή παλινδρόμησης για το πρόβλημά μας δεν δίνει ελάχιστη απόκλιση.

Δ) Τετράγωνο σφάλμα εκτίμησης, ελέγχοντας την τυπικότητά τους.

Σε σχέση με έναν πληθυσμό στον οποίο ο αριθμός των ερευνητικών παραμέτρων είναι μικρότερος από 30 ( n < 30), для проверки типичности параметров уравнения регрессии используется t-Τεστ μαθητή. Αυτό υπολογίζει την πραγματική τιμή t-κριτήρια:

Από εδώ

Οπου – υπολειπόμενο σφάλμα ρίζας-μέσος τετραγώνου. Ελήφθη t έναΚαι t σισε σύγκριση με την κριτική t καπό τον πίνακα του Μαθητή λαμβάνοντας υπόψη το αποδεκτό επίπεδο σημαντικότητας ( = 0,01 = 99% ή  = 0,05 = 95%). Π = φά = κ 1 = Μ– αριθμός παραμέτρων της υπό μελέτη εξίσωσης (βαθμός ελευθερίας). Για παράδειγμα, εάν y = ένα + bx; Μ = 2, κ 2 = φά 2 = Π 2 = n – (Μ+ 1), όπου n– αριθμός μελετημένων χαρακτηριστικών.

t ένα < t κ < t σι .

συμπέρασμα: χρησιμοποιώντας τις παραμέτρους της εξίσωσης παλινδρόμησης που δοκιμάστηκαν για τυπικότητα, δημιουργείται ένα μαθηματικό μοντέλο επικοινωνίας
. Σε αυτή την περίπτωση, οι παράμετροι της μαθηματικής συνάρτησης που χρησιμοποιούνται στην ανάλυση (γραμμική, υπερβολή, παραβολή) λαμβάνουν τις αντίστοιχες ποσοτικές τιμές. Το σημασιολογικό περιεχόμενο των μοντέλων που λαμβάνονται με αυτόν τον τρόπο είναι ότι χαρακτηρίζουν τη μέση τιμή του προκύπτοντος χαρακτηριστικού
από χαρακτηριστικό παράγοντα Χ.

Δ) Καμπυλόγραμμη παλινδρόμηση.

Πολύ συχνά, μια καμπυλόγραμμη σχέση εμφανίζεται όταν δημιουργείται μια μεταβαλλόμενη σχέση μεταξύ των μεταβλητών. Η ένταση της αύξησης (μείωσης) εξαρτάται από το επίπεδο του Χ. Υπάρχουν διάφοροι τύποι καμπυλόγραμμης εξάρτησης. Για παράδειγμα, εξετάστε τη σχέση μεταξύ της απόδοσης της καλλιέργειας και της βροχόπτωσης. Με αύξηση της βροχόπτωσης υπό ίσες φυσικές συνθήκες, υπάρχει έντονη αύξηση της απόδοσης, αλλά μέχρι ένα ορισμένο όριο. Μετά το κρίσιμο σημείο, η βροχόπτωση αποδεικνύεται υπερβολική και οι αποδόσεις πέφτουν καταστροφικά. Το παράδειγμα δείχνει ότι στην αρχή η σχέση ήταν θετική και μετά αρνητική. Το κρίσιμο σημείο είναι το βέλτιστο επίπεδο του χαρακτηριστικού X, το οποίο αντιστοιχεί στη μέγιστη ή ελάχιστη τιμή του χαρακτηριστικού Y.

Στα οικονομικά, μια τέτοια σχέση παρατηρείται μεταξύ τιμής και κατανάλωσης, παραγωγικότητας και εμπειρίας.

Παραβολική εξάρτηση.

Εάν τα δεδομένα δείχνουν ότι μια αύξηση σε ένα χαρακτηριστικό παράγοντα οδηγεί σε αύξηση του προκύπτοντος χαρακτηριστικού, τότε μια εξίσωση δεύτερης τάξης (παραβολή) λαμβάνεται ως εξίσωση παλινδρόμησης.

. Οι συντελεστές a,b,c βρίσκονται από μερικές διαφορικές εξισώσεις:

Παίρνουμε ένα σύστημα εξισώσεων:

Τύποι καμπυλόγραμμων εξισώσεων:

,

,

Έχουμε το δικαίωμα να υποθέσουμε ότι υπάρχει μια καμπυλόγραμμη σχέση μεταξύ της παραγωγικότητας της εργασίας και των βαθμολογιών του τεστ επιλογής. Αυτό σημαίνει ότι καθώς αυξάνεται το σύστημα βαθμολόγησης, η απόδοση θα αρχίσει να μειώνεται σε κάποιο επίπεδο, επομένως το ευθύ μοντέλο μπορεί να αποδειχθεί καμπυλόγραμμο.

Το τρίτο μοντέλο θα είναι μια υπερβολή και σε όλες τις εξισώσεις η μεταβλητή x θα αντικατασταθεί από την έκφραση .

Τι είναι η παλινδρόμηση;

Θεωρήστε δύο συνεχείς μεταβλητές x=(x1, x2, .., x n), y=(y 1, y 2, ..., y n).

Ας τοποθετήσουμε τα σημεία σε ένα δισδιάστατο διάγραμμα διασποράς και ας πούμε ότι έχουμε γραμμική σχέση, εάν τα δεδομένα προσεγγίζονται με ευθεία γραμμή.

Αν το πιστέψουμε yεξαρτάται από Χ, και αλλαγές σε yπροκαλούνται ακριβώς από αλλαγές σε Χ, μπορούμε να προσδιορίσουμε τη γραμμή παλινδρόμησης (παλίνδρομο yεπί Χ), το οποίο περιγράφει καλύτερα τη γραμμική σχέση μεταξύ αυτών των δύο μεταβλητών.

Η στατιστική χρήση της λέξης παλινδρόμηση προέρχεται από το φαινόμενο γνωστό ως παλινδρόμηση στη μέση τιμή, που αποδίδεται στον Sir Francis Galton (1889).

Έδειξε ότι αν και οι ψηλοί πατεράδες τείνουν να έχουν ψηλούς γιους, το μέσο ύψος των γιων είναι μικρότερο από αυτό των ψηλών πατεράδων τους. Το μέσο ύψος των γιων «οπισθοχώρησε» και «μετακίνησε προς τα πίσω» προς το μέσο ύψος όλων των πατέρων του πληθυσμού. Έτσι, κατά μέσο όρο, οι ψηλοί πατέρες έχουν πιο κοντούς (αλλά ακόμα αρκετά ψηλούς) γιους και οι κοντοί πατέρες έχουν ψηλότερους (αλλά ακόμα αρκετά κοντούς) γιους.

Γραμμή παλινδρόμησης

Μια μαθηματική εξίσωση που υπολογίζει μια απλή (σε ζεύγη) γραμμική γραμμή παλινδρόμησης:

Χονομάζεται ανεξάρτητη μεταβλητή ή προγνωστικός παράγοντας.

Υ- εξαρτημένη μεταβλητή ή μεταβλητή απόκρισης. Αυτή είναι η αξία που περιμένουμε y(κατά μέσο όρο) αν γνωρίζουμε την τιμή Χ, δηλ. είναι η "προβλεπόμενη τιμή" y»

  • ένα- ελεύθερο μέλος (τομή) της γραμμής αξιολόγησης. αυτό είναι το νόημα Υ, Οταν x=0(Εικ.1).
  • σι- κλίση ή κλίση της εκτιμώμενης γραμμής. αντιπροσωπεύει το ποσό με το οποίο Υαυξάνεται κατά μέσο όρο αν αυξήσουμε Χανά μία μονάδα.
  • έναΚαι σιονομάζονται συντελεστές παλινδρόμησης της εκτιμώμενης γραμμής, αν και αυτός ο όρος χρησιμοποιείται συχνά μόνο για σι.

Η γραμμική παλινδρόμηση κατά ζεύγη μπορεί να επεκταθεί ώστε να περιλαμβάνει περισσότερες από μία ανεξάρτητες μεταβλητές. σε αυτή την περίπτωση είναι γνωστό ως πολλαπλή παλινδρόμηση.

Εικ.1. Γραμμή γραμμικής παλινδρόμησης που δείχνει την τομή a και την κλίση b (το ποσό Y αυξάνεται καθώς το x αυξάνεται κατά μία μονάδα)

Μέθοδος ελάχιστου τετραγώνου

Πραγματοποιούμε ανάλυση παλινδρόμησης χρησιμοποιώντας δείγμα παρατηρήσεων όπου έναΚαι σι- δειγματοληπτικές εκτιμήσεις των πραγματικών (γενικών) παραμέτρων, α και β, που καθορίζουν τη γραμμή γραμμικής παλινδρόμησης στον πληθυσμό (γενικός πληθυσμός).

Η απλούστερη μέθοδος για τον προσδιορισμό των συντελεστών έναΚαι σιείναι μέθοδος ελάχιστου τετραγώνου(MNC).

Η προσαρμογή αξιολογείται εξετάζοντας τα υπολείμματα (η κατακόρυφη απόσταση κάθε σημείου από τη γραμμή, π.χ. υπολειπόμενο = παρατηρήθηκε y- προέβλεψε y, Ρύζι. 2).

Η γραμμή καλύτερης προσαρμογής επιλέγεται έτσι ώστε το άθροισμα των τετραγώνων των υπολειμμάτων να είναι ελάχιστο.

Ρύζι. 2. Γραμμική γραμμή παλινδρόμησης με υπολείμματα που απεικονίζονται (κάθετες διακεκομμένες γραμμές) για κάθε σημείο.

Υποθέσεις Γραμμικής Παλινδρόμησης

Έτσι, για κάθε παρατηρούμενη τιμή, το υπόλοιπο ισούται με τη διαφορά και την αντίστοιχη προβλεπόμενη τιμή.Κάθε υπόλοιπο μπορεί να είναι θετικό ή αρνητικό.

Μπορείτε να χρησιμοποιήσετε υπολείμματα για να ελέγξετε τις ακόλουθες υποθέσεις πίσω από τη γραμμική παλινδρόμηση:

  • Τα υπολείμματα κατανέμονται κανονικά με μέσο όρο μηδέν.

Εάν οι παραδοχές της γραμμικότητας, της κανονικότητας ή/και της σταθερής διακύμανσης είναι αμφισβητήσιμες, μπορούμε να μετατρέψουμε ή και να υπολογίσουμε μια νέα γραμμή παλινδρόμησης για την οποία ικανοποιούνται αυτές οι παραδοχές (για παράδειγμα, χρησιμοποιήστε έναν λογαριθμικό μετασχηματισμό κ.λπ.).

Ανώμαλες τιμές (ακραίες τιμές) και σημεία επιρροής

Μια παρατήρηση με "επιρροή", εάν παραλειφθεί, αλλάζει μία ή περισσότερες εκτιμήσεις παραμέτρων του μοντέλου (δηλαδή, κλίση ή τομή).

Μια ακραία τιμή (παρατήρηση που δεν συνάδει με την πλειονότητα των τιμών σε ένα σύνολο δεδομένων) μπορεί να είναι μια παρατήρηση με «επιρροή» και μπορεί εύκολα να ανιχνευθεί οπτικά επιθεωρώντας ένα διμεταβλητό διάγραμμα διασποράς ή υπολειπόμενο διάγραμμα.

Τόσο για ακραίες τιμές όσο και για παρατηρήσεις με «επιρροή» (σημεία), χρησιμοποιούνται μοντέλα, τόσο με όσο και χωρίς τη συμπερίληψή τους, και δίνεται προσοχή στις αλλαγές στις εκτιμήσεις (συντελεστές παλινδρόμησης).

Κατά τη διεξαγωγή μιας ανάλυσης, δεν πρέπει να απορρίπτετε αυτόματα τα ακραία σημεία ή τα σημεία επιρροής, καθώς η απλή παράβλεψή τους μπορεί να επηρεάσει τα αποτελέσματα που λαμβάνονται. Πάντα να μελετάτε τους λόγους για αυτές τις ακραίες τιμές και να τις αναλύετε.

Υπόθεση γραμμικής παλινδρόμησης

Κατά την κατασκευή της γραμμικής παλινδρόμησης, ελέγχεται η μηδενική υπόθεση ότι η γενική κλίση της γραμμής παλινδρόμησης β είναι ίση με μηδέν.

Εάν η κλίση της γραμμής είναι μηδέν, δεν υπάρχει γραμμική σχέση μεταξύ και: η αλλαγή δεν επηρεάζει

Για να ελέγξετε τη μηδενική υπόθεση ότι η πραγματική κλίση είναι μηδέν, μπορείτε να χρησιμοποιήσετε τον ακόλουθο αλγόριθμο:

Υπολογίστε τη στατιστική δοκιμής ίση με την αναλογία , η οποία υπόκειται σε κατανομή με βαθμούς ελευθερίας, όπου το τυπικό σφάλμα του συντελεστή


,

- εκτίμηση της διασποράς των υπολειμμάτων.

Τυπικά, εάν επιτευχθεί το επίπεδο σημαντικότητας, η μηδενική υπόθεση απορρίπτεται.


όπου είναι το ποσοστό της κατανομής με βαθμούς ελευθερίας, που δίνει την πιθανότητα μιας δοκιμής δύο όψεων

Αυτό είναι το διάστημα που περιέχει τη γενική κλίση με πιθανότητα 95%.

Για μεγάλα δείγματα, ας πούμε, μπορούμε να προσεγγίσουμε την τιμή 1,96 (δηλαδή, η στατιστική δοκιμής θα τείνει να κατανέμεται κανονικά)

Αξιολόγηση της ποιότητας της γραμμικής παλινδρόμησης: συντελεστής προσδιορισμού R 2

Λόγω της γραμμικής σχέσης και αναμένουμε ότι αλλάζει ως , και ονομάζουμε την παραλλαγή που οφείλεται ή εξηγείται από την παλινδρόμηση. Η υπολειπόμενη διακύμανση πρέπει να είναι όσο το δυνατόν μικρότερη.

Εάν αυτό ισχύει, τότε το μεγαλύτερο μέρος της παραλλαγής θα εξηγηθεί με παλινδρόμηση και τα σημεία θα βρίσκονται κοντά στη γραμμή παλινδρόμησης, δηλ. η γραμμή ταιριάζει καλά στα δεδομένα.

Το ποσοστό της συνολικής διακύμανσης που εξηγείται με παλινδρόμηση ονομάζεται συντελεστή προσδιορισμού, συνήθως εκφράζεται ως ποσοστό και συμβολίζεται R 2(σε ζευγαρωμένη γραμμική παλινδρόμηση αυτή είναι η ποσότητα r 2, τετράγωνο του συντελεστή συσχέτισης), σας επιτρέπει να αξιολογήσετε υποκειμενικά την ποιότητα της εξίσωσης παλινδρόμησης.

Η διαφορά αντιπροσωπεύει το ποσοστό διακύμανσης που δεν μπορεί να εξηγηθεί με παλινδρόμηση.

Δεν υπάρχει επίσημο τεστ για αξιολόγηση· πρέπει να βασιστούμε σε υποκειμενική κρίση για να προσδιορίσουμε την καλή προσαρμογή της γραμμής παλινδρόμησης.

Εφαρμογή γραμμής παλινδρόμησης στην πρόβλεψη

Μπορείτε να χρησιμοποιήσετε μια γραμμή παλινδρόμησης για να προβλέψετε μια τιμή από μια τιμή στο ακραίο άκρο του παρατηρούμενου εύρους (ποτέ μην κάνετε παρέκταση πέρα ​​από αυτά τα όρια).

Προβλέπουμε τον μέσο όρο των παρατηρήσιμων στοιχείων που έχουν μια συγκεκριμένη τιμή συνδέοντας αυτήν την τιμή στην εξίσωση της γραμμής παλινδρόμησης.

Έτσι, εάν προβλέπουμε ως Χρησιμοποιήστε αυτήν την προβλεπόμενη τιμή και το τυπικό της σφάλμα για να υπολογίσετε ένα διάστημα εμπιστοσύνης για τον πραγματικό μέσο πληθυσμό.

Η επανάληψη αυτής της διαδικασίας για διαφορετικές τιμές σάς επιτρέπει να δημιουργήσετε όρια εμπιστοσύνης για αυτήν τη γραμμή. Αυτή είναι η ζώνη ή η περιοχή που περιέχει την αληθινή γραμμή, για παράδειγμα σε επίπεδο εμπιστοσύνης 95%.

Απλά σχέδια παλινδρόμησης

Τα απλά σχέδια παλινδρόμησης περιέχουν έναν συνεχή προγνωστικό παράγοντα. Εάν υπάρχουν 3 παρατηρήσεις με τιμές πρόβλεψης P, όπως 7, 4 και 9, και ο σχεδιασμός περιλαμβάνει ένα εφέ πρώτης τάξης P, τότε ο πίνακας σχεδίασης X θα είναι

και η εξίσωση παλινδρόμησης που χρησιμοποιεί το P για το X1 είναι

Y = b0 + b1 P

Εάν ένας απλός σχεδιασμός παλινδρόμησης περιέχει ένα εφέ υψηλότερης τάξης στο P, όπως ένα τετραγωνικό αποτέλεσμα, τότε οι τιμές στη στήλη X1 στον πίνακα σχεδίασης θα αυξηθούν στη δεύτερη ισχύ:

και η εξίσωση θα πάρει τη μορφή

Y = b0 + b1 P2

Οι μέθοδοι κωδικοποίησης με περιορισμούς Sigma και υπερπαραμετροποιημένες δεν ισχύουν για απλούς σχεδιασμούς παλινδρόμησης και άλλους σχεδιασμούς που περιέχουν μόνο συνεχείς προγνωστικούς παράγοντες (επειδή απλά δεν υπάρχουν κατηγορικοί προγνωστικοί παράγοντες). Ανεξάρτητα από την επιλεγμένη μέθοδο κωδικοποίησης, οι τιμές των συνεχών μεταβλητών αυξάνονται ανάλογα και χρησιμοποιούνται ως τιμές για τις μεταβλητές X. Σε αυτήν την περίπτωση, δεν πραγματοποιείται επανακωδικοποίηση. Επιπλέον, όταν περιγράφετε σχέδια παλινδρόμησης, μπορείτε να παραλείψετε την εξέταση του πίνακα σχεδίασης X και να εργαστείτε μόνο με την εξίσωση παλινδρόμησης.

Παράδειγμα: Απλή Ανάλυση παλινδρόμησης

Αυτό το παράδειγμα χρησιμοποιεί τα δεδομένα που παρουσιάζονται στον πίνακα:

Ρύζι. 3. Πίνακας αρχικών στοιχείων.

Στοιχεία που συγκεντρώθηκαν από μια σύγκριση των απογραφών του 1960 και του 1970 σε τυχαία επιλεγμένες 30 κομητείες. Τα ονόματα των νομών παρουσιάζονται ως ονόματα παρατήρησης. Πληροφορίες για κάθε μεταβλητή παρουσιάζονται παρακάτω:

Ρύζι. 4. Πίνακας μεταβλητών προδιαγραφών.

Ερευνητικό πρόβλημα

Για αυτό το παράδειγμα, θα αναλυθεί η συσχέτιση μεταξύ του ποσοστού φτώχειας και του βαθμού που προβλέπει το ποσοστό των οικογενειών που βρίσκονται κάτω από το όριο της φτώχειας. Επομένως, θα αντιμετωπίσουμε τη μεταβλητή 3 (Pt_Poor) ως την εξαρτημένη μεταβλητή.

Μπορούμε να υποβάλουμε μια υπόθεση: οι αλλαγές στο μέγεθος του πληθυσμού και το ποσοστό των οικογενειών που βρίσκονται κάτω από το όριο της φτώχειας σχετίζονται. Φαίνεται λογικό να περιμένουμε ότι η φτώχεια οδηγεί σε μετανάστευση έξω, επομένως θα υπήρχε αρνητική συσχέτιση μεταξύ του ποσοστού των ανθρώπων κάτω από το όριο της φτώχειας και της πληθυσμιακής αλλαγής. Επομένως, θα αντιμετωπίσουμε τη μεταβλητή 1 (Pop_Chng) ως μεταβλητή πρόβλεψης.

Προβολή αποτελεσμάτων

Συντελεστές παλινδρόμησης

Ρύζι. 5. Συντελεστές παλινδρόμησης του Pt_Poor στο Pop_Chng.

Στη διασταύρωση της γραμμής Pop_Chng και της στήλης Param. ο μη τυποποιημένος συντελεστής για την παλινδρόμηση του Pt_Poor στο Pop_Chng είναι -0,40374. Αυτό σημαίνει ότι για κάθε μείωση κατά μία μονάδα πληθυσμού, υπάρχει αύξηση του ποσοστού φτώχειας 0,40374. Το ανώτερο και το κατώτερο (προεπιλογή) όριο εμπιστοσύνης 95% για αυτόν τον μη τυποποιημένο συντελεστή δεν περιλαμβάνουν το μηδέν, επομένως ο συντελεστής παλινδρόμησης είναι σημαντικός στο επίπεδο p<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Μεταβλητή κατανομή

Οι συντελεστές συσχέτισης μπορεί να υπερεκτιμηθούν σημαντικά ή να υποεκτιμηθούν εάν υπάρχουν μεγάλες ακραίες τιμές στα δεδομένα. Ας μελετήσουμε την κατανομή της εξαρτημένης μεταβλητής Pt_Poor ανά περιοχή. Για να γίνει αυτό, ας δημιουργήσουμε ένα ιστόγραμμα της μεταβλητής Pt_Poor.

Ρύζι. 6. Ιστόγραμμα της μεταβλητής Pt_Poor.

Όπως μπορείτε να δείτε, η κατανομή αυτής της μεταβλητής διαφέρει σημαντικά από την κανονική κατανομή. Ωστόσο, αν και ακόμη και δύο κομητείες (οι δύο δεξιές στήλες) έχουν υψηλότερο ποσοστό οικογενειών που βρίσκονται κάτω από το όριο της φτώχειας από το αναμενόμενο υπό μια κανονική κατανομή, φαίνεται ότι βρίσκονται "εντός του εύρους".

Ρύζι. 7. Ιστόγραμμα της μεταβλητής Pt_Poor.

Αυτή η κρίση είναι κάπως υποκειμενική. Ο εμπειρικός κανόνας είναι ότι οι ακραίες τιμές πρέπει να λαμβάνονται υπόψη εάν η παρατήρηση (ή οι παρατηρήσεις) δεν εμπίπτουν στο διάστημα (μέση τιμή ± 3 φορές την τυπική απόκλιση). Σε αυτή την περίπτωση, αξίζει να επαναληφθεί η ανάλυση με και χωρίς ακραίες τιμές για να διασφαλιστεί ότι δεν έχουν σημαντική επίδραση στη συσχέτιση μεταξύ των μελών του πληθυσμού.

Διάγραμμα διασποράς

Εάν μια από τις υποθέσεις είναι a priori σχετικά με τη σχέση μεταξύ δεδομένων μεταβλητών, τότε είναι χρήσιμο να τη δοκιμάσετε στο γράφημα του αντίστοιχου scatterplot.

Ρύζι. 8. Διάγραμμα διασποράς.

Το διάγραμμα διασποράς δείχνει μια σαφή αρνητική συσχέτιση (-.65) μεταξύ των δύο μεταβλητών. Δείχνει επίσης το διάστημα εμπιστοσύνης 95% για τη γραμμή παλινδρόμησης, δηλαδή, υπάρχει πιθανότητα 95% η γραμμή παλινδρόμησης να βρίσκεται μεταξύ των δύο διακεκομμένων καμπυλών.

Κριτήρια σπουδαιότητας

Ρύζι. 9. Πίνακας που περιέχει κριτήρια σημαντικότητας.

Η δοκιμή για τον συντελεστή παλινδρόμησης Pop_Chng επιβεβαιώνει ότι το Pop_Chng σχετίζεται ισχυρά με το Pt_Poor, p<.001 .

Συμπέρασμα

Αυτό το παράδειγμα έδειξε πώς να αναλύσετε ένα απλό σχέδιο παλινδρόμησης. Παρουσιάστηκαν επίσης ερμηνείες μη τυποποιημένων και τυποποιημένων συντελεστών παλινδρόμησης. Συζητείται η σημασία της μελέτης της κατανομής απόκρισης μιας εξαρτημένης μεταβλητής και αποδεικνύεται μια τεχνική για τον προσδιορισμό της κατεύθυνσης και της ισχύος της σχέσης μεταξύ ενός προγνωστικού και μιας εξαρτημένης μεταβλητής.