Μέθοδος κύριου συστατικούή ανάλυση συστατικών(ανάλυση κύριου συστατικού, PCA) είναι μια από τις πιο σημαντικές μεθόδους στο οπλοστάσιο ενός ζωολόγου ή οικολόγου. Δυστυχώς, σε περιπτώσεις όπου είναι αρκετά σκόπιμο να χρησιμοποιηθεί η ανάλυση συστατικών, χρησιμοποιείται συχνά η ανάλυση συστάδων.

Μια τυπική εργασία για την οποία είναι χρήσιμη η ανάλυση συστατικών είναι η εξής: υπάρχει ένα συγκεκριμένο σύνολο αντικειμένων, καθένα από τα οποία χαρακτηρίζεται από έναν ορισμένο (αρκετά μεγάλο) αριθμό χαρακτηριστικών. Ο ερευνητής ενδιαφέρεται για τα μοτίβα που αντικατοπτρίζονται στην ποικιλομορφία αυτών των αντικειμένων. Στην περίπτωση που υπάρχει λόγος να υποθέσουμε ότι τα αντικείμενα κατανέμονται μεταξύ ιεραρχικά δευτερευουσών ομάδων, μπορεί να χρησιμοποιηθεί ανάλυση συστάδων - η μέθοδος ταξινομήσεις(διανομή ανά ομάδες). Εάν δεν υπάρχει λόγος να περιμένετε ότι η ποικιλία των αντικειμένων αντικατοπτρίζει κάποιο είδος ιεραρχίας, είναι λογικό να χρησιμοποιήσετε χειροτονία(τακτοποιημένη διάταξη). Αν κάθε αντικείμενο χαρακτηρίζεται επαρκώς ένας μεγάλος αριθμόςχαρακτηριστικά (τουλάχιστον τόσα πολλά χαρακτηριστικά που δεν μπορούν να απεικονιστούν επαρκώς σε ένα γράφημα), είναι βέλτιστο να ξεκινήσετε τη μελέτη των δεδομένων με ανάλυση των κύριων στοιχείων. Γεγονός είναι ότι αυτή η μέθοδος είναι ταυτόχρονα μια μέθοδος μείωσης της διαστάσεων (αριθμός διαστάσεων) των δεδομένων.

Εάν μια ομάδα αντικειμένων υπό εξέταση χαρακτηρίζεται από τις τιμές ενός χαρακτηριστικού, μπορεί να χρησιμοποιηθεί ένα ιστόγραμμα (για συνεχή χαρακτηριστικά) ή ένα διάγραμμα ράβδων (για τον χαρακτηρισμό των συχνοτήτων ενός διακριτού χαρακτηριστικού) για τον χαρακτηρισμό της ποικιλομορφίας τους. Εάν τα αντικείμενα χαρακτηρίζονται από δύο χαρακτηριστικά, μπορεί να χρησιμοποιηθεί ένα δισδιάστατο διάγραμμα διασποράς, εάν τρία, μπορεί να χρησιμοποιηθεί ένα τρισδιάστατο. Τι γίνεται αν υπάρχουν πολλά σημάδια; Μπορείτε να προσπαθήσετε να αναστοχαστείτε σε ένα δισδιάστατο γράφημα τη σχετική θέση των αντικειμένων μεταξύ τους στον πολυδιάστατο χώρο. Συνήθως, μια τέτοια μείωση της διάστασης σχετίζεται με απώλεια πληροφοριών. Από διαφορετικά πιθανούς τρόπουςΓια μια τέτοια εμφάνιση, πρέπει να επιλέξετε αυτή στην οποία η απώλεια πληροφοριών θα είναι ελάχιστη.

Ας εξηγήσουμε τι πραγματικά ειπώθηκε απλό παράδειγμα: μετάβαση από τον δισδιάστατο χώρο στον μονοδιάστατο. Ο ελάχιστος αριθμός σημείων που ορίζει έναν δισδιάστατο χώρο (επίπεδο) είναι 3. Στο Σχ. Το 9.1.1 δείχνει τη θέση τριών σημείων στο επίπεδο. Οι συντεταγμένες αυτών των σημείων είναι εύκολο να διαβαστούν από το ίδιο το σχέδιο. Πώς να επιλέξετε μια ευθεία που θα φέρει τις μέγιστες πληροφορίες σχετικά με τις σχετικές θέσεις των σημείων;

Ρύζι. 9.1.1. Τρία σημεία σε ένα επίπεδο που ορίζονται από δύο χαρακτηριστικά. Σε ποια γραμμή θα προβληθεί η μέγιστη διασπορά αυτών των σημείων;

Εξετάστε τις προβολές των σημείων στη γραμμή Α (εμφανίζεται με μπλε). Οι συντεταγμένες των προβολών αυτών των σημείων στη γραμμή Α είναι: 2, 8, 10. Η μέση τιμή είναι 6 2 / 3. Διακύμανση (2-6 2 / 3)+ (8-6 2 / 3)+ (10-6 2 / 3)=34 2 / 3.

Τώρα εξετάστε τη γραμμή Β (εμφανίζεται πράσινος). Συντεταγμένες σημείων - 2, 3, 7; η μέση τιμή είναι 4, η διακύμανση είναι 14. Έτσι, ένα μικρότερο ποσοστό της διακύμανσης αντικατοπτρίζεται στη γραμμή Β από ό,τι στη γραμμή Α.

Τι είναι αυτό το μερίδιο; Δεδομένου ότι οι γραμμές Α και Β είναι ορθογώνιες (κάθετες), τα μερίδια της συνολικής διακύμανσης που προβάλλονται στα Α και Β δεν τέμνονται. Αυτό σημαίνει ότι η συνολική διασπορά της θέσης των σημείων ενδιαφέροντος για εμάς μπορεί να υπολογιστεί ως το άθροισμα αυτών των δύο όρων: 34 2 / 3 +14 = 48 2 / 3. Σε αυτήν την περίπτωση, το 71,2% της συνολικής διακύμανσης προβάλλεται στη γραμμή Α και το 28,8% στη γραμμή Β.

Πώς μπορούμε να προσδιορίσουμε ποια γραμμή θα έχει το μέγιστο μερίδιο διακύμανσης; Αυτή η ευθεία θα αντιστοιχεί στη γραμμή παλινδρόμησης για τα σημεία ενδιαφέροντος, η οποία ορίζεται C (κόκκινο). Το 77,2% της συνολικής διακύμανσης θα αντικατοπτρίζεται σε αυτή τη γραμμή και αυτό είναι το μέγιστο πιθανό νόημαγια μια δεδομένη θέση σημείων. Μια τέτοια ευθεία γραμμή πάνω στην οποία προβάλλεται το μέγιστο μερίδιο της συνολικής διακύμανσης ονομάζεται πρώτο κύριο συστατικό.

Και σε ποια γραμμή πρέπει να αντικατοπτρίζεται το υπόλοιπο 22,8% της συνολικής διακύμανσης; Σε μια ευθεία κάθετη στην πρώτη κύρια συνιστώσα. Αυτή η ευθεία γραμμή θα είναι επίσης η κύρια συνιστώσα, επειδή το μέγιστο δυνατό μερίδιο της διακύμανσης θα αντικατοπτρίζεται σε αυτήν (φυσικά, χωρίς να λαμβάνεται υπόψη αυτό που αντανακλάται στην πρώτη κύρια συνιστώσα). Αυτό λοιπόν είναι - δεύτερο κύριο συστατικό.

Έχοντας υπολογίσει αυτά τα κύρια στοιχεία χρησιμοποιώντας Statistica (θα περιγράψουμε τον διάλογο λίγο αργότερα), έχουμε την εικόνα που φαίνεται στο Σχ. 9.1.2. Οι συντεταγμένες των σημείων στα κύρια στοιχεία εμφανίζονται σε τυπικές αποκλίσεις.


Ρύζι. 9.1.2. Η θέση των τριών σημείων φαίνεται στο Σχ. 9.1.1, στο επίπεδο δύο κύριων συνιστωσών. Γιατί αυτά τα σημεία βρίσκονται μεταξύ τους διαφορετικά από ό,τι στο Σχ. 9.1.1;

Στο Σχ. 9.1.2 η σχετική θέση των σημείων φαίνεται να έχει αλλάξει. Για να ερμηνεύσουμε σωστά τέτοιες εικόνες στο μέλλον, θα πρέπει να ληφθούν υπόψη οι λόγοι για τις διαφορές στη θέση των σημείων στο Σχ. 9.1.1 και 9.1.2 για περισσότερες λεπτομέρειες. Το σημείο 1 και στις δύο περιπτώσεις βρίσκεται στα δεξιά (έχει μεγαλύτερη συντεταγμένη σύμφωνα με το πρώτο πρόσημο και την πρώτη κύρια συνιστώσα) από το σημείο 2. Αλλά, για κάποιο λόγο, το σημείο 3 στην αρχική θέση είναι χαμηλότερο από τα άλλα δύο σημεία ( έχει μικρότερη τιμήχαρακτηριστικό 2), και υψηλότερα από δύο άλλα σημεία στο επίπεδο των κύριων συνιστωσών (έχει μεγαλύτερη συντεταγμένη κατά μήκος της δεύτερης συνιστώσας). Αυτό οφείλεται στο γεγονός ότι η μέθοδος του κύριου στοιχείου βελτιστοποιεί ακριβώς τη διασπορά των αρχικών δεδομένων που προβάλλονται στους άξονες που επιλέγει. Εάν η κύρια συνιστώσα συσχετίζεται με κάποιον αρχικό άξονα, η συνιστώσα και ο άξονας μπορούν να κατευθύνονται προς την ίδια κατεύθυνση (έχουν θετική συσχέτιση) ή προς αντίθετες κατευθύνσεις (έχουν αρνητικές συσχετίσεις). Και οι δύο αυτές επιλογές είναι ισοδύναμες. Ο αλγόριθμος της μεθόδου της κύριας συνιστώσας μπορεί ή δεν μπορεί να «αναστρέφει» οποιοδήποτε επίπεδο. δεν πρέπει να εξαχθούν συμπεράσματα από αυτό.

Ωστόσο, τα σημεία στο Σχ. 9.1.2 δεν είναι απλώς «ανάποδα» σε σύγκριση με τις σχετικές θέσεις τους στο Σχ. 9.1.1; Οι σχετικές θέσεις τους άλλαξαν επίσης κατά κάποιο τρόπο. Οι διαφορές μεταξύ των σημείων στο δεύτερο κύριο στοιχείο φαίνεται να ενισχύονται. Το 22,76% της συνολικής διακύμανσης που αντιστοιχεί στη δεύτερη συνιστώσα «διασκορπίζει» τα σημεία στην ίδια απόσταση με το 77,24% της διακύμανσης που αντιστοιχεί στην πρώτη κύρια συνιστώσα.

Προκειμένου η θέση των σημείων στο επίπεδο των κύριων στοιχείων να αντιστοιχεί στην πραγματική τους θέση, αυτό το επίπεδο θα πρέπει να παραμορφωθεί. Στο Σχ. 9.1.3. φαίνονται δύο ομόκεντροι κύκλοι. Οι ακτίνες τους συσχετίζονται ως μερίδια των αποκλίσεων που αντανακλώνται από την πρώτη και τη δεύτερη κύρια συνιστώσα. Εικόνα που αντιστοιχεί στο Σχ. 9.1.2, παραμορφωμένο έτσι ώστε τυπική απόκλισησύμφωνα με το πρώτο κύριο στοιχείο αντιστοιχούσε σε μεγαλύτερο κύκλο και σύμφωνα με το δεύτερο - σε μικρότερο.


Ρύζι. 9.1.3. Λάβαμε υπόψη ότι η πρώτη κύρια συνιστώσα αντιστοιχεί στο β Ομεγαλύτερο μερίδιο της διακύμανσης από το δεύτερο. Για να γίνει αυτό, παραμορφώσαμε το σχήμα. 9.1.2, προσαρμόζοντάς το σε δύο ομόκεντρους κύκλους, οι ακτίνες των οποίων συσχετίζονται ως οι αναλογίες των αποκλίσεων που αποδίδονται στα κύρια στοιχεία. Αλλά η θέση των σημείων εξακολουθεί να μην αντιστοιχεί στην αρχική που φαίνεται στο Σχ. 9.1.1!

Γιατί είναι η σχετική θέση των σημείων στο Σχ. Το 9.1.3 δεν αντιστοιχεί σε αυτό στο Σχ. 9.1.1; Στο αρχικό σχήμα, το Σχ. 9.1, τα σημεία βρίσκονται σύμφωνα με τις συντεταγμένες τους και όχι σύμφωνα με τα μερίδια διακύμανσης που αποδίδονται σε κάθε άξονα. Μια απόσταση 1 μονάδας σύμφωνα με το πρώτο πρόσημο (κατά μήκος του άξονα x) στο Σχ. 9.1.1 υπάρχει μικρότερη αναλογία της διασποράς των σημείων κατά μήκος αυτού του άξονα από την απόσταση 1 μονάδας σύμφωνα με το δεύτερο χαρακτηριστικό (κατά μήκος της τεταγμένης). Και στο Σχ. 9.1.1, οι αποστάσεις μεταξύ των σημείων καθορίζονται ακριβώς από τις μονάδες στις οποίες μετρώνται τα χαρακτηριστικά με τα οποία περιγράφονται.

Ας περιπλέκουμε λίγο το έργο. Στον πίνακα Το σχήμα 9.1.1 δείχνει τις συντεταγμένες 10 σημείων σε 10-διάστατο χώρο. Τα πρώτα τρία σημεία και οι δύο πρώτες διαστάσεις είναι το παράδειγμα που μόλις εξετάσαμε.

Πίνακας 9.1.1. Συντεταγμένες σημείων για περαιτέρω ανάλυση

Συντεταγμένες

Για εκπαιδευτικούς σκοπούς, θα εξετάσουμε πρώτα μόνο μέρος των δεδομένων από τον πίνακα. 9.1.1. Στο Σχ. 9.1.4 βλέπουμε τη θέση των δέκα σημείων στο επίπεδο των δύο πρώτων ζωδίων. Λάβετε υπόψη ότι το πρώτο κύριο στοιχείο (γραμμή Γ) πήγε λίγο διαφορετικά από ό,τι στην προηγούμενη περίπτωση. Δεν είναι περίεργο: η θέση του επηρεάζεται από όλα τα σημεία που εξετάζονται.


Ρύζι. 9.1.4. Αυξήσαμε τους βαθμούς. Το πρώτο βασικό στοιχείο πηγαίνει λίγο διαφορετικά, επειδή επηρεάστηκε από τα πρόσθετα σημεία

Στο Σχ. Το σχήμα 9.1.5 δείχνει τη θέση των 10 σημείων που εξετάσαμε στο επίπεδο των δύο πρώτων συνιστωσών. Παρατηρήστε ότι όλα έχουν αλλάξει, όχι μόνο η αναλογία διακύμανσης που αντιστοιχεί σε κάθε κύρια συνιστώσα, αλλά ακόμη και η θέση των πρώτων τριών σημείων!


Ρύζι. 9.1.5. Ταξινόμηση στο επίπεδο των πρώτων κύριων συνιστωσών των 10 σημείων που περιγράφονται στον Πίνακα. 9.1.1. Λήφθηκαν μόνο οι τιμές των δύο πρώτων χαρακτηριστικών, οι τελευταίες 8 στήλες του πίνακα. 9.1.1 δεν χρησιμοποιήθηκαν

Σε γενικές γραμμές, αυτό είναι φυσικό: δεδομένου ότι τα κύρια εξαρτήματα βρίσκονται διαφορετικά, οι σχετικές θέσεις των σημείων έχουν επίσης αλλάξει.

Οι δυσκολίες στη σύγκριση της θέσης των σημείων στο επίπεδο της κύριας συνιστώσας και στο αρχικό επίπεδο των τιμών χαρακτηριστικών τους μπορεί να προκαλέσουν σύγχυση: γιατί να χρησιμοποιήσετε μια τόσο δύσκολη στην ερμηνεία μέθοδο; Η απάντηση είναι απλή. Στην περίπτωση που τα αντικείμενα που συγκρίνονται περιγράφονται από δύο μόνο χαρακτηριστικά, είναι πολύ πιθανό να χρησιμοποιηθεί η χειροτονία τους σύμφωνα με αυτά τα αρχικά χαρακτηριστικά. Όλα τα πλεονεκτήματα της μεθόδου του κύριου στοιχείου εμφανίζονται στην περίπτωση πολυδιάστατων δεδομένων. Σε αυτήν την περίπτωση, η μέθοδος του κύριου συστατικού αποδεικνύεται ότι είναι αποτελεσματικός τρόποςμείωση των διαστάσεων των δεδομένων.

9.2. Μετάβαση στα αρχικά δεδομένα με περισσότερες διαστάσεις

Ας εξετάσουμε μια πιο περίπλοκη περίπτωση: ας αναλύσουμε τα δεδομένα που παρουσιάζονται στον πίνακα. 9.1.1 και για τα δέκα χαρακτηριστικά. Στο Σχ. Το σχήμα 9.2.1 δείχνει πώς ονομάζεται το παράθυρο της μεθόδου που μας ενδιαφέρει.


Ρύζι. 9.2.1. Εκτέλεση της μεθόδου του κύριου στοιχείου

Θα μας ενδιαφέρει μόνο η επιλογή των χαρακτηριστικών για ανάλυση, αν και ο διάλογος Statistica επιτρέπει πολύ μεγαλύτερη λεπτομέρεια (Εικ. 9.2.2).


Ρύζι. 9.2.2. Επιλογή μεταβλητών για ανάλυση

Μετά την εκτέλεση της ανάλυσης, εμφανίζεται ένα παράθυρο με τα αποτελέσματά της με πολλές καρτέλες (Εικ. 9.2.3). Όλα τα κύρια παράθυρα είναι προσβάσιμα από την πρώτη καρτέλα.


Ρύζι. 9.2.3. Πρώτη καρτέλα του διαλόγου αποτελεσμάτων ανάλυσης κύριου στοιχείου

Μπορείτε να δείτε ότι η ανάλυση εντόπισε 9 κύρια συστατικά και τα χρησιμοποίησε για να περιγράψει το 100% της διακύμανσης που αντικατοπτρίζεται στα 10 αρχικά χαρακτηριστικά. Αυτό σημαίνει ότι ένα σημάδι ήταν περιττό, περιττό.

Ας ξεκινήσουμε την προβολή των αποτελεσμάτων με το κουμπί «Vordinates παράγοντας περίπτωσης γραφικής παράστασης, 2D»: θα εμφανίσει τη θέση των σημείων στο επίπεδο που ορίζονται από τα δύο κύρια στοιχεία. Κάνοντας κλικ σε αυτό το κουμπί, θα μεταφερθούμε σε ένα παράθυρο διαλόγου όπου θα πρέπει να υποδείξουμε ποια στοιχεία θα χρησιμοποιήσουμε. Είναι φυσικό να ξεκινήσει η ανάλυση με το πρώτο και το δεύτερο στοιχείο. Το αποτέλεσμα φαίνεται στο Σχ. 9.2.4.


Ρύζι. 9.2.4. Ταξινόμηση των υπό εξέταση αντικειμένων στο επίπεδο των δύο πρώτων κύριων συνιστωσών

Η θέση των σημείων έχει αλλάξει, και αυτό είναι φυσικό: νέα χαρακτηριστικά εμπλέκονται στην ανάλυση. Στο Σχ. Το 9.2.4 αντικατοπτρίζει περισσότερο από το 65% της συνολικής ποικιλομορφίας στη θέση των σημείων μεταξύ τους, και αυτό είναι ήδη ένα μη τετριμμένο αποτέλεσμα. Για παράδειγμα, επιστροφή στο τραπέζι. 9.1.1, μπορείτε να επαληθεύσετε ότι τα σημεία 4 και 7, καθώς και 8 και 10, είναι πράγματι αρκετά κοντά το ένα στο άλλο. Ωστόσο, οι διαφορές μεταξύ τους μπορεί να αφορούν άλλα κύρια στοιχεία που δεν φαίνονται στο σχήμα: τελικά αντιπροσωπεύουν επίσης το ένα τρίτο της εναπομένουσας μεταβλητότητας.

Παρεμπιπτόντως, κατά την ανάλυση της τοποθέτησης σημείων στο επίπεδο των κύριων στοιχείων, μπορεί να είναι απαραίτητο να αναλυθούν οι αποστάσεις μεταξύ τους. Ο ευκολότερος τρόπος για να αποκτήσετε έναν πίνακα αποστάσεων μεταξύ σημείων είναι να χρησιμοποιήσετε μια ενότητα για ανάλυση συστάδων.

Πώς συνδέονται τα καθορισμένα κύρια συστατικά με τα αρχικά χαρακτηριστικά; Αυτό μπορείτε να το διαπιστώσετε κάνοντας κλικ στο κουμπί (Εικ. 9.2.3) Plot var. συντεταγμένες παραγόντων, 2D. Το αποτέλεσμα φαίνεται στο Σχ. 9.2.5.


Ρύζι. 9.2.5. Προβολές των αρχικών χαρακτηριστικών στο επίπεδο των δύο πρώτων κύριων στοιχείων

Βλέπουμε το επίπεδο των δύο κύριων συστατικών «από πάνω». Τα αρχικά χαρακτηριστικά, τα οποία σε καμία περίπτωση δεν σχετίζονται με τα κύρια στοιχεία, θα είναι κάθετα (ή σχεδόν κάθετα) σε αυτά και θα αντικατοπτρίζονται σε μικρά τμήματα που τελειώνουν κοντά στην αρχή των συντεταγμένων. Έτσι, το χαρακτηριστικό Νο. 6 συνδέεται λιγότερο με τα δύο πρώτα κύρια συστατικά (αν και δείχνει μια ορισμένη θετική συσχέτιση με το πρώτο συστατικό). Τα τμήματα που αντιστοιχούν σε εκείνα τα χαρακτηριστικά που αντανακλώνται πλήρως στο επίπεδο των κύριων στοιχείων θα τελειώνουν σε έναν κύκλο μοναδιαίας ακτίνας που περικλείει το κέντρο της εικόνας.

Για παράδειγμα, μπορείτε να δείτε ότι το πρώτο κύριο στοιχείο επηρεάστηκε ισχυρότερα από τα χαρακτηριστικά 10 (θετικά συσχετισμένα), καθώς και από τα 7 και 8 (αρνητικά συσχετισμένα). Για να εξετάσετε τη δομή τέτοιων συσχετίσεων με περισσότερες λεπτομέρειες, μπορείτε να κάνετε κλικ στο κουμπί Συντεταγμένες συντελεστών μεταβλητών και να λάβετε τον πίνακα που φαίνεται στο Σχήμα. 9.2.6.


Ρύζι. 9.2.6. Συσχετισμοί μεταξύ των αρχικών χαρακτηριστικών και των προσδιοριζόμενων κύριων συνιστωσών (Παράγοντες)

Το κουμπί Eigenvalues ​​εμφανίζει τις τιμές που καλούνται ιδιοτιμές των κύριων συστατικών. Στο επάνω μέρος του παραθύρου που φαίνεται στο Σχ. 9.2.3, εμφανίζονται οι ακόλουθες τιμές για τα πρώτα στοιχεία. Το κουμπί Scree plot τα εμφανίζει σε μια ευανάγνωστη μορφή (Εικ. 9.2.7).


Ρύζι. 9.2.7. Ιδιοτιμές των προσδιοριζόμενων κύριων συνιστωσών και το μερίδιο της συνολικής διακύμανσης που αντικατοπτρίζεται από αυτά

Πρώτα πρέπει να καταλάβετε τι ακριβώς δείχνει η ιδιοτιμή. Αυτό είναι ένα μέτρο της διακύμανσης που αντικατοπτρίζεται στην κύρια συνιστώσα, που μετράται στο ποσό της διακύμανσης που υπολογίζεται από κάθε χαρακτηριστικό στα αρχικά δεδομένα. Εάν η ιδιοτιμή του πρώτου κύριου στοιχείου είναι 3,4, αυτό σημαίνει ότι αντιπροσωπεύει μεγαλύτερη διακύμανση από τα τρία χαρακτηριστικά στο αρχικό σύνολο. Οι ιδιοτιμές σχετίζονται γραμμικά με το μερίδιο διακύμανσης που αποδίδεται στην κύρια συνιστώσα· το μόνο πράγμα είναι ότι το άθροισμα των ιδιοτιμών είναι ίσο με τον αριθμό των αρχικών χαρακτηριστικών και το άθροισμα των μεριδίων διακύμανσης είναι ίσο με 100% .

Τι σημαίνει ότι οι πληροφορίες σχετικά με τη μεταβλητότητα για 10 χαρακτηριστικά αντικατοπτρίστηκαν σε 9 κύρια στοιχεία; Το γεγονός ότι ένα από τα αρχικά χαρακτηριστικά ήταν περιττό δεν πρόσθεσε νέες πληροφορίες. Και έτσι ήταν? στο Σχ. Το 9.2.8 δείχνει πώς δημιουργήθηκε το σύνολο των σημείων που απεικονίζονται στον πίνακα. 9.1.1.

Μέθοδος κύριου συστατικού(PCA - Principal component analysis) είναι ένας από τους κύριους τρόπους μείωσης της διάστασης των δεδομένων με ελάχιστη απώλεια πληροφοριών. Εφευρέθηκε το 1901 από τον Karl Pearson και χρησιμοποιείται ευρέως σε πολλούς τομείς. Για παράδειγμα, για συμπίεση δεδομένων, «όραση υπολογιστή», αναγνώριση ορατής εικόνας κ.λπ. Ο υπολογισμός των κύριων συνιστωσών καταλήγει στον υπολογισμό των ιδιοδιανυσμάτων και των ιδιοτιμών του πίνακα συνδιακύμανσης των αρχικών δεδομένων. Η μέθοδος του κύριου συστατικού ονομάζεται συχνά Μεταμόρφωση Karhunen-Löwe(μετασχηματισμός Karhunen-Loeve) ή Ξενοδοχειακός μετασχηματισμός(ξενοδοχειακή μεταμόρφωση). Σε αυτό το θέμα εργάστηκαν επίσης οι μαθηματικοί Kosambi (1943), Pugachev (1953) και Obukhova (1954).

Το έργο της ανάλυσης κύριου συστατικού στοχεύει στην προσέγγιση (προσέγγιση) των δεδομένων με γραμμικές πολλαπλότητες χαμηλότερης διάστασης. βρείτε υποχώρους χαμηλότερης διάστασης, στην ορθογώνια προβολή στην οποία η εξάπλωση των δεδομένων (δηλαδή η τυπική απόκλιση από τη μέση τιμή) είναι μέγιστη. βρείτε υποχώρους χαμηλότερης διάστασης, στην ορθογώνια προβολή στην οποία η απόσταση ρίζας-μέσος τετραγώνου μεταξύ των σημείων είναι μέγιστη. Σε αυτή την περίπτωση, λειτουργούν με πεπερασμένα σύνολα δεδομένων. Είναι ισοδύναμα και δεν χρησιμοποιούν καμία υπόθεση σχετικά με τη στατιστική παραγωγή των δεδομένων.

Επιπλέον, το καθήκον της ανάλυσης των κύριων συνιστωσών μπορεί να είναι να κατασκευάσει για μια δεδομένη πολυδιάστατη τυχαία μεταβλητή έναν τέτοιο ορθογώνιο μετασχηματισμό συντεταγμένων που, ως αποτέλεσμα, οι συσχετίσεις μεταξύ των επιμέρους συντεταγμένων θα γίνουν μηδέν. Αυτή η έκδοση λειτουργεί τυχαίες μεταβλητές.

Εικ.3

Το παραπάνω σχήμα δείχνει τα σημεία P i στο επίπεδο, p i είναι η απόσταση από το P i στην ευθεία AB. Αναζητούμε μια ευθεία γραμμή ΑΒ που ελαχιστοποιεί το άθροισμα

Η μέθοδος της κύριας συνιστώσας ξεκίνησε με το πρόβλημα της καλύτερης προσέγγισης (προσέγγισης) ενός πεπερασμένου συνόλου σημείων με ευθείες γραμμές και επίπεδα. Για παράδειγμα, δίνεται ένα πεπερασμένο σύνολο διανυσμάτων. Για κάθε k = 0,1,...,n; 1 ανάμεσα σε όλες τις k-διάστατες γραμμικές πολλαπλότητες που βρίσκονται έτσι ώστε το άθροισμα των τετραγωνικών αποκλίσεων x i από το L k να είναι ελάχιστο:

Οπου? Ευκλείδεια απόσταση από ένα σημείο σε μια γραμμική πολλαπλότητα.

Οποιαδήποτε γραμμική πολλαπλότητα διαστάσεων k μπορεί να οριστεί ως ένα σύνολο γραμμικών συνδυασμών, όπου οι παράμετροι στο i τρέχουν κατά μήκος της πραγματικής γραμμής, ε; ορθοκανονικό σύνολο διανυσμάτων

που είναι ο Ευκλείδειος κανόνας; Ευκλείδειο γινόμενο κουκκίδας ή σε μορφή συντεταγμένων:

Λύση του προβλήματος της προσέγγισης για k = 0,1,...,n; Το 1 δίνεται από ένα σύνολο ένθετων γραμμικών πολλαπλών

Αυτές οι γραμμικές πολλαπλότητες ορίζονται από ένα ορθοκανονικό σύνολο διανυσμάτων (διανύσματα κύριας συνιστώσας) και ένα διάνυσμα a 0 . Το διάνυσμα a 0 αναζητείται ως λύση στο πρόβλημα ελαχιστοποίησης για το L 0:

Το αποτέλεσμα είναι ένας μέσος όρος δείγματος:

Γάλλος μαθηματικός Maurice Fréchet Fréchet Maurice René (09/02/1878 - 06/04/1973) - ένας εξαιρετικός Γάλλος μαθηματικός. Εργάστηκε στον τομέα της τοπολογίας και της συναρτησιακής ανάλυσης, της θεωρίας πιθανοτήτων. Συγγραφέας σύγχρονες έννοιεςσχετικά με το μετρικό χώρο, τη συμπαγή και την πληρότητα. Αυτο. το 1948, παρατήρησε ότι ο μεταβλητός ορισμός του μέσου όρου, ως το σημείο που ελαχιστοποιεί το άθροισμα των τετραγωνικών αποστάσεων στα σημεία δεδομένων, είναι πολύ βολικό για την κατασκευή στατιστικών σε έναν αυθαίρετο μετρικό χώρο, και δημιούργησε μια γενίκευση της κλασικής στατιστικής για γενικούς χώρους , που ονομάζεται μέθοδος γενικευμένων ελαχίστων τετραγώνων.

Τα διανύσματα των κύριων συστατικών μπορούν να βρεθούν ως λύσεις σε παρόμοια προβλήματα βελτιστοποίησης:

1) συγκεντρώστε τα δεδομένα (αφαιρέστε τον μέσο όρο):

2) βρείτε το πρώτο κύριο συστατικό ως λύση στο πρόβλημα.

3) Αφαιρέστε την προβολή στο πρώτο κύριο στοιχείο από τα δεδομένα:

4) βρείτε το δεύτερο κύριο στοιχείο ως λύση στο πρόβλημα

Εάν η λύση δεν είναι μοναδική, τότε επιλέξτε μία από αυτές.

2k-1) Αφαιρέστε την προβολή στο (k ? 1)ο κύριο στοιχείο (υπενθυμίζουμε ότι οι προβολές στα προηγούμενα (k ? 2) κύρια συστατικά έχουν ήδη αφαιρεθεί):

2κ) βρείτε το kth κύριο στοιχείο ως λύση στο πρόβλημα:

Εάν η λύση δεν είναι μοναδική, τότε επιλέξτε μία από αυτές.

Ρύζι. 4

Το πρώτο κύριο συστατικό μεγιστοποιεί τη δειγματική διακύμανση της προβολής δεδομένων.

Για παράδειγμα, ας μας δοθεί ένα κεντραρισμένο σύνολο διανυσμάτων δεδομένων όπου ο αριθμητικός μέσος όρος x i είναι μηδέν. Εργο? βρείτε έναν ορθογώνιο μετασχηματισμό σε ένα νέο σύστημα συντεταγμένων για το οποίο θα ισχύουν οι ακόλουθες συνθήκες:

1. Η δειγματική διακύμανση των δεδομένων κατά μήκος της πρώτης συντεταγμένης (κύρια συνιστώσα) είναι μέγιστη.

2. Η δειγματοληπτική διασπορά των δεδομένων κατά μήκος της δεύτερης συντεταγμένης (δεύτερη κύρια συνιστώσα) είναι μέγιστη υπό την προϋπόθεση της ορθογωνικότητας προς την πρώτη συντεταγμένη.

3. Η δειγματοληπτική διασπορά των δεδομένων κατά μήκος των τιμών της k-ης συντεταγμένης είναι μέγιστη υπό την προϋπόθεση της ορθογωνικότητας στο πρώτο k? 1 συντεταγμένες;

Η διακύμανση του δείγματος των δεδομένων κατά μήκος της κατεύθυνσης που καθορίζεται από το κανονικοποιημένο διάνυσμα a k είναι

(εφόσον τα δεδομένα είναι κεντραρισμένα, η διακύμανση του δείγματος εδώ είναι ίδια με το μέσο τετράγωνο της απόκλισης από το μηδέν).

Η επίλυση του προβλήματος της καλύτερης προσαρμογής δίνει το ίδιο σύνολο κύριων συνιστωσών με την εύρεση των ορθογώνιων προεξοχών με τη μεγαλύτερη σκέδαση, για έναν πολύ απλό λόγο:

και ο πρώτος όρος δεν εξαρτάται από ένα κ.

Ο πίνακας μετασχηματισμού δεδομένων στα κύρια στοιχεία κατασκευάζεται από τα διανύσματα "A" των κύριων συνιστωσών:

Εδώ τα a i είναι ορθοκανονικά διανύσματα στηλών των κύριων συνιστωσών, διατεταγμένα σε φθίνουσα σειρά ιδιοτιμών, ο εκθέτης T σημαίνει μεταθέτω. Ο πίνακας Α είναι ορθογώνιος: AA T = 1.

Μετά τον μετασχηματισμό, το μεγαλύτερο μέρος της παραλλαγής δεδομένων θα συγκεντρωθεί στις πρώτες συντεταγμένες, γεγονός που καθιστά δυνατή την απόρριψη των υπόλοιπων και την εξέταση ενός χώρου μειωμένων διαστάσεων.

Η παλαιότερη μέθοδος για την επιλογή των κύριων εξαρτημάτων είναι Κανόνας Κάιζερ, Kaiser Johann Henrich Gustav (16/03/1853, Μπρέζνο, Πρωσία - 14/10/1940, Γερμανία) - ένας εξαιρετικός Γερμανός μαθηματικός, φυσικός, ερευνητής στον τομέα της φασματικής ανάλυσης. Αυτο. σύμφωνα με την οποία εκείνα τα κύρια συστατικά για τα οποία είναι σημαντικά

Δηλαδή, το l i υπερβαίνει τη μέση τιμή l (η μέση διακύμανση του δείγματος των συντεταγμένων του διανύσματος δεδομένων). Ο κανόνας Kaiser λειτουργεί καλά απλές περιπτώσεις, όταν υπάρχουν πολλά κύρια στοιχεία με l i πολύ μεγαλύτερη από τη μέση τιμή και οι υπόλοιπες ιδιοτιμές είναι μικρότερες από αυτήν. Σε πιο περίπλοκες περιπτώσεις, μπορεί να παράγει πάρα πολλά σημαντικά κύρια συστατικά. Εάν τα δεδομένα κανονικοποιηθούν στη διακύμανση του δείγματος μονάδας κατά μήκος των αξόνων, τότε ο κανόνας του Kaiser παίρνει μια ιδιαίτερα απλή μορφή: μόνο εκείνα τα κύρια συστατικά για τα οποία το l i > 1 είναι σημαντικά.

Μία από τις πιο δημοφιλείς ευρετικές προσεγγίσεις για την εκτίμηση του αριθμού των απαιτούμενων κύριων στοιχείων είναι σπασμένος κανόνας μπαστούνι, όταν το σύνολο έχει κανονικοποιηθεί σε ένα μοναδιαίο άθροισμα ιδιοτιμές(, i = 1,...n) συγκρίνεται με την κατανομή των μηκών των θραυσμάτων ενός ζαχαροκάλαμου μοναδιαίου μήκους σπασμένο στο n ? 1ο τυχαία επιλεγμένο σημείο (τα σημεία θραύσης επιλέγονται ανεξάρτητα και κατανέμονται ισομερώς σε όλο το μήκος του μπαστούνι). Αν L i (i = 1,...n) είναι τα μήκη των κομματιών ζαχαροκάλαμου που προκύπτουν, αριθμημένα με φθίνουσα σειρά μήκους: , τότε η μαθηματική προσδοκία του L i:

Ας δούμε ένα παράδειγμα που περιλαμβάνει την εκτίμηση του αριθμού των κύριων εξαρτημάτων χρησιμοποιώντας τον κανόνα σπασμένο μπαστούνι στη διάσταση 5.

Ρύζι. 5.

Σύμφωνα με τον κανόνα k-th σπασμένο καλάμι ιδιοδιάνυσμα(με φθίνουσα σειρά ιδιοτιμών l i) αποθηκεύεται στη λίστα των κύριων στοιχείων εάν

Το παραπάνω σχήμα δείχνει ένα παράδειγμα για την περίπτωση των 5 διαστάσεων:

l 1 =(1+1/2+1/3+1/4+1/5)/5; l 2 =(1/2+1/3+1/4+1/5)/5; l 3 =(1/3+1/4+1/5)/5;

l 4 =(1/4+1/5)/5; l 5 =(1/5)/5.

Για παράδειγμα, επιλεγμένο

0.5; =0.3; =0.1; =0.06; =0.04.

Σύμφωνα με τον κανόνα του σπασμένου ζαχαροκάλαμου, σε αυτό το παράδειγμα πρέπει να αφήσετε 2 κύρια στοιχεία:

Ένα πράγμα που πρέπει να έχετε κατά νου είναι ότι ο σπασμένος κανόνας του ζαχαροκάλαμου τείνει να υποτιμά τον αριθμό των σημαντικών κύριων συστατικών.

Μετά την προβολή στα πρώτα k κύρια στοιχεία c, είναι βολικό να ομαλοποιηθεί η διακύμανση μονάδας (δείγματος) κατά μήκος των αξόνων. Η διασπορά κατά μήκος της ith κύριας συνιστώσας είναι ίση με), επομένως για κανονικοποίηση είναι απαραίτητο να διαιρεθεί η αντίστοιχη συντεταγμένη με. Αυτός ο μετασχηματισμός δεν είναι ορθογώνιος και δεν διατηρεί το γινόμενο κουκίδων. Ο πίνακας συνδιακύμανσης της προβολής δεδομένων μετά την κανονικοποίηση γίνεται μονάδα, οι προβολές σε οποιεσδήποτε δύο ορθογώνιες κατευθύνσεις γίνονται ανεξάρτητες ποσότητες και οποιαδήποτε ορθοκανονική βάση γίνεται η βάση των κύριων συνιστωσών (θυμηθείτε ότι η κανονικοποίηση αλλάζει τη σχέση ορθογωνικότητας των διανυσμάτων). Η αντιστοίχιση από τον χώρο δεδομένων πηγής στα πρώτα k κύρια στοιχεία, μαζί με την κανονικοποίηση, δίνεται από τον πίνακα

Είναι αυτός ο μετασχηματισμός που ονομάζεται πιο συχνά μετασχηματισμός Karhunen-Loeve, δηλαδή η ίδια η μέθοδος του κύριου συστατικού. Εδώ το i είναι διανύσματα στηλών και ο εκθέτης T σημαίνει μεταθέτω.

Στις στατιστικές, όταν χρησιμοποιείται η μέθοδος του κύριου συστατικού, χρησιμοποιούνται αρκετοί ειδικοί όροι.

Πίνακας Δεδομένων, όπου κάθε γραμμή είναι ένα διάνυσμα προεπεξεργασμένων δεδομένων (κεντρικά και σωστά κανονικοποιημένα), ο αριθμός των σειρών είναι m (ο αριθμός των διανυσμάτων δεδομένων), ο αριθμός των στηλών είναι n (η διάσταση του χώρου δεδομένων).

Φόρτωση πίνακα(Φορτώσεις), όπου κάθε στήλη είναι ένα διάνυσμα κύριας συνιστώσας, ο αριθμός των σειρών είναι n (η διάσταση του χώρου δεδομένων), ο αριθμός στηλών είναι k (ο αριθμός των διανυσμάτων κύριας συνιστώσας που επιλέχθηκαν για προβολή).

Πίνακας λογαριασμού(Βαθμολογίες)

όπου κάθε γραμμή είναι η προβολή του διανύσματος δεδομένων σε k κύρια στοιχεία. αριθμός σειρών - m (αριθμός διανυσμάτων δεδομένων), αριθμός στηλών - k (αριθμός διανυσμάτων κύριας συνιστώσας που επιλέχθηκαν για προβολή).

Πίνακας βαθμολογίας Z(Ζ-βαθμολογίες)

όπου κάθε σειρά είναι μια προβολή του διανύσματος δεδομένων σε k κύριες συνιστώσες, κανονικοποιημένη στη διακύμανση του δείγματος μονάδας. αριθμός σειρών - m (αριθμός διανυσμάτων δεδομένων), αριθμός στηλών - k (αριθμός διανυσμάτων κύριας συνιστώσας που επιλέχθηκαν για προβολή).

Πίνακας σφαλμάτων (αποφάγια) (Σφάλματα ή υπολείμματα)

Βασικός τύπος:

Έτσι, η Μέθοδος Κύριων Συνιστωσών είναι μία από τις κύριες μεθόδους μαθηματικής στατιστικής. Ο κύριος σκοπός του είναι να διακρίνει την ανάγκη μελέτης συνόλων δεδομένων με ελάχιστη χρήση τους.

Το σημείο εκκίνησης για την ανάλυση είναι ο πίνακας δεδομένων

διαστάσεις
, η i-η σειρά του οποίου χαρακτηρίζει την i-η παρατήρηση (αντικείμενο) για όλους τους k δείκτες
. Τα δεδομένα πηγής κανονικοποιούνται, για τα οποία υπολογίζονται οι μέσες τιμές των δεικτών
, καθώς και τιμές τυπικής απόκλισης
. Στη συνέχεια ο πίνακας των κανονικοποιημένων τιμών

με στοιχεία

Ο πίνακας των συντελεστών συσχέτισης ζεύγους υπολογίζεται:

Τα στοιχεία της μονάδας βρίσκονται στην κύρια διαγώνιο του πίνακα
.

Το μοντέλο ανάλυσης συστατικών κατασκευάζεται αντιπροσωπεύοντας τα αρχικά κανονικοποιημένα δεδομένα ως γραμμικό συνδυασμό κύριων συνιστωσών:

Οπου - «βάρος», δηλ. συντελεστής φόρτισης το κύριο συστατικό επάνω -η μεταβλητή;

-έννοια ου κύριο συστατικό για -παρατήρηση (αντικείμενο), όπου
.

Σε μορφή μήτρας, το μοντέλο έχει τη μορφή

Εδώ
- μήτρα των κύριων συνιστωσών της διάστασης
,

- πίνακας παραγοντικών φορτίων ίδιας διάστασης.

Μήτρα
περιγράφει παρατηρήσεις στο διάστημα κύρια εξαρτήματα. Σε αυτή την περίπτωση, τα στοιχεία του πίνακα
κανονικοποιούνται και τα κύρια στοιχεία δεν συσχετίζονται μεταξύ τους. Από αυτό προκύπτει ότι
, Οπου – μοναδιαία μήτρα διάστασης
.

Στοιχείο μήτρες χαρακτηρίζει την εγγύτητα της γραμμικής σχέσης μεταξύ της αρχικής μεταβλητής και το κύριο συστατικό , επομένως, παίρνει τις τιμές
.

Πίνακας συσχέτισης μπορεί να εκφραστεί μέσω ενός πίνακα φορτίων παραγόντων .

Οι μονάδες βρίσκονται κατά μήκος της κύριας διαγώνιου του πίνακα συσχέτισης και, κατ' αναλογία με τον πίνακα συνδιακύμανσης, αντιπροσωπεύουν τις διακυμάνσεις των χρησιμοποιούμενων -χαρακτηριστικά, αλλά σε αντίθεση με το τελευταίο, λόγω κανονικοποίησης, αυτές οι διακυμάνσεις είναι ίσες με 1. Η συνολική διακύμανση ολόκληρου του συστήματος - Χαρακτηριστικά στον όγκο του δείγματος
ίσο με το άθροισμα αυτών των μονάδων, δηλ. ίσο με το ίχνος του πίνακα συσχέτισης
.

Ο πίνακας συσχέτισης μπορεί να μετατραπεί σε διαγώνιο πίνακα, δηλαδή σε έναν πίνακα του οποίου όλες οι τιμές, εκτός από τις διαγώνιες, είναι ίσες με μηδέν:

,

Οπου
- ένας διαγώνιος πίνακας στην κύρια διαγώνιο του οποίου υπάρχουν ιδιοτιμές πίνακας συσχέτισης, - ένας πίνακας του οποίου οι στήλες είναι ιδιοδιανύσματα του πίνακα συσχέτισης . Εφόσον ο πίνακας R είναι θετικός ορισμένος, δηλ. Οι κορυφαίες δευτερεύουσες τιμές του είναι θετικές, τότε όλες οι ιδιοτιμές
για κάθε
.

Ιδιοτιμές βρίσκονται ως ρίζες της χαρακτηριστικής εξίσωσης

Ιδιοδιάνυσμα , που αντιστοιχεί στην ιδιοτιμή μήτρα συσχέτισης , ορίζεται ως μη μηδενική λύση της εξίσωσης

Κανονικοποιημένο ιδιοδιάνυσμα ισοδυναμεί

Η εξαφάνιση των μη διαγώνιων όρων σημαίνει ότι τα χαρακτηριστικά γίνονται ανεξάρτητα το ένα από το άλλο (
στο
).

Συνολική διακύμανση ολόκληρου του συστήματος Οι μεταβλητές στον πληθυσμό του δείγματος παραμένουν οι ίδιες. Ωστόσο, οι αξίες του αναδιανέμονται. Η διαδικασία για την εύρεση των τιμών αυτών των διακυμάνσεων είναι η εύρεση των ιδιοτιμών πίνακα συσχέτισης για καθένα από αυτά - σημάδια. Το άθροισμα αυτών των ιδιοτιμών
είναι ίσο με το ίχνος του πίνακα συσχέτισης, δηλ.
, δηλαδή τον αριθμό των μεταβλητών. Αυτές οι ιδιοτιμές είναι οι τιμές διακύμανσης των χαρακτηριστικών
σε συνθήκες αν τα ζώδια ήταν ανεξάρτητα μεταξύ τους.

Στη μέθοδο του κύριου συστατικού, ένας πίνακας συσχέτισης υπολογίζεται πρώτα από τα αρχικά δεδομένα. Στη συνέχεια μετασχηματίζεται ορθογώνια και μέσω αυτού εντοπίζονται οι παραγοντικές φορτίσεις για όλα μεταβλητές και
παράγοντες (πίνακας φορτίων παραγόντων), ιδιοτιμές και να προσδιορίσετε τα βάρη των παραγόντων.

Ο πίνακας φόρτισης συντελεστών Α μπορεί να οριστεί ως
, ΕΝΑ η στήλη του πίνακα Α - πώς
.

Βάρος παραγόντων
ή
αντανακλά το μερίδιο της συνολικής διακύμανσης που συνεισφέρει αυτός ο παράγοντας.

Τα φορτία παραγόντων ποικίλλουν από –1 έως +1 και είναι ανάλογα με τους συντελεστές συσχέτισης. Στον πίνακα φόρτισης παραγόντων, είναι απαραίτητο να εντοπιστούν σημαντικές και ασήμαντες φορτίσεις χρησιμοποιώντας το Student's t test
.

Άθροισμα τετραγωνικών φορτίων -ο παράγοντας σε όλα -τα χαρακτηριστικά ισούται με την ιδιοτιμή ενός δεδομένου παράγοντα
. Επειτα
-συμβολή της i-ης μεταβλητής σε % στον σχηματισμό του j-ου παράγοντα.

Το άθροισμα των τετραγώνων όλων των φορτίων παραγόντων για μια σειρά είναι ίσο με ένα, η συνολική διακύμανση μιας μεταβλητής και όλων των παραγόντων για όλες τις μεταβλητές είναι ίσο με τη συνολική διακύμανση (δηλ. το ίχνος ή η σειρά του πίνακα συσχέτισης, ή το άθροισμα των ιδιοτιμών του)
.

Γενικά, η δομή των παραγόντων του χαρακτηριστικού i-th παρουσιάζεται στη μορφή
, το οποίο περιλαμβάνει μόνο σημαντικά φορτία. Χρησιμοποιώντας τον πίνακα φορτίων παραγόντων, μπορείτε να υπολογίσετε τις τιμές όλων των παραγόντων για κάθε παρατήρηση του αρχικού πληθυσμού δείγματος χρησιμοποιώντας τον τύπο:

,

Οπου – τιμή του j-ου παράγοντα για την t-η παρατήρηση, -τυποποιημένη τιμή του i-ου χαρακτηριστικού της t-ης παρατήρησης του αρχικού δείγματος. – συντελεστικό φορτίο, – ιδιοτιμή που αντιστοιχεί στον παράγοντα j. Αυτές οι υπολογισμένες τιμές χρησιμοποιούνται ευρέως για την γραφική αναπαράσταση των αποτελεσμάτων της παραγοντικής ανάλυσης.

Χρησιμοποιώντας τον πίνακα των φορτίων παραγόντων, ο πίνακας συσχέτισης μπορεί να ανακατασκευαστεί:
.

Το τμήμα της διακύμανσης μιας μεταβλητής που εξηγείται από τα κύρια συστατικά ονομάζεται κοινότητα

,

Οπου - μεταβλητός αριθμός και - αριθμός του κύριου στοιχείου. Οι συντελεστές συσχέτισης που αποκαθίστανται μόνο από τα κύρια στοιχεία θα είναι μικρότεροι από τους αρχικούς σε απόλυτη τιμή και στη διαγώνιο δεν θα είναι 1, αλλά οι τιμές των γενικοτήτων.

Συγκεκριμένη συμβολή - το κύριο συστατικό καθορίζεται από τον τύπο

.

Η συνολική συνεισφορά των λογιστικών
τα κύρια συστατικά καθορίζονται από την έκφραση

.

Συνήθως χρησιμοποιείται για ανάλυση
τα πρώτα κύρια συστατικά, η συνεισφορά των οποίων στη συνολική διακύμανση υπερβαίνει το 60-70%.

Ο πίνακας φόρτωσης συντελεστών Α χρησιμοποιείται για την ερμηνεία των κύριων συνιστωσών, συνήθως λαμβάνοντας υπόψη αυτές τις τιμές μεγαλύτερες από 0,5.

Οι τιμές των κύριων συστατικών καθορίζονται από τον πίνακα

Κύρια εξαρτήματα

5.1 Μέθοδοι πολλαπλή παλινδρόμησηκαι η κανονική συσχέτιση περιλαμβάνουν τη διαίρεση του υπάρχοντος συνόλου χαρακτηριστικών σε δύο μέρη. Ωστόσο, μια τέτοια διαίρεση μπορεί να μην είναι πάντα αντικειμενικά θεμελιωμένη, και ως εκ τούτου υπάρχει ανάγκη για προσεγγίσεις για την ανάλυση των σχέσεων μεταξύ των δεικτών που θα συνεπάγονταν την εξέταση του φορέα των χαρακτηριστικών ως ενιαίο σύνολο. Φυσικά, κατά την εφαρμογή τέτοιων προσεγγίσεων, μια ορισμένη ετερογένεια μπορεί να ανιχνευθεί σε αυτή τη σειρά χαρακτηριστικών όταν προσδιορίζονται αντικειμενικά πολλές ομάδες μεταβλητών. Για χαρακτηριστικά από μια τέτοια ομάδα, οι διασταυρούμενες συσχετίσεις θα είναι πολύ υψηλότερες σε σύγκριση με τους συνδυασμούς δεικτών από διαφορετικές ομάδες. Ωστόσο, αυτή η ομαδοποίηση θα βασίζεται στα αποτελέσματα μιας αντικειμενικής ανάλυσης δεδομένων και όχι στις εκ των προτέρων αυθαίρετες εκτιμήσεις του ερευνητή.

5.2 Κατά τη μελέτη συσχετίσεων μέσα σε κάποιο μεμονωμένο σύνολο m χαρακτηριστικών


Χ"= X 1 X 2 X 3 ... X m

μπορείτε να χρησιμοποιήσετε την ίδια μέθοδο που χρησιμοποιήθηκε στην ανάλυση πολλαπλής παλινδρόμησης και τη μέθοδο των κανονικών συσχετίσεων - λήψη νέων μεταβλητών, η παραλλαγή των οποίων αντικατοπτρίζει πλήρως την ύπαρξη πολυμεταβλητών συσχετίσεων.

Ο σκοπός της εξέτασης των ενδοομαδικών συνδέσεων ενός ενιαίου συνόλου χαρακτηριστικών είναι να προσδιοριστούν και να αναπαραστηθούν οπτικά οι αντικειμενικά υπάρχουσες κύριες κατευθύνσεις της σχετικής παραλλαγής αυτών των μεταβλητών. Επομένως, για αυτούς τους σκοπούς, μπορείτε να εισαγάγετε μερικές νέες μεταβλητές Y i , που βρίσκονται ως γραμμικοί συνδυασμοί του αρχικού συνόλου χαρακτηριστικών X

Υ 1 = β 1"Χ= b 11 X 1 + b 12 X 2 + b 13 X 3 + ... + b 1m X m

Υ2= β 2"Χ= b 21 X 1 + b 22 X 2 + b 23 X 3 + ... + b 2m X m

Υ 3 = β 3"Χ= b 31 X 1 + b 32 X 2 + b 33 X 3 + ... + b 3m X m (5.1)

... ... ... ... ... ... ...

Υ m = b m "X= b m1 X 1 + b m2 X 2 + b m3 X 3 + ... + b m m X m

και έχοντας έναν αριθμό επιθυμητών ιδιοτήτων. Για λόγους βεβαιότητας, ας είναι ο αριθμός των νέων χαρακτηριστικών ίσος με τον αριθμό των αρχικών χαρακτηριστικών (m).

Μία από αυτές τις επιθυμητές βέλτιστες ιδιότητες μπορεί να είναι η αμοιβαία μη συσχέτιση νέων μεταβλητών, δηλαδή η διαγώνια μορφή του πίνακα συνδιακύμανσής τους

S y1 2 0 0 ... 0

0 s y2 2 0 ... 0

S y= 0 0 s y3 2 ... 0 , (5.2)

... ... ... ... ...

0 0 0 … s ym 2

όπου s yi 2 είναι η διακύμανση του i-ου νέου χαρακτηριστικού Y i. Η μη συσχέτιση των νέων μεταβλητών, εκτός από την προφανή ευκολία της, έχει μια σημαντική ιδιότητα - κάθε νέο χαρακτηριστικό Y i θα λαμβάνει υπόψη μόνο το ανεξάρτητο μέρος των πληροφοριών σχετικά με τη μεταβλητότητα και τη συσχέτιση των αρχικών δεικτών X.

Η δεύτερη απαραίτητη ιδιότητα των νέων χαρακτηριστικών είναι η τακτική καταγραφή των διακυμάνσεων στους αρχικούς δείκτες. Έτσι, ας λάβει υπόψη η πρώτη νέα μεταβλητή Y 1 το μέγιστο μερίδιο της συνολικής διακύμανσης των χαρακτηριστικών X. Αυτό, όπως θα δούμε στη συνέχεια, είναι ισοδύναμο με την απαίτηση ότι το Y 1 έχει τη μέγιστη δυνατή διακύμανση s y1 2. Λαμβάνοντας υπόψη την ισότητα (1.17), αυτή η συνθήκη μπορεί να γραφτεί στη μορφή

s y1 2 = b 1 "Sb 1= μέγιστο , (5,3)

Οπου μικρό- πίνακας συνδιακύμανσης των αρχικών χαρακτηριστικών X, β 1- ένα διάνυσμα που περιλαμβάνει τους συντελεστές b 11, b 12, b 13, ..., b 1m με τη βοήθεια του οποίου, από τις τιμές των X 1, X 2, X 3, ..., X m, η τιμή του Υ 1 μπορεί να ληφθεί.

Αφήστε τη δεύτερη νέα μεταβλητή Y 2 να περιγράφει το μέγιστο μέρος αυτής της συνιστώσας της συνολικής παραλλαγής που παραμένει αφού ληφθεί υπόψη το μεγαλύτερο μερίδιο της στη μεταβλητότητα του πρώτου νέου χαρακτηριστικού Y 1 . Για να επιτευχθεί αυτό, πρέπει να πληρούται η προϋπόθεση

s y2 2 = b 2 "Sb 2= μέγιστο, (5,4)

σε μηδενική σύνδεση Y 1 με Y 2, (δηλαδή r y1y2 = 0) και σε s y1 2 > s y2 2.

Ομοίως, το τρίτο νέο χαρακτηριστικό Y 3 θα πρέπει να περιγράφει το τρίτο πιο σημαντικό μέρος της παραλλαγής των αρχικών χαρακτηριστικών, για το οποίο η διακύμανσή του θα πρέπει επίσης να είναι μέγιστη

s y3 2 = b 3 "Sb 3= μέγιστο, (5,5)

υπό τις συνθήκες ότι το Y 3 δεν είναι συσχετισμένο με τα δύο πρώτα νέα χαρακτηριστικά Y 1 και Y 2 (δηλαδή r y1y3 = 0, r y2y3 = 0) και s y1 2 > s y2 > s y3 2 .

Έτσι, οι διακυμάνσεις όλων των νέων μεταβλητών χαρακτηρίζονται από κατάταξη σε μέγεθος

s y1 2 > s y2 2 > s y3 2 > ... > s y m 2 . (5.6)

5.3 Διανύσματα από τον τύπο (5.1) σι 1 , σι 2 , σι 3 , ..., σι m , με τη βοήθεια του οποίου θα πρέπει να πραγματοποιηθεί η μετάβαση σε νέες μεταβλητές Y i, μπορεί να γραφτεί με τη μορφή πίνακα


σι = σι 1 σι 2 σι 3 ... σιΜ. (5.7)

Μετάβαση από ένα σύνολο αρχικών χαρακτηριστικών Χσε ένα σύνολο νέων μεταβλητών Υμπορεί να αναπαρασταθεί ως τύπος μήτρας

Υ = Β" Χ , (5.8)

και η λήψη ενός πίνακα συνδιακύμανσης νέων χαρακτηριστικών και η επίτευξη συνθήκης (5.2) μη συσχέτισης νέων μεταβλητών σύμφωνα με τον τύπο (1.19) μπορεί να αναπαρασταθεί ως

Β"SB= S y , (5.9)

όπου είναι ο πίνακας συνδιακύμανσης των νέων μεταβλητών S yλόγω της ασύνδετης φύσης τους, έχει διαγώνιο σχήμα. Από τη θεωρία μητρών (ενότητα Α.25Παράρτημα Α) είναι γνωστό ότι, έχοντας λάβει για κάποιο συμμετρικό πίνακα ΕΝΑιδιοδιανύσματα u iκαι αριθμοί l i και αντιστρέφω

καλώντας πίνακες από αυτούς UΚαι μεγάλο, σύμφωνα με τον τύπο (Α.31) μπορούμε να λάβουμε το αποτέλεσμα

U"AU= μεγάλο ,

Οπου μεγάλο- διαγώνιος πίνακας που περιλαμβάνει ιδιοτιμές συμμετρικού πίνακα ΕΝΑ. Είναι εύκολο να δούμε ότι η τελευταία ισότητα συμπίπτει πλήρως με τον τύπο (5.9). Επομένως, μπορούμε να βγάλουμε το εξής συμπέρασμα. Επιθυμητές ιδιότητες νέων μεταβλητών Υμπορούν να παρασχεθούν εάν τα διανύσματα σι 1 , σι 2 , σι 3 , ..., σι m , με τη βοήθεια των οποίων θα πρέπει να πραγματοποιηθεί η μετάβαση σε αυτές τις μεταβλητές, θα είναι τα ιδιοδιανύσματα του πίνακα συνδιακύμανσης των αρχικών χαρακτηριστικών μικρό. Τότε οι διακυμάνσεις των νέων χαρακτηριστικών s yi 2 θα αποδειχθούν ιδιοτιμές

s y1 2 = l 1, s y2 2 = l 2, s y3 2 = l 3, ..., s ym 2 = l m (5.10)

Οι νέες μεταβλητές, η μετάβαση στην οποία σύμφωνα με τους τύπους (5.1) και (5.8) πραγματοποιείται χρησιμοποιώντας τα ιδιοδιανύσματα του πίνακα συνδιακύμανσης των αρχικών χαρακτηριστικών, ονομάζονται κύριες συνιστώσες. Λόγω του γεγονότος ότι ο αριθμός των ιδιοδιανυσμάτων του πίνακα συνδιακύμανσης σε γενική περίπτωσηισούται με m - ο αριθμός των αρχικών χαρακτηριστικών για αυτόν τον πίνακα, ο αριθμός των κύριων στοιχείων είναι επίσης ίσος με m.

Σύμφωνα με τη θεωρία πινάκων, για να βρεθούν οι ιδιοτιμές και τα διανύσματα του πίνακα συνδιακύμανσης, θα πρέπει να λυθεί η εξίσωση

(μικρό-Ι εγώ Εγώ)σι i = 0 . (5.11)

Αυτή η εξίσωση έχει λύση εάν ικανοποιείται η συνθήκη ότι η ορίζουσα είναι ίση με μηδέν

½ μικρό-Ι εγώ Εγώ½ = 0. (5.12)

Αυτή η συνθήκη ουσιαστικά αποδεικνύεται επίσης ότι είναι μια εξίσωση της οποίας οι ρίζες είναι όλες οι ιδιοτιμές l 1 , l 2 , l 3 , ..., l m του πίνακα συνδιακύμανσης που συμπίπτουν ταυτόχρονα με τις διακυμάνσεις των κύριων συνιστωσών. Αφού λάβετε αυτούς τους αριθμούς, για κάθε i-ο από αυτούς, χρησιμοποιώντας την εξίσωση (5.11), μπορείτε να αποκτήσετε το αντίστοιχο ιδιοδιάνυσμα σιΕγώ. Στην πράξη, χρησιμοποιούνται ειδικές διαδικασίες επανάληψης για τον υπολογισμό ιδιοτιμών και διανυσμάτων (Παράρτημα Β).

Όλα τα ιδιοδιανύσματα μπορούν να γραφτούν ως πίνακας σι, που θα είναι ένας ορθοκανονικός πίνακας, άρα (ενότητα Α.24Το Παράρτημα Α) πληρούται για αυτό

ΒΒ = ΒΒ" = Εγώ . (5.13)

Το τελευταίο σημαίνει ότι για οποιοδήποτε ζεύγος ιδιοδιανυσμάτων b i "b j= 0, και για οποιοδήποτε τέτοιο διάνυσμα η ισότητα b i "b i = 1.

5.4 Ας επεξηγήσουμε την παραγωγή των κύριων συνιστωσών για την απλούστερη περίπτωση δύο αρχικών χαρακτηριστικών X 1 και X 2 . Ο πίνακας συνδιακύμανσης για αυτό το σύνολο είναι

όπου s 1 και s 2 είναι οι τυπικές αποκλίσεις των χαρακτηριστικών X 1 και X 2, και r είναι ο συντελεστής συσχέτισης μεταξύ τους. Στη συνέχεια, η συνθήκη (5.12) μπορεί να γραφτεί στη φόρμα

S 1 2 - l i rs 1 s 2

rs 1 s 2 s 2 2 - l i

Εικόνα 5.1.Γεωμετρική σημασία των κύριων συστατικών

Διευρύνοντας την ορίζουσα, μπορούμε να λάβουμε την εξίσωση

l 2 - l(s 1 2 + s 2 2) + s 1 2 s 2 2 (1 - r 2) = 0,

λύνοντας το οποίο, μπορείτε να πάρετε δύο ρίζες l 1 και l 2. Η εξίσωση (5.11) μπορεί επίσης να γραφτεί ως


s 1 2 - l i r s 1 s 2 b i1 = 0

r s 1 s 2 s 2 2 - l i b i2 0

Αντικαθιστώντας το l 1 σε αυτή την εξίσωση, παίρνουμε ένα γραμμικό σύστημα

(s 1 2 - l 1) b 11 + rs 1 s 2 b 12 = 0

rs 1 s 2 b 11 + (s 2 2 - l 1)b 12 = 0,

η λύση του οποίου είναι τα στοιχεία του πρώτου ιδιοδιανύσματος b 11 και b 12. Μετά από παρόμοια αντικατάσταση της δεύτερης ρίζας l 2, βρίσκουμε τα στοιχεία του δεύτερου ιδιοδιανύσματος b 21 και b 22.

5.5 Ας ανακαλύψουμε γεωμετρική σημασίακύρια εξαρτήματα. Αυτό μπορεί να γίνει ξεκάθαρα μόνο για την απλούστερη περίπτωση δύο χαρακτηριστικών X 1 και X 2. Αφήστε τα να χαρακτηρίζονται από διμεταβλητή κανονική κατανομή με θετικό συντελεστή συσχέτισης. Εάν όλες οι μεμονωμένες παρατηρήσεις σχεδιάζονται σε ένα επίπεδο, που σχηματίζεται από τσεκούριασημάδια, τότε τα αντίστοιχα σημεία θα βρίσκονται μέσα σε μια ορισμένη έλλειψη συσχέτισης (Εικ. 5.1). Τα νέα χαρακτηριστικά Y 1 και Y 2 μπορούν επίσης να απεικονιστούν στο ίδιο επίπεδο με τη μορφή νέων αξόνων. Σύμφωνα με την έννοια της μεθόδου, για το πρώτο κύριο συστατικό Y 1, το οποίο λαμβάνει υπόψη τη μέγιστη δυνατή συνολική διασπορά των χαρακτηριστικών X 1 και X 2, θα πρέπει να επιτευχθεί το μέγιστο της διασποράς του. Αυτό σημαίνει ότι για το Y 1 θα πρέπει να βρείτε το

ποιος άξονας ώστε το πλάτος της κατανομής των τιμών του να είναι μεγαλύτερο. Προφανώς, αυτό θα επιτευχθεί εάν αυτός ο άξονας συμπίπτει στην κατεύθυνση με τον μεγαλύτερο άξονα της έλλειψης συσχέτισης. Πράγματι, αν προβάλλουμε όλα τα σημεία που αντιστοιχούν σε μεμονωμένες παρατηρήσεις σε αυτή τη συντεταγμένη, θα έχουμε μια κανονική κατανομή με το μέγιστο δυνατό εύρος και τη μεγαλύτερη διασπορά. Αυτή θα είναι η κατανομή των μεμονωμένων τιμών του πρώτου κύριου στοιχείου Y 1 .

Ο άξονας που αντιστοιχεί στη δεύτερη κύρια συνιστώσα Υ 2 πρέπει να σχεδιάζεται κάθετα προς τον πρώτο άξονα, όπως αυτό προκύπτει από την προϋπόθεση ότι τα κύρια στοιχεία δεν είναι συσχετισμένα. Πράγματι, σε αυτή την περίπτωση θα λάβουμε ένα νέο σύστημα συντεταγμένων με τους άξονες Y 1 και Y 2 να συμπίπτουν στην κατεύθυνση με τους άξονες της έλλειψης συσχέτισης. Μπορεί να φανεί ότι η έλλειψη συσχέτισης, όταν εξετάζεται στο νέο σύστημα συντεταγμένων, δείχνει τη μη συσχέτιση των επιμέρους τιμών των Y 1 και Y 2, ενώ για τις τιμές των αρχικών χαρακτηριστικών X 1 και X 2 μια συσχέτιση παρατηρήθηκε.

Η μετάβαση από τους άξονες που σχετίζονται με τα αρχικά χαρακτηριστικά X 1 και X 2 σε ένα νέο σύστημα συντεταγμένων προσανατολισμένο στα κύρια στοιχεία Y 1 και Y 2 ισοδυναμεί με περιστροφή των παλαιών αξόνων κατά μια ορισμένη γωνία j. Η τιμή του μπορεί να βρεθεί χρησιμοποιώντας τον τύπο

Tg 2j = . (5.14)

Η μετάβαση από τις τιμές των χαρακτηριστικών X 1 και X 2 στα κύρια στοιχεία μπορεί να πραγματοποιηθεί σύμφωνα με τα αποτελέσματα της αναλυτικής γεωμετρίας στη μορφή

Y 1 = X 1 cos j + X 2 sin j

Y 2 = - X 1 sin j + X 2 cos j.

Το ίδιο αποτέλεσμα μπορεί να γραφτεί σε μορφή μήτρας

Y 1 = cos j sin j X 1 και Y 2 = -sin j cos j X 1,

που αντιστοιχεί ακριβώς στον μετασχηματισμό Y 1 = β 1"Χκαι Υ 2 = β 2"Χ. Με άλλα λόγια,

= ΣΙ" . (5.15)

Έτσι, ο πίνακας ιδιοδιανύσματος μπορεί επίσης να ερμηνευτεί ότι περιλαμβάνει τριγωνομετρικές συναρτήσεις της γωνίας περιστροφής που πρέπει να γίνουν για να μετακινηθούν από το σύστημα συντεταγμένων που σχετίζεται με τα αρχικά χαρακτηριστικά σε νέους άξονες που βασίζονται στα κύρια στοιχεία.

Εάν έχουμε m αρχικά χαρακτηριστικά X 1, X 2, X 3, ..., X m, τότε οι παρατηρήσεις που συνθέτουν το υπό εξέταση δείγμα θα βρίσκονται μέσα σε κάποιο ελλειψοειδές συσχέτισης m διαστάσεων. Τότε ο άξονας της πρώτης κύριας συνιστώσας θα συμπίπτει κατά διεύθυνση με τον μεγαλύτερο άξονα αυτού του ελλειψοειδούς, ο άξονας της δεύτερης κύριας συνιστώσας με τον δεύτερο άξονα αυτού του ελλειψοειδούς κ.λπ. Η μετάβαση από το αρχικό σύστημα συντεταγμένων που σχετίζεται με τους άξονες χαρακτηριστικών X 1, X 2, X 3, ..., X m στους νέους άξονες των κύριων στοιχείων θα ισοδυναμεί με πολλές περιστροφές των παλαιών αξόνων υπό γωνίες j 1, j 2, j 3, .. ., και τον πίνακα μετάβασης σιαπό το σετ Χστο σύστημα των κύριων εξαρτημάτων Υ, που αποτελείται από τα δικά του βλέφαρα-

tori του πίνακα συνδιακύμανσης, περιλαμβάνει τριγωνομετρικές συναρτήσεις των γωνιών του νέου άξονες συντεταγμένωνμε τους παλιούς άξονες των αρχικών χαρακτηριστικών.

5.6 Σύμφωνα με τις ιδιότητες των ιδιοτιμών και των διανυσμάτων, τα ίχνη των πινάκων συνδιακύμανσης των αρχικών χαρακτηριστικών και των κύριων συνιστωσών είναι ίσα. Με άλλα λόγια

tr μικρό= τρ μικρό y = tr μεγάλο (5.16)

s 11 + s 22 + ... + s mm = l 1 + l 2 + ... + l m,

εκείνοι. το άθροισμα των ιδιοτιμών του πίνακα συνδιακύμανσης είναι ίσο με το άθροισμα των διακυμάνσεων όλων των αρχικών χαρακτηριστικών. Επομένως, μπορούμε να μιλήσουμε για μια ορισμένη συνολική τιμή της διασποράς των αρχικών χαρακτηριστικών ίση με tr μικρόκαι το σύστημα ιδιοτιμών που λαμβάνεται υπόψη.

Το γεγονός ότι η πρώτη κύρια συνιστώσα έχει μέγιστη διακύμανση ίση με l 1 σημαίνει αυτόματα ότι περιγράφει επίσης το μέγιστο μερίδιο της συνολικής διακύμανσης των αρχικών χαρακτηριστικών tr μικρό. Ομοίως, η δεύτερη κύρια συνιστώσα έχει τη δεύτερη μεγαλύτερη απόκλιση l 2, η οποία αντιστοιχεί στη δεύτερη μεγαλύτερη που λαμβάνεται υπόψη μερίδιο της συνολικής διακύμανσης των αρχικών χαρακτηριστικών κ.λπ.

Για κάθε κύριο στοιχείο, είναι δυνατός ο προσδιορισμός της αναλογίας της συνολικής μεταβλητότητας των αρχικών χαρακτηριστικών που περιγράφει

5.7 Προφανώς, η ιδέα της συνολικής διακύμανσης ενός συνόλου αρχικών χαρακτηριστικών X 1, X 2, X 3, ..., X m, μετρούμενη με την τιμή tr μικρό, έχει νόημα μόνο αν όλα αυτά τα χαρακτηριστικά μετρώνται στις ίδιες μονάδες. Διαφορετικά, θα πρέπει να προσθέσετε τις αποκλίσεις, διαφορετικά σημάδια, μερικά από τα οποία θα εκφράζονται σε τετραγωνικά χιλιοστά, άλλα σε τετραγωνικά χιλιοστά, άλλα σε τετράγωνα ακτίνια ή μοίρες κ.λπ. Αυτή η δυσκολία μπορεί εύκολα να αποφευχθεί εάν μεταβούμε από τις ονομασμένες τιμές των χαρακτηριστικών X ij στις κανονικοποιημένες τιμές τους z ij = (X ij - M i)./ S i όπου M i και S i είναι ο αριθμητικός μέσος όρος και τυπική απόκλιση του i-ου χαρακτηριστικού. Τα κανονικοποιημένα χαρακτηριστικά z έχουν μηδενικό μέσο όρο, διακυμάνσεις μονάδων και δεν σχετίζονται με καμία μονάδα μέτρησης. Πίνακας συνδιακύμανσης αρχικών χαρακτηριστικών μικρόθα μετατραπεί σε πίνακα συσχέτισης R.

Όλα όσα έχουν ειπωθεί για τα κύρια συστατικά που βρέθηκαν για τον πίνακα συνδιακύμανσης παραμένουν αληθή για τον πίνακα R. Εδώ είναι ακριβώς το ίδιο, με βάση τα ιδιοδιανύσματα του πίνακα συσχέτισης σι 1 , σι 2 , σι 3 , ..., σι m, μεταβείτε από τα αρχικά χαρακτηριστικά z i στα κύρια στοιχεία y 1, y 2, y 3, ..., y m

y 1 = b 1"z

y 2 = b 2"z

y 3 = b 3"z

y m = b m "z .

Αυτός ο μετασχηματισμός μπορεί επίσης να γραφτεί σε συμπαγή μορφή

y = Β Ζ ,

Εικόνα 5.2. Γεωμετρική σημασία των κύριων συνιστωσών για δύο κανονικοποιημένα χαρακτηριστικά z 1 και z 2

Οπου y- διάνυσμα τιμών των κύριων συστατικών, σι- πίνακας που περιλαμβάνει ιδιοδιανύσματα, z- διάνυσμα αρχικών κανονικοποιημένων χαρακτηριστικών. Η ισότητα αποδεικνύεται δίκαιη

B"RB= ... ... … , (5.18)

όπου l 1, l 2, l 3, ..., l m είναι οι ιδιοτιμές του πίνακα συσχέτισης.

Τα αποτελέσματα που λαμβάνονται με την ανάλυση του πίνακα συσχέτισης διαφέρουν από παρόμοια αποτελέσματα για τον πίνακα συνδιακύμανσης. Πρώτον, είναι πλέον δυνατό να ληφθούν υπόψη τα χαρακτηριστικά που μετρώνται σε διαφορετικές μονάδες. Δεύτερον, τα ιδιοδιανύσματα και οι αριθμοί που βρέθηκαν για τους πίνακες RΚαι μικρό, είναι επίσης διαφορετικά. Τρίτον, τα κύρια στοιχεία που προσδιορίζονται από τον πίνακα συσχέτισης και με βάση τις κανονικοποιημένες τιμές των χαρακτηριστικών z αποδεικνύονται κεντραρισμένα - δηλ. με μηδενικές μέσες τιμές.

Δυστυχώς, έχοντας καθορίσει τα ιδιοδιανύσματα και τους αριθμούς για τον πίνακα συσχέτισης, είναι αδύνατο να μετακινηθούμε από αυτά σε παρόμοια διανύσματα και αριθμούς του πίνακα συνδιακύμανσης. Στην πράξη, τα κύρια στοιχεία που βασίζονται σε έναν πίνακα συσχέτισης χρησιμοποιούνται συνήθως καθώς είναι πιο καθολικά.

5.8 Ας εξετάσουμε τη γεωμετρική σημασία των κύριων συνιστωσών που προσδιορίζονται από τον πίνακα συσχέτισης. Η περίπτωση των δύο σημείων z 1 και z 2 είναι ξεκάθαρη εδώ. Το σύστημα συντεταγμένων που σχετίζεται με αυτά τα κανονικοποιημένα χαρακτηριστικά έχει ένα σημείο μηδέν που βρίσκεται στο κέντρο του γραφήματος (Εικ. 5.2). Το κεντρικό σημείο της έλλειψης συσχέτισης,

συμπεριλαμβανομένων όλων των επιμέρους παρατηρήσεων, θα συμπίπτει με το κέντρο του συστήματος συντεταγμένων. Προφανώς, ο άξονας της πρώτης κύριας συνιστώσας, η οποία έχει τη μέγιστη διακύμανση, θα συμπίπτει με τον μεγαλύτερο άξονα της έλλειψης συσχέτισης και η συντεταγμένη της δεύτερης κύριας συνιστώσας θα είναι προσανατολισμένη κατά μήκος του δεύτερου άξονα αυτής της έλλειψης.

Η μετάβαση από το σύστημα συντεταγμένων που σχετίζεται με τα αρχικά χαρακτηριστικά z 1 και z 2 στους νέους άξονες των κύριων στοιχείων ισοδυναμεί με την περιστροφή των πρώτων αξόνων κατά μια ορισμένη γωνία j. Οι διακυμάνσεις των κανονικοποιημένων χαρακτηριστικών είναι ίσες με 1 και χρησιμοποιώντας τον τύπο (5.14) μπορούμε να βρούμε την τιμή της γωνίας περιστροφής j ίση με 45 o. Τότε ο πίνακας των ιδιοδιανυσμάτων, ο οποίος μπορεί να προσδιοριστεί μέσω των τριγωνομετρικών συναρτήσεων αυτής της γωνίας χρησιμοποιώντας τον τύπο (5.15), θα είναι ίσος με

Cos j sin j 1 1 1

σι" = = .

Sin j cos j (2) 1/2 -1 1

Οι ιδιοτιμές για τη δισδιάστατη περίπτωση είναι επίσης εύκολο να βρεθούν. Η συνθήκη (5.12) αποδεικνύεται ότι είναι της μορφής

που αντιστοιχεί στην εξίσωση

l 2 - 2l + 1 - r 2 = 0,

που έχει δύο ρίζες

l 1 = 1 + r (5,19)

Έτσι, τα κύρια συστατικά του πίνακα συσχέτισης για δύο κανονικοποιημένα χαρακτηριστικά μπορούν να βρεθούν χρησιμοποιώντας πολύ απλούς τύπους

Y 1 = (z 1 + z 2) (5,20)

Y 2 = (z 1 - z 2)

Οι αριθμητικοί τους μέσοι όροι είναι ίσοι με μηδέν και οι τυπικές αποκλίσεις τους έχουν τις τιμές

s y1 = (l 1) 1/2 = (1 + r) 1/2

s y2 = (l 2) 1/2 = (1 - r) 1/2

5.9 Σύμφωνα με τις ιδιότητες των ιδιοτιμών και των διανυσμάτων, τα ίχνη του πίνακα συσχέτισης των αρχικών χαρακτηριστικών και του πίνακα των ιδιοτιμών είναι ίσα. Η συνολική διακύμανση των m κανονικοποιημένων χαρακτηριστικών είναι ίση με m. Με άλλα λόγια

tr R= m = τρ μεγάλο (5.21)

l 1 + l 2 + l 3 + ... + l m = m.

Τότε το μερίδιο της συνολικής διακύμανσης των αρχικών χαρακτηριστικών που περιγράφονται από το i-ο κύριο στοιχείο είναι ίσο με

Μπορείτε επίσης να εισαγάγετε την έννοια του P cn - το μερίδιο της συνολικής διακύμανσης των αρχικών χαρακτηριστικών που περιγράφεται από τα πρώτα n κύρια στοιχεία,

n l 1 + l 2 + ... + l n

P cn = S P i = . (5.23)

Το γεγονός ότι για τις ιδιοτιμές παρατηρείται μια σειρά της μορφής l 1 > l 2 > > l 3 > ... > l m σημαίνει ότι παρόμοιες σχέσεις θα είναι χαρακτηριστικές των κλασμάτων που περιγράφονται από τα κύρια συστατικά της παραλλαγής

P 1 > P 2 > P 3 > ... > P m . (5.24)

Η ιδιότητα (5.24) συνεπάγεται μια συγκεκριμένη μορφή εξάρτησης του συσσωρευμένου κλάσματος P сn από το n (Εικ. 5.3). Σε αυτή την περίπτωση, τα τρία πρώτα κύρια συστατικά περιγράφουν το μεγαλύτερο μέρος της μεταβλητότητας των χαρακτηριστικών. Αυτό σημαίνει ότι συχνά τα πρώτα λίγα κύρια συστατικά μπορούν από κοινού να αντιπροσωπεύουν έως και το 80 - 90% της συνολικής διακύμανσης των χαρακτηριστικών, ενώ κάθε επόμενο κύριο συστατικό θα αυξήσει αυτή την αναλογία πολύ ελαφρά. Στη συνέχεια, για περαιτέρω εξέταση και ερμηνεία, μόνο αυτά τα πρώτα βασικά στοιχεία μπορούν να χρησιμοποιηθούν με βεβαιότητα ότι περιγράφουν τα πιο σημαντικά μοτίβα ενδοομαδικής μεταβλητότητας και συσχέτισης

Εικόνα 5.3.Εξάρτηση του μεριδίου της συνολικής διακύμανσης των χαρακτηριστικών P cn που περιγράφεται από τα πρώτα n κύρια συστατικά από την τιμή n. Αριθμός χαρακτηριστικών m = 9

Εικόνα 5.4. Προς τον καθορισμό του σχεδιασμού του κριτηρίου για τον έλεγχο των κύριων στοιχείων

σημάδια. Χάρη σε αυτό, ο αριθμός των ενημερωτικών νέων μεταβλητών με τις οποίες πρέπει να εργαστείτε μπορεί να μειωθεί κατά 2-3 φορές. Έτσι, τα κύρια συστατικά έχουν ένα ακόμη σημαντικό και χρήσιμη ιδιότητα- απλοποιούν σημαντικά την περιγραφή των παραλλαγών στα αρχικά χαρακτηριστικά και την καθιστούν πιο συμπαγή. Μια τέτοια μείωση στον αριθμό των μεταβλητών είναι πάντα επιθυμητή, αλλά συνδέεται με ορισμένες παραμορφώσεις στις σχετικές θέσεις των σημείων που αντιστοιχούν σε μεμονωμένες παρατηρήσεις στο χώρο των πρώτων λίγων κύριων συνιστωσών σε σύγκριση με τον χώρο m-διάστασης των αρχικών χαρακτηριστικών. Αυτές οι παραμορφώσεις προκύπτουν από την προσπάθεια συμπίεσης του χώρου χαρακτηριστικών στο χώρο των πρώτων κύριων στοιχείων. Ωστόσο, στις μαθηματικές στατιστικές αποδεικνύεται ότι από όλες τις μεθόδους που μπορούν να μειώσουν σημαντικά τον αριθμό των μεταβλητών, η μετάβαση στις κύριες συνιστώσες οδηγεί στη μικρότερη παραμόρφωση της δομής των παρατηρήσεων που σχετίζονται με αυτή τη μείωση.

5.10 Ένα σημαντικό ζήτημα στην ανάλυση των κύριων συστατικών είναι το πρόβλημα του προσδιορισμού της ποσότητας τους για περαιτέρω εξέταση. Είναι προφανές ότι μια αύξηση στον αριθμό των κύριων συστατικών αυξάνει το συσσωρευμένο μερίδιο της ληφθείσας υπόψη μεταβλητότητας P cn και το φέρνει πιο κοντά στο 1. Ταυτόχρονα, η συμπαγής περιγραφή της προκύπτουσας περιγραφής μειώνεται. Η επιλογή του αριθμού των κύριων εξαρτημάτων που διασφαλίζει ταυτόχρονα την πληρότητα και τη συμπαγή περιγραφή μπορεί να βασίζεται σε διαφορετικά κριτήρια που χρησιμοποιούνται στην πράξη. Ας απαριθμήσουμε τα πιο συνηθισμένα.

Το πρώτο κριτήριο βασίζεται στη σκέψη ότι ο αριθμός των κύριων συστατικών που λαμβάνεται υπόψη θα πρέπει να παρέχει επαρκή πληροφοριακή πληρότητα της περιγραφής. Με άλλα λόγια, τα κύρια συστατικά που εξετάζονται θα πρέπει να περιγράφουν το μεγαλύτερο μέρος της συνολικής μεταβλητότητας των αρχικών χαρακτηριστικών: έως 75 - 90%. Η επιλογή ενός συγκεκριμένου επιπέδου του συσσωρευμένου μεριδίου P cn παραμένει υποκειμενική και εξαρτάται τόσο από τη γνώμη του ερευνητή όσο και από το πρόβλημα που επιλύεται.

Ένα άλλο παρόμοιο κριτήριο (το κριτήριο του Kaiser) επιτρέπει σε κάποιον να συμπεριλάβει τα κύρια στοιχεία με ιδιοτιμές μεγαλύτερες από 1. Βασίζεται στη θεώρηση ότι το 1 είναι η διακύμανση ενός κανονικοποιημένου αρχικού χαρακτηριστικού. Αυτό είναι

Λοιπόν, η συμπερίληψη στην περαιτέρω εξέταση όλων των κύριων στοιχείων με ιδιοτιμές μεγαλύτερες από 1 σημαίνει ότι λαμβάνουμε υπόψη μόνο εκείνες τις νέες μεταβλητές που έχουν διακυμάνσεις τουλάχιστον ενός αρχικού χαρακτηριστικού. Το κριτήριο Kaiser είναι πολύ κοινό και η χρήση του περιλαμβάνεται σε πολλά πακέτα λογισμικού επεξεργασίας στατιστικών δεδομένων όταν είναι απαραίτητο να οριστεί η ελάχιστη τιμή της ιδιοτιμής που λαμβάνεται υπόψη και η προεπιλεγμένη τιμή είναι συχνά ίση με 1.

Το κριτήριο διαλογής του Cattell είναι κάπως καλύτερα θεωρητικά δικαιολογημένο. Η εφαρμογή του βασίζεται στην εξέταση ενός γραφήματος στο οποίο απεικονίζονται οι τιμές όλων των ιδιοτιμών με φθίνουσα σειρά (Εικ. 5.4). Το κριτήριο του Cattell βασίζεται στο αποτέλεσμα ότι μια γραφική ακολουθία τιμών των ιδιοτιμών που προκύπτουν παράγει συνήθως μια κοίλη γραμμή. Οι πρώτες ιδιοτιμές παρουσιάζουν μια μη γραμμική μείωση στο επίπεδό τους. Ωστόσο, ξεκινώντας από μια συγκεκριμένη ιδιοτιμή, η μείωση σε αυτό το επίπεδο γίνεται περίπου γραμμική και μάλλον επίπεδη. Η συμπερίληψη των κύριων συνιστωσών στη θεώρηση τελειώνει με αυτό του οποίου η ιδιοτιμή αρχίζει το ευθύγραμμο, επίπεδο τμήμα του γραφήματος. Έτσι, στο Σχήμα 5.4, σύμφωνα με το κριτήριο του Cattell, θα πρέπει να ληφθούν υπόψη μόνο τα τρία πρώτα κύρια στοιχεία, επειδή η τρίτη ιδιοτιμή βρίσκεται στην αρχή του ευθύγραμμου επίπεδου τμήματος του γραφήματος.

Το κριτήριο Cattell βασίζεται στα εξής. Εάν λάβουμε υπόψη δεδομένα για m χαρακτηριστικά, που λαμβάνονται τεχνητά από έναν πίνακα κανονικά κατανεμημένων τυχαίων αριθμών, τότε για αυτούς οι συσχετίσεις μεταξύ των χαρακτηριστικών θα είναι εντελώς τυχαίες και θα είναι κοντά στο 0. Εάν τα κύρια στοιχεία βρεθούν εδώ, θα είναι δυνατό να ανιχνεύσουν σταδιακή μείωση της τιμής των ιδιοτιμών τους, η οποία έχει ευθύγραμμο χαρακτήρα. Με άλλα λόγια, μια γραμμική μείωση στις ιδιοτιμές μπορεί να υποδηλώνει την απουσία ενδείξεων μη τυχαίων συνδέσεων στις αντίστοιχες πληροφορίες σχετικά με τη συσχέτιση.

5.11 Κατά την ερμηνεία των κύριων στοιχείων, τα ιδιοδιανύσματα χρησιμοποιούνται συχνότερα, τα οποία παρουσιάζονται με τη μορφή των λεγόμενων φορτίων - συντελεστών συσχέτισης των αρχικών χαρακτηριστικών με τα κύρια στοιχεία. Ιδιοδιανύσματα β i, ικανοποιώντας την ισότητα (5.18), λαμβάνονται σε κανονικοποιημένη μορφή, έτσι ώστε b i "b i= 1. Αυτό σημαίνει ότι το άθροισμα των τετραγώνων των στοιχείων κάθε ιδιοδιανύσματος είναι 1. Τα ιδιοδιανύσματα των οποίων τα στοιχεία είναι φορτία μπορούν εύκολα να βρεθούν χρησιμοποιώντας τον τύπο

ένα i= (l i) 1/2 β i . (5.25)

Με άλλα λόγια, πολλαπλασιάζοντας την κανονικοποιημένη μορφή του ιδιοδιανύσματος με την τετραγωνική ρίζα της ιδιοτιμής του, μπορεί κανείς να αποκτήσει ένα σύνολο φορτώσεων των αρχικών χαρακτηριστικών στην αντίστοιχη κύρια συνιστώσα. Για τα διανύσματα φορτίου, ισχύει η ακόλουθη ισότητα: a i "a i= l i, που σημαίνει ότι το άθροισμα των τετραγώνων των φορτίων επί i-ο κύριοςσυστατικό είναι ίσο με την i-η ιδιοτιμή. Τα προγράμματα υπολογιστών συνήθως εξάγουν ιδιοδιανύσματα με τη μορφή φορτίων. Εάν είναι απαραίτητο να ληφθούν αυτά τα διανύσματα σε κανονικοποιημένη μορφή β iαυτό μπορεί να γίνει χρησιμοποιώντας έναν απλό τύπο β i = ένα i/ (l i) 1/2.

5.12 Οι μαθηματικές ιδιότητες των ιδιοτιμών και των διανυσμάτων είναι τέτοιες που, σύμφωνα με το Sect. Α.25Το Παράρτημα Α είναι ο αρχικός πίνακας συσχέτισης. Rμπορεί να αναπαρασταθεί στη μορφή R = BLB", το οποίο μπορεί επίσης να γραφτεί ως

R= l 1 b 1 b 1 "+ l 2 b 2 b 2 "+ l 3 b 3 b 3 "+ ... + l m σιΜ σιΜ " . (5.26)

Θα πρέπει να σημειωθεί ότι οποιοσδήποτε από τους όρους l i b i b i", που αντιστοιχεί στην i-η κύρια συνιστώσα, είναι τετράγωνη μήτρα

L i b i1 2 l i b i1 b i2 l i b i1 b i3 … l i b i1 b im

l i b i b i"= l i b i1 b i2 l i b i2 2 l i b i2 b i3 ... l i b i2 b im . (5.27)

... ... ... ... ...

l i b i1 b im l i b i2 b im l i b i3 b im ... l i b im 2

Εδώ το b ij είναι το στοιχείο του i-ου ιδιοδιανύσματος του j-ου αρχικού χαρακτηριστικού. Οποιοσδήποτε διαγώνιος όρος ενός τέτοιου πίνακα l i b ij 2 είναι ένα ορισμένο κλάσμα της παραλλαγής του j-ου χαρακτηριστικού που περιγράφεται από την i-η κύρια συνιστώσα. Τότε η διακύμανση οποιουδήποτε j-ου χαρακτηριστικού μπορεί να αναπαρασταθεί ως

1 = l 1 b 1j 2 + l 2 b 2j 2 + l 3 b 3j 2 + ... + l m b mj 2 , (5.28)

που σημαίνει την επέκτασή του σε συνεισφορές ανάλογα με όλα τα κύρια στοιχεία.

Ομοίως, οποιοσδήποτε εκτός διαγώνιος όρος l i b ij b ik του πίνακα (5.27) είναι μέρος του συντελεστή συσχέτισης r jk των j-ου και k-ου χαρακτηριστικών που λαμβάνονται υπόψη από την i-η κύρια συνιστώσα. Τότε μπορούμε να γράψουμε την επέκταση αυτού του συντελεστή ως άθροισμα

r jk = l 1 b 1j b 1k + l 2 b 2j b 2k + ... + l m b mj b mk , (5.29)

συνεισφορές όλων των κύριων συστατικών σε αυτό.

Έτσι, από τους τύπους (5.28) και (5.29) μπορεί κανείς να δει καθαρά ότι κάθε κύριο συστατικό περιγράφει ένα ορισμένο μέρος της διακύμανσης κάθε αρχικού χαρακτηριστικού και του συντελεστή συσχέτισης κάθε συνδυασμού.

Λαμβάνοντας υπόψη ότι τα στοιχεία της κανονικοποιημένης μορφής των ιδιοδιανυσμάτων b ij σχετίζονται με τα φορτία a ij με απλή σχέση (5.25), η επέκταση (5.26) μπορεί επίσης να γραφτεί ως προς τα ιδιοδιανύσματα των φορτίων R = ΑΑ", το οποίο μπορεί επίσης να αναπαρασταθεί ως

R = α 1 α 1" + α 2 α 2" + α 3 σε 3" + ... + a m a m" , (5.30)

εκείνοι. ως το άθροισμα των συνεισφορών καθενός από τα m κύρια συστατικά. Κάθε μία από αυτές τις συνεισφορές α ι α ι"μπορεί να γραφτεί ως μήτρα

A i1 2 a i1 a i2 a i1 a i3 ... a i1 a im

a i1 a i2 a i2 2 a i2 a i3 ... a i2 a im

α ι α ι"= a i1 a i3 a i2 a i3 a i3 2 ... a i3 a im , (5.31)

... ... ... ... ...

a i1 a im a i2 a im a i3 a im ... a im 2

στις διαγώνιες των οποίων τοποθετείται ένα ij 2 - συνεισφορές στη διακύμανση του j-ου αρχικού χαρακτηριστικού, και εκτός διαγώνιων στοιχείων a ij a ik - υπάρχουν παρόμοιες συνεισφορές στον συντελεστή συσχέτισης r jk του j-ου και k -η χαρακτηριστικά.

Μέθοδος κύριου συστατικού

Μέθοδος κύριου συστατικού(Αγγλικά) Ανάλυση κύριου συστατικού, PCA ) είναι ένας από τους κύριους τρόπους μείωσης της διάστασης των δεδομένων, χάνοντας τη μικρότερη ποσότητα πληροφοριών. Εφευρέθηκε από τον K. Pearson Καρλ Πίρσον ) in. Χρησιμοποιείται σε πολλούς τομείς, όπως η αναγνώριση προτύπων, η όραση υπολογιστή, η συμπίεση δεδομένων κ.λπ. Ο υπολογισμός των κύριων στοιχείων καταλήγει στον υπολογισμό των ιδιοδιανυσμάτων και των ιδιοτιμών του πίνακα συνδιακύμανσης των αρχικών δεδομένων. Μερικές φορές καλείται η μέθοδος του κύριου συστατικού Μεταμόρφωση Karhunen-Loeve(Αγγλικά) Karhunen-Loeve) ή τον μετασχηματισμό Hotelling (eng. Ξενοδοχειακή μεταμόρφωση). Άλλοι τρόποι μείωσης της διάστασης των δεδομένων είναι η μέθοδος των ανεξάρτητων στοιχείων, η πολυδιάστατη κλίμακα, καθώς και πολλές μη γραμμικές γενικεύσεις: η μέθοδος των κύριων καμπυλών και πολλαπλών, η μέθοδος των ελαστικών χαρτών, η αναζήτηση της καλύτερης προβολής (eng. Επιδίωξη προβολής), μεθόδους «συμφόρησης» νευρωνικών δικτύων κ.λπ.

Επίσημη δήλωση του προβλήματος

Το πρόβλημα ανάλυσης κύριου στοιχείου έχει τουλάχιστον τέσσερις βασικές εκδόσεις:

  • κατά προσέγγιση δεδομένα με γραμμικές πολλαπλές μικρότερης διάστασης.
  • βρείτε υποχώρους χαμηλότερης διάστασης, στην ορθογώνια προβολή στην οποία η εξάπλωση των δεδομένων (δηλαδή η τυπική απόκλιση από τη μέση τιμή) είναι μέγιστη.
  • Να βρείτε υποχώρους χαμηλότερης διάστασης, στην ορθογώνια προβολή πάνω στους οποίους η απόσταση ρίζας-μέση-τετράγωνο μεταξύ των σημείων είναι μέγιστη.
  • για μια δεδομένη πολυδιάστατη τυχαία μεταβλητή, κατασκευάστε έναν ορθογώνιο μετασχηματισμό συντεταγμένων έτσι ώστε, ως αποτέλεσμα, οι συσχετίσεις μεταξύ των επιμέρους συντεταγμένων να μηδενίζονται.

Οι τρεις πρώτες εκδόσεις λειτουργούν με πεπερασμένα σύνολα δεδομένων. Είναι ισοδύναμα και δεν χρησιμοποιούν καμία υπόθεση σχετικά με τη στατιστική παραγωγή των δεδομένων. Η τέταρτη έκδοση λειτουργεί με τυχαίες μεταβλητές. Τα πεπερασμένα σύνολα εμφανίζονται εδώ ως δείγματα από μια δεδομένη κατανομή και η λύση στα τρία πρώτα προβλήματα εμφανίζεται ως προσέγγιση στον «αληθινό» μετασχηματισμό Karhunen-Loeve. Αυτό εγείρει ένα πρόσθετο και όχι εντελώς ασήμαντο ερώτημα σχετικά με την ακρίβεια αυτής της προσέγγισης.

Προσέγγιση δεδομένων με γραμμικές πολλαπλές

Εικονογράφηση για το διάσημο έργο του K. Pearson (1901): δίνονται σημεία σε ένα επίπεδο, - η απόσταση από την ευθεία γραμμή. Αναζητούμε μια απευθείας γραμμή που ελαχιστοποιεί το άθροισμα

Η μέθοδος της κύριας συνιστώσας ξεκίνησε με το πρόβλημα της καλύτερης προσέγγισης ενός πεπερασμένου συνόλου σημείων κατά ευθείες και επίπεδα (K. Pearson, 1901). Δίνεται ένα πεπερασμένο σύνολο διανυσμάτων. Για κάθε γραμμική πολλαπλότητα όλων των διαστάσεων, βρείτε τέτοια ώστε το άθροισμα των τετραγωνικών αποκλίσεων από το να είναι ελάχιστο:

,

όπου είναι η Ευκλείδεια απόσταση από ένα σημείο σε μια γραμμική πολλαπλότητα. Οποιαδήποτε γραμμική πολλαπλότητα διαστάσεων μπορεί να οριστεί ως ένα σύνολο γραμμικών συνδυασμών, όπου οι παράμετροι τρέχουν κατά μήκος της πραγματικής γραμμής και είναι ένα ορθοκανονικό σύνολο διανυσμάτων

,

όπου ο Ευκλείδειος κανόνας είναι το Ευκλείδειο βαθμωτό γινόμενο ή σε συντεταγμένη μορφή:

.

Η λύση στο πρόβλημα της προσέγγισης για δίνεται από ένα σύνολο ένθετων γραμμικών πολλαπλών , . Αυτές οι γραμμικές πολλαπλότητες ορίζονται από ένα ορθοκανονικό σύνολο διανυσμάτων (διανύσματα κύριας συνιστώσας) και ένα διάνυσμα. Το διάνυσμα αναζητείται ως λύση στο πρόβλημα ελαχιστοποίησης για:

.

Τα διανύσματα των κύριων συστατικών μπορούν να βρεθούν ως λύσεις σε παρόμοια προβλήματα βελτιστοποίησης:

1) συγκεντρώστε τα δεδομένα (αφαίρεση του μέσου όρου): . Τώρα ; 2) βρείτε το πρώτο κύριο συστατικό ως λύση στο πρόβλημα. . Εάν η λύση δεν είναι μοναδική, τότε επιλέξτε μία από αυτές. 3) Αφαιρέστε από τα δεδομένα την προβολή στην πρώτη κύρια συνιστώσα: ; 4) βρείτε το δεύτερο κύριο στοιχείο ως λύση στο πρόβλημα. Εάν η λύση δεν είναι μοναδική, τότε επιλέξτε μία από αυτές. … 2k-1) Αφαιρέστε την προβολή από την κύρια συνιστώσα (θυμηθείτε ότι οι προβολές στις προηγούμενες κύριες συνιστώσες έχουν ήδη αφαιρεθεί): ; 2κ) βρείτε το kth κύριο συστατικό ως λύση στο πρόβλημα: . Εάν η λύση δεν είναι μοναδική, τότε επιλέξτε μία από αυτές. ...

Σε κάθε προπαρασκευαστικό βήμα, αφαιρούμε την προβολή στην προηγούμενη κύρια συνιστώσα. Τα διανύσματα που βρέθηκαν ορθοκανονικοποιούνται απλώς ως αποτέλεσμα της επίλυσης του περιγραφόμενου προβλήματος βελτιστοποίησης, ωστόσο, προκειμένου να αποφευχθούν σφάλματα υπολογισμού από τη διατάραξη της αμοιβαίας ορθογωνικότητας των διανυσμάτων των κύριων συστατικών, μπορούν να συμπεριληφθούν στις συνθήκες του προβλήματος βελτιστοποίησης.

Η μη μοναδικότητα στον ορισμό, πέρα ​​από την ασήμαντη αυθαιρεσία στην επιλογή του σημείου (και λύνουν το ίδιο πρόβλημα), μπορεί να είναι πιο σημαντική και να προκύπτει, για παράδειγμα, από τις συνθήκες συμμετρίας δεδομένων. Το τελευταίο κύριο συστατικό είναι ένα μοναδιαίο διάνυσμα ορθογώνιο σε όλα τα προηγούμενα.

Εύρεση ορθογώνιων προβολών με τη μεγαλύτερη σκέδαση

Το πρώτο κύριο συστατικό μεγιστοποιεί τη δειγματική διακύμανση της προβολής δεδομένων

Ας μας δοθεί ένα κεντραρισμένο σύνολο διανυσμάτων δεδομένων (ο αριθμητικός μέσος όρος είναι μηδέν). Ο στόχος είναι να βρεθεί ένας ορθογώνιος μετασχηματισμός σε ένα νέο σύστημα συντεταγμένων για το οποίο θα ισχύουν οι ακόλουθες συνθήκες:

Η θεωρία της αποσύνθεσης μοναδικής τιμής δημιουργήθηκε από τον J. J. Sylvester. Τζέιμς Τζόζεφ Σιλβέστερ ) στην πόλη και δηλώνεται σε όλα λεπτομερείς οδηγούςστη θεωρία των μητρών.

Ένας απλός επαναληπτικός αλγόριθμος αποσύνθεσης μοναδικής τιμής

Η κύρια διαδικασία είναι η αναζήτηση της καλύτερης προσέγγισης ενός αυθαίρετου πίνακα με έναν πίνακα της μορφής (όπου - -διάνυσμα διαστάσεων και - -διάνυσμα διαστάσεων) χρησιμοποιώντας τη μέθοδο ελαχίστων τετραγώνων:

Η λύση σε αυτό το πρόβλημα δίνεται με διαδοχικές επαναλήψεις χρησιμοποιώντας σαφείς τύπους. Για ένα σταθερό διάνυσμα, οι τιμές που παρέχουν ένα ελάχιστο στη φόρμα καθορίζονται μοναδικά και ρητά από τις ισότητες:

Ομοίως, με ένα σταθερό διάνυσμα, προσδιορίζονται οι τιμές:

Ως αρχική προσέγγιση του διανύσματος, παίρνουμε ένα τυχαίο διάνυσμα μοναδιαίου μήκους, υπολογίζουμε το διάνυσμα, μετά για αυτό το διάνυσμα υπολογίζουμε το διάνυσμα κ.λπ. Κάθε βήμα μειώνει την τιμή. Το κριτήριο διακοπής είναι η μικρότητα της σχετικής μείωσης της τιμής του βήματος ελαχιστοποιημένης συνάρτησης ανά επανάληψη () ή η μικρότητα της ίδιας της τιμής.

Ως αποτέλεσμα, αποκτήσαμε την καλύτερη προσέγγιση για τον πίνακα χρησιμοποιώντας έναν πίνακα της φόρμας (εδώ ο εκθέτης υποδηλώνει τον αριθμό προσέγγισης). Στη συνέχεια, αφαιρούμε τον προκύπτοντα πίνακα από τον πίνακα και για τον προκύπτον πίνακα απόκλισης αναζητούμε ξανά την καλύτερη προσέγγιση του ίδιου τύπου κ.λπ., έως ότου, για παράδειγμα, ο κανόνας γίνει αρκετά μικρός. Ως αποτέλεσμα, λάβαμε μια επαναληπτική διαδικασία για την αποσύνθεση ενός πίνακα με τη μορφή ενός αθροίσματος πινάκων της τάξης 1, δηλαδή, . Υποθέτουμε και κανονικοποιούμε τα διανύσματα: Ως αποτέλεσμα, προκύπτει μια προσέγγιση μοναδικών αριθμών και ενικών διανυσμάτων (δεξιά - και αριστερά -).

Στα πλεονεκτήματα αυτού του αλγορίθμου συγκαταλέγεται η εξαιρετική του απλότητα και η δυνατότητα μεταφοράς του σχεδόν χωρίς αλλαγές σε δεδομένα με κενά, καθώς και σταθμισμένα δεδομένα.

Υπάρχουν διάφορες τροποποιήσεις στον βασικό αλγόριθμο που βελτιώνουν την ακρίβεια και την ευρωστία. Για παράδειγμα, τα διανύσματα των κύριων συστατικών για διαφορετικά θα πρέπει να είναι ορθογώνια «κατά κατασκευή», ωστόσο, για μεγάλος αριθμόςεπαναλήψεις (υψηλή διάσταση, πολλά εξαρτήματα), μικρές αποκλίσεις από την ορθογωνικότητα συσσωρεύονται και μπορεί να απαιτείται ειδική διόρθωση σε κάθε βήμα για να εξασφαλιστεί η ορθογωνία της με τα κύρια στοιχεία που βρέθηκαν προηγουμένως.

Ενική αποσύνθεση τανυστών και η μέθοδος τανυστή των κύριων συνιστωσών

Συχνά το διάνυσμα δεδομένων έχει την πρόσθετη δομή ενός ορθογώνιου πίνακα (για παράδειγμα, μιας επίπεδης εικόνας) ή ακόμη και ενός πολυδιάστατου πίνακα - δηλαδή, ενός τανυστή: , . Σε αυτή την περίπτωση, είναι επίσης αποτελεσματική η χρήση της αποσύνθεσης μοναδικής τιμής. Ο ορισμός, οι βασικοί τύποι και οι αλγόριθμοι μεταφέρονται πρακτικά χωρίς αλλαγές: αντί για πίνακα δεδομένων, έχουμε μια τιμή δείκτη , όπου ο πρώτος δείκτης είναι ο αριθμός του σημείου δεδομένων (τανυστής).

Η κύρια διαδικασία είναι η αναζήτηση της καλύτερης προσέγγισης ενός τανυστή με έναν τανυστή της μορφής (όπου είναι ένα διάνυσμα διαστάσεων (είναι ο αριθμός των σημείων δεδομένων), είναι ένα διάνυσμα διάστασης στο ) χρησιμοποιώντας τη μέθοδο ελαχίστων τετραγώνων:

Η λύση σε αυτό το πρόβλημα δίνεται με διαδοχικές επαναλήψεις χρησιμοποιώντας σαφείς τύπους. Εάν δίνονται όλα τα διανύσματα παραγόντων εκτός από ένα, τότε αυτό το υπόλοιπο προσδιορίζεται ρητά από επαρκείς συνθήκες για το ελάχιστο.

Ως αρχική προσέγγιση των διανυσμάτων (), λαμβάνουμε τυχαία διανύσματα μοναδιαίου μήκους, υπολογίζουμε το διάνυσμα, στη συνέχεια για αυτό το διάνυσμα και αυτά τα διανύσματα υπολογίζουμε το διάνυσμα, κ.λπ. (κυκλικά επαναλαμβανόμενες μέσω των δεικτών) Κάθε βήμα μειώνει την τιμή του . Ο αλγόριθμος προφανώς συγκλίνει. Το κριτήριο διακοπής είναι η μικρότητα της σχετικής μείωσης της τιμής της ελαχιστοποιημένης συνάρτησης ανά κύκλο ή η μικρότητα της ίδιας της τιμής. Στη συνέχεια, αφαιρούμε την προκύπτουσα προσέγγιση από τον τανυστή και αναζητούμε ξανά την καλύτερη προσέγγιση του ίδιου τύπου για το υπόλοιπο κ.λπ., έως ότου, για παράδειγμα, ο κανόνας του επόμενου υπολοίπου γίνει αρκετά μικρός.

Αυτή η πολυσυστατική αποσύνθεση μονής τιμής (μέθοδος κύριας συνιστώσας τανυστή) χρησιμοποιείται με επιτυχία στην επεξεργασία εικόνων, σημάτων βίντεο και, ευρύτερα, οποιωνδήποτε δεδομένων έχουν δομή πίνακα ή τανυστή.

Πίνακας μετασχηματισμού στα κύρια στοιχεία

Ο πίνακας μετασχηματισμού δεδομένων σε κύριες συνιστώσες αποτελείται από διανύσματα των κύριων συνιστωσών, διατεταγμένα σε φθίνουσα σειρά ιδιοτιμών:

(σημαίνει μεταφορά),

Δηλαδή, ο πίνακας είναι ορθογώνιος.

Το μεγαλύτερο μέρος της παραλλαγής δεδομένων θα συγκεντρωθεί στις πρώτες συντεταγμένες, γεγονός που σας επιτρέπει να μετακινηθείτε σε χώρο χαμηλότερης διάστασης.

Υπολειμματική διακύμανση

Αφήστε τα δεδομένα να είναι κεντραρισμένα, . Κατά την αντικατάσταση διανυσμάτων δεδομένων με την προβολή τους στα πρώτα κύρια στοιχεία, εισάγεται το μέσο τετράγωνο σφάλμα ανά ένα διάνυσμα δεδομένων:

όπου είναι οι ιδιοτιμές του εμπειρικού πίνακα συνδιακύμανσης, ταξινομημένες σε φθίνουσα σειρά, λαμβάνοντας υπόψη την πολλαπλότητα.

Αυτή η ποσότητα ονομάζεται υπολειπόμενη διακύμανση. Μέγεθος

που ονομάζεται εξηγημένη διακύμανση. Το άθροισμά τους είναι ίσο με τη διακύμανση του δείγματος. Το αντίστοιχο τετράγωνο σχετικό σφάλμα είναι ο λόγος της υπολειπόμενης διακύμανσης προς τη διακύμανση του δείγματος (δηλ. αναλογία ανεξήγητης διακύμανσης):

Το σχετικό σφάλμα αξιολογεί τη δυνατότητα εφαρμογής της μεθόδου του κύριου στοιχείου με προβολή στα πρώτα στοιχεία.

Σχόλιο: Στους περισσότερους υπολογιστικούς αλγόριθμους, οι ιδιοτιμές με αντίστοιχα ιδιοδιανύσματα - κύρια συστατικά - υπολογίζονται με σειρά από το μεγαλύτερο στο μικρότερο. Για να τον υπολογίσουμε, αρκεί να υπολογίσουμε τις πρώτες ιδιοτιμές και το ίχνος του εμπειρικού πίνακα συνδιακύμανσης (το άθροισμα των διαγώνιων στοιχείων, δηλαδή οι διακυμάνσεις κατά μήκος των αξόνων). Επειτα

Επιλογή των κύριων συστατικών σύμφωνα με τον κανόνα του Kaiser

Η προσέγγιση στόχος για την εκτίμηση του αριθμού των κύριων συνιστωσών με βάση την απαιτούμενη αναλογία επεξηγημένης διακύμανσης είναι πάντα επίσημα εφαρμόσιμη, αλλά υποθέτει σιωπηρά ότι δεν υπάρχει διαχωρισμός σε "σήμα" και "θόρυβο" και οποιαδήποτε προκαθορισμένη ακρίβεια έχει νόημα. Επομένως, ένα άλλο ευρετικό είναι συχνά πιο παραγωγικό, με βάση την υπόθεση της παρουσίας ενός «σήματος» (σχετικά μικρής διάστασης, σχετικά μεγάλου πλάτους) και «θορύβου» (μεγάλη διάσταση, σχετικά μικρό πλάτος). Από αυτή την άποψη, η μέθοδος του κύριου στοιχείου λειτουργεί σαν φίλτρο: το σήμα περιέχεται κυρίως στην προβολή στα πρώτα κύρια εξαρτήματα και η αναλογία θορύβου στα υπόλοιπα στοιχεία είναι πολύ μεγαλύτερη.

Ερώτηση: πώς να υπολογίσετε τον αριθμό των απαιτούμενων κύριων εξαρτημάτων εάν η αναλογία σήματος προς θόρυβο είναι άγνωστη εκ των προτέρων;

Η απλούστερη και παλαιότερη μέθοδος για την επιλογή των κύριων εξαρτημάτων δίνει Κανόνας Κάιζερ(Αγγλικά) Ο κανόνας του Κάιζερ): εκείνα τα κύρια συστατικά είναι σημαντικά για τα οποία

υπερβαίνει δηλαδή τον μέσο όρο (μέση διακύμανση δείγματος των συντεταγμένων του διανύσματος δεδομένων). Ο κανόνας του Kaiser λειτουργεί καλά σε απλές περιπτώσεις όπου υπάρχουν πολλά κύρια στοιχεία με , πολύ μεγαλύτερα από τον μέσο όρο, και οι υπόλοιπες ιδιοτιμές είναι μικρότερες από αυτό. Σε πιο περίπλοκες περιπτώσεις, μπορεί να παράγει πάρα πολλά σημαντικά κύρια συστατικά. Εάν τα δεδομένα κανονικοποιηθούν σε μονάδα διακύμανσης δείγματος κατά μήκος των αξόνων, τότε ο κανόνας του Kaiser παίρνει μια ιδιαίτερα απλή μορφή: μόνο εκείνα τα κύρια στοιχεία για τα οποία

Εκτίμηση του αριθμού των κύριων εξαρτημάτων με χρήση του διακεκομμένου κανόνα του ζαχαροκάλαμου

Παράδειγμα: εκτίμηση του αριθμού των κύριων εξαρτημάτων χρησιμοποιώντας τον κανόνα σπασμένο μπαστούνι στη διάσταση 5.

Μία από τις πιο δημοφιλείς ευρετικές προσεγγίσεις για την εκτίμηση του αριθμού των απαιτούμενων κύριων στοιχείων είναι σπασμένος κανόνας μπαστούνι(Αγγλικά) Μοντέλο σπασμένο μπαστούνι) . Το σύνολο των ιδιοτιμών που κανονικοποιούνται στο μοναδιαίο άθροισμα (, ) συγκρίνεται με την κατανομή των μηκών θραυσμάτων ενός ζαχαροκάλαμου μοναδιαίου μήκους που έχει σπάσει στο τυχαία επιλεγμένο σημείο (τα σημεία θραύσης επιλέγονται ανεξάρτητα και κατανέμονται εξίσου σε όλο το μήκος του το μπαστούνι). Έστω () τα μήκη των κομματιών ζαχαροκάλαμου που προκύπτουν, αριθμημένα με φθίνουσα σειρά μήκους: . Δεν είναι δύσκολο να βρεις τη μαθηματική προσδοκία:

Σύμφωνα με τον κανόνα σπασμένου ζαχαροκάλαμου, το ου ιδιοδιάνυσμα (σε φθίνουσα σειρά ιδιοτιμών) αποθηκεύεται στη λίστα των κύριων συνιστωσών εάν

Στο Σχ. Δίνεται ένα παράδειγμα για την περίπτωση των 5 διαστάσεων:

=(1+1/2+1/3+1/4+1/5)/5; =(1/2+1/3+1/4+1/5)/5; =(1/3+1/4+1/5)/5; =(1/4+1/5)/5; =(1/5)/5.

Για παράδειγμα, επιλεγμένο

=0.5; =0.3; =0.1; =0.06; =0.04.

Σύμφωνα με τον κανόνα του σπασμένου ζαχαροκάλαμου, σε αυτό το παράδειγμα πρέπει να αφήσετε 2 κύρια στοιχεία:

Σύμφωνα με τις αξιολογήσεις των χρηστών, ο σπασμένος κανόνας του ζαχαροκάλαμου τείνει να υποτιμά τον αριθμό των σημαντικών κύριων στοιχείων.

Ομαλοποίηση

Κανονικοποίηση μετά από αναγωγή στα κύρια συστατικά

Μετάπροβολή στα πρώτα κύρια στοιχεία με αυτό είναι βολικό να ομαλοποιηθεί σε μονάδα (δείγμα) διακύμανση κατά μήκος των αξόνων. Η διασπορά κατά μήκος της κύριας συνιστώσας είναι ίση με ), οπότε για κανονικοποίηση είναι απαραίτητο να διαιρέσουμε την αντίστοιχη συντεταγμένη με . Αυτός ο μετασχηματισμός δεν είναι ορθογώνιος και δεν διατηρεί το γινόμενο κουκίδων. Ο πίνακας συνδιακύμανσης της προβολής δεδομένων μετά την κανονικοποίηση γίνεται μονάδα, οι προβολές σε οποιεσδήποτε δύο ορθογώνιες κατευθύνσεις γίνονται ανεξάρτητες ποσότητες και οποιαδήποτε ορθοκανονική βάση γίνεται η βάση των κύριων συνιστωσών (θυμηθείτε ότι η κανονικοποίηση αλλάζει τη σχέση ορθογωνικότητας των διανυσμάτων). Η αντιστοίχιση από τον χώρο δεδομένων πηγής στα πρώτα κύρια στοιχεία, μαζί με την κανονικοποίηση, καθορίζεται από τον πίνακα

.

Είναι αυτός ο μετασχηματισμός που ονομάζεται συνήθως μετασχηματισμός Karhunen-Loeve. Εδώ είναι διανύσματα στηλών και ο εκθέτης σημαίνει μετατόπιση.

Κανονικοποίηση πριν από τον υπολογισμό των κύριων συνιστωσών

Προειδοποίηση: δεν πρέπει να συγχέουμε την κανονικοποίηση που πραγματοποιείται μετά τη μετατροπή στα κύρια στοιχεία με την κανονικοποίηση και τη «μη διαστασιοποίηση» όταν προεπεξεργασία δεδομένων, πραγματοποιείται πριν από τον υπολογισμό των κύριων συνιστωσών. Απαιτείται προκαταρκτική κανονικοποίηση για να γίνει μια λογική επιλογή της μέτρησης στην οποία θα υπολογιστεί η καλύτερη προσέγγιση των δεδομένων ή θα αναζητηθούν οι κατευθύνσεις της μεγαλύτερης διασποράς (που είναι ισοδύναμο). Για παράδειγμα, εάν τα δεδομένα είναι τρισδιάστατα διανύσματα «μέτρων, λίτρων και χιλιογράμμων», τότε χρησιμοποιώντας την τυπική Ευκλείδεια απόσταση, μια διαφορά 1 μέτρου στην πρώτη συντεταγμένη θα συνεισφέρει το ίδιο με μια διαφορά 1 λίτρου στη δεύτερη, ή 1 κιλό στο τρίτο . Συνήθως, τα συστήματα των μονάδων στα οποία παρουσιάζονται τα αρχικά δεδομένα δεν αντικατοπτρίζουν επακριβώς τις ιδέες μας για τις φυσικές κλίμακες κατά μήκος των αξόνων και πραγματοποιείται "χωρίς διάσταση": κάθε συντεταγμένη χωρίζεται σε μια συγκεκριμένη κλίμακα που καθορίζεται από τα δεδομένα, τους σκοπούς της επεξεργασίας τους και των διαδικασιών μέτρησης και συλλογής δεδομένων.

Υπάρχουν τρεις σημαντικά διαφορετικές τυπικές προσεγγίσεις για μια τέτοια κανονικοποίηση: διακύμανση μονάδαςκατά μήκος των αξόνων (οι κλίμακες κατά μήκος των αξόνων είναι ίσες με τις μέσες τετραγωνικές αποκλίσεις - μετά από αυτόν τον μετασχηματισμό, ο πίνακας συνδιακύμανσης συμπίπτει με τον πίνακα των συντελεστών συσχέτισης), ίση ακρίβεια μέτρησης(η κλίμακα κατά μήκος του άξονα είναι ανάλογη με την ακρίβεια μέτρησης μιας δεδομένης τιμής) και επάνω ίσες απαιτήσειςστο πρόβλημα (η κλίμακα κατά μήκος του άξονα καθορίζεται από την απαιτούμενη ακρίβεια της πρόβλεψης μιας δεδομένης τιμής ή την επιτρεπόμενη παραμόρφωσή της - το επίπεδο ανοχής). Η επιλογή της προεπεξεργασίας επηρεάζεται από την ουσιαστική διατύπωση του προβλήματος, καθώς και από τις συνθήκες συλλογής δεδομένων (για παράδειγμα, εάν η συλλογή δεδομένων είναι ουσιαστικά ελλιπής και τα δεδομένα θα εξακολουθούν να λαμβάνονται, τότε είναι παράλογο να επιλέγουμε την κανονικοποίηση αυστηρά στη μονάδα διακύμανση, ακόμα κι αν αυτό αντιστοιχεί στο νόημα του προβλήματος, καθώς αυτό περιλαμβάνει επανακανονικοποίηση όλων των δεδομένων μετά τη λήψη ενός νέου τμήματος· είναι πιο λογικό να επιλέξετε κάποια κλίμακα που να υπολογίζει χονδρικά τυπική απόκλιση, και μην το αλλάξετε περαιτέρω).

Η προ-κανονικοποίηση στη διακύμανση μονάδας κατά μήκος των αξόνων καταστρέφεται με την περιστροφή του συστήματος συντεταγμένων εάν οι άξονες δεν είναι κύρια στοιχεία και η κανονικοποίηση κατά την προεπεξεργασία δεδομένων δεν αντικαθιστά την κανονικοποίηση μετά την κανονικοποίηση στα κύρια στοιχεία.

Μηχανική αναλογία και ανάλυση κύριων συστατικών για σταθμισμένα δεδομένα

Εάν αντιστοιχίσουμε μια μονάδα μάζας σε κάθε διάνυσμα δεδομένων, τότε ο εμπειρικός πίνακας συνδιακύμανσης συμπίπτει με τον τανυστή αδράνειας αυτού του συστήματος σημειακής μάζας (διαιρούμενος με τη συνολική μάζα) και το πρόβλημα των κύριων συστατικών συμπίπτει με το πρόβλημα της μείωσης του τανυστή αδράνειας σε τους κύριους άξονες. Μπορείτε να χρησιμοποιήσετε πρόσθετη ελευθερία στην επιλογή τιμών μάζας για να λάβετε υπόψη τη σημασία των σημείων δεδομένων ή την αξιοπιστία των τιμών τους (σε σημαντικά δεδομένα ή δεδομένα από πιο αξιόπιστες πηγές εκχωρούνται μεγαλύτερες μάζες). Αν στο διάνυσμα δεδομένων δίνεται μάζα,τότε αντί για τον εμπειρικό πίνακα συνδιακύμανσης παίρνουμε

Όλες οι περαιτέρω εργασίες για αναγωγή στα κύρια συστατικά εκτελούνται με τον ίδιο τρόπο όπως στην κύρια έκδοση της μεθόδου: αναζητούμε μια ορθοκανονική ιδιοβάση, την ταξινομούμε με φθίνουσα σειρά ιδιοτιμών, υπολογίζουμε το σταθμισμένο μέσο σφάλμα της προσέγγισης δεδομένων με το πρώτα συστατικά (με βάση τα αθροίσματα ιδιοτιμών), κανονικοποίηση κ.λπ. .

Μια γενικότερη μέθοδος ζύγισης δίνει μεγιστοποιώντας το σταθμισμένο άθροισμα των αποστάσεων κατά ζεύγημεταξύ των προβολών. Για κάθε δύο σημεία δεδομένων, εισάγεται ένα βάρος. Και . Αντί του εμπειρικού πίνακα συνδιακύμανσης, χρησιμοποιούμε

Όταν ο συμμετρικός πίνακας είναι θετικός ορισμένος, αφού η τετραγωνική μορφή είναι θετική:

Στη συνέχεια, αναζητούμε μια ορθοκανονική ιδιοβάση, την τακτοποιούμε με φθίνουσα σειρά ιδιοτιμών, υπολογίζουμε το σταθμισμένο μέσο σφάλμα προσέγγισης δεδομένων από τα πρώτα συστατικά κ.λπ. - ακριβώς όπως στον κύριο αλγόριθμο.

Αυτή η μέθοδος χρησιμοποιείται αν υπάρχουν τάξεις: για διαφορετικές κατηγορίες το βάρος επιλέγεται να είναι μεγαλύτερο από ό,τι για βαθμούς της ίδιας κατηγορίας. Ως αποτέλεσμα, στην προβολή στα σταθμισμένα κύρια στοιχεία, οι διαφορετικές κατηγορίες «απομακρύνονται» κατά μεγαλύτερη απόσταση.

Άλλες χρήσεις - μείωση των επιπτώσεων μεγάλων αποκλίσεων(outlayers, αγγλικά) Εξωφρενικό ), το οποίο μπορεί να παραμορφώσει την εικόνα λόγω της χρήσης της μέσης τετραγωνικής απόστασης ρίζας: εάν επιλέξετε , η επίδραση των μεγάλων αποκλίσεων θα μειωθεί. Έτσι, η περιγραφόμενη τροποποίηση της μεθόδου του κύριου συστατικού είναι πιο ισχυρή από την κλασική.

Ειδική ορολογία

Στις στατιστικές, όταν χρησιμοποιείται η μέθοδος του κύριου συστατικού, χρησιμοποιούνται αρκετοί ειδικοί όροι.

Πίνακας Δεδομένων; κάθε γραμμή είναι ένα διάνυσμα προεπεξεργασμένοδεδομένα ( κεντραρισμένοςκαι σωστά τυποποιημένη), αριθμός σειρών - (αριθμός διανυσμάτων δεδομένων), αριθμός στηλών - (διάσταση χώρου δεδομένων).

Φόρτωση πίνακα(Φορτώσεις) ; κάθε στήλη είναι ένα διάνυσμα των κύριων στοιχείων, ο αριθμός των σειρών είναι (η διάσταση του χώρου δεδομένων), ο αριθμός των στηλών είναι (ο αριθμός των διανυσμάτων των κύριων στοιχείων που επιλέχθηκαν για προβολή).

Πίνακας λογαριασμού(Βαθμολογίες) Κάθε γραμμή είναι μια προβολή του διανύσματος δεδομένων στα κύρια στοιχεία. αριθμός σειρών - (αριθμός διανυσμάτων δεδομένων), αριθμός στηλών - (αριθμός διανυσμάτων κύριας συνιστώσας που επιλέχθηκαν για προβολή).

Πίνακας βαθμολογίας Z(Ζ-βαθμολογίες); Κάθε γραμμή είναι μια προβολή του διανύσματος δεδομένων στα κύρια στοιχεία, κανονικοποιημένη στη διακύμανση του δείγματος μονάδας. αριθμός σειρών - (αριθμός διανυσμάτων δεδομένων), αριθμός στηλών - (αριθμός διανυσμάτων κύριας συνιστώσας που επιλέχθηκαν για προβολή).

Πίνακας σφαλμάτωναποφάγια) (Σφάλματα ή υπολείμματα) .

Βασικός τύπος:

Όρια εφαρμογής και περιορισμοί αποτελεσματικότητας της μεθόδου

Η μέθοδος του κύριου συστατικού είναι πάντα εφαρμόσιμη. Ο κοινός ισχυρισμός ότι ισχύει μόνο για κανονικά κατανεμημένα δεδομένα (ή για κατανομές κοντά στο κανονικό) είναι εσφαλμένος: στην αρχική διατύπωση του K. Pearson το πρόβλημα τίθεται: προσεγγίσειςπεπερασμένο σύνολο δεδομένων και δεν υπάρχει καν υπόθεση για τη στατιστική τους παραγωγή, για να μην αναφέρουμε την κατανομή τους.

Ωστόσο, η μέθοδος δεν είναι πάντα αποτελεσματική στη μείωση της διάστασης δεδομένων των περιορισμών ακρίβειας. Οι ευθείες γραμμές και τα επίπεδα δεν παρέχουν πάντα καλή προσέγγιση. Για παράδειγμα, τα δεδομένα μπορεί να ακολουθούν μια καμπύλη με καλή ακρίβεια, αλλά αυτή η καμπύλη μπορεί να είναι δύσκολο να εντοπιστεί στο χώρο δεδομένων. Σε αυτήν την περίπτωση, η μέθοδος του κύριου στοιχείου για αποδεκτή ακρίβεια θα απαιτήσει πολλά στοιχεία (αντί για ένα) ή δεν θα μειώσει καθόλου τη διάσταση με αποδεκτή ακρίβεια. Για την αντιμετώπιση τέτοιων "καμπύλων" κύριων συνιστωσών, εφευρέθηκε η μέθοδος της κύριας πολλαπλής και διάφορες εκδόσεις της μεθόδου μη γραμμικής κύριας συνιστώσας. Τα σύνθετα δεδομένα τοπολογίας μπορούν να προκαλέσουν περισσότερα προβλήματα. Έχουν επίσης εφευρεθεί διάφορες μέθοδοι για την προσέγγισή τους, όπως αυτοοργάνωση χαρτών Kohonen, νευρικό αέριο ή τοπολογικές γραμματικές. Εάν τα δεδομένα παράγονται στατιστικά με μια κατανομή που είναι πολύ διαφορετική από την κανονική, τότε για να προσεγγίσετε την κατανομή είναι χρήσιμο να μετακινηθείτε από τα κύρια στοιχεία σε ανεξάρτητα εξαρτήματα, τα οποία δεν είναι πλέον ορθογώνια στο αρχικό βαθμωτό γινόμενο. Τέλος, για ισότροπη κατανομή (έστω και κανονική), αντί για ένα ελλειψοειδές σκέδασης παίρνουμε μια μπάλα και είναι αδύνατο να μειωθεί η διάσταση με μεθόδους προσέγγισης.

Παραδείγματα χρήσης

Οπτικοποίηση δεδομένων

Η οπτικοποίηση δεδομένων είναι μια οπτική αναπαράσταση πειραματικών δεδομένων ή των αποτελεσμάτων θεωρητικής έρευνας.

Η πρώτη επιλογή στην οπτικοποίηση ενός συνόλου δεδομένων είναι να προβάλλετε ορθογώνια σε ένα επίπεδο τα δύο πρώτα κύρια στοιχεία (ή ο τρισδιάστατος χώρος του πρώτου τρεις κύριεςσυστατικό). Το επίπεδο σχεδίασης είναι ουσιαστικά μια επίπεδη δισδιάστατη «οθόνη» τοποθετημένη με τέτοιο τρόπο ώστε να παρέχει μια «εικόνα» των δεδομένων με τη μικρότερη παραμόρφωση. Μια τέτοια προβολή θα είναι βέλτιστη (μεταξύ όλων των ορθογώνιων προβολών σε διαφορετικές δισδιάστατες οθόνες) από τρεις απόψεις:

  1. Το άθροισμα των τετραγώνων των αποστάσεων από τα σημεία δεδομένων έως τις προβολές στο επίπεδο των πρώτων κύριων συνιστωσών είναι ελάχιστο, δηλαδή η οθόνη βρίσκεται όσο το δυνατόν πιο κοντά στο νέφος των σημείων.
  2. Το άθροισμα των παραμορφώσεων των τετραγωνικών αποστάσεων μεταξύ όλων των ζευγών σημείων από το σύννεφο δεδομένων μετά την προβολή των σημείων στο επίπεδο είναι ελάχιστο.
  3. Το άθροισμα των παραμορφώσεων των τετραγωνικών αποστάσεων μεταξύ όλων των σημείων δεδομένων και του «κέντρου βάρους» τους είναι ελάχιστο.

Η οπτικοποίηση δεδομένων είναι μια από τις πιο ευρέως χρησιμοποιούμενες εφαρμογές της ανάλυσης κύριων συνιστωσών και των μη γραμμικών γενικεύσεών της.

Συμπίεση εικόνας και βίντεο

Για να μειωθεί ο χωρικός πλεονασμός των pixel κατά την κωδικοποίηση εικόνων και βίντεο, χρησιμοποιούνται γραμμικοί μετασχηματισμοί μπλοκ pixel. Η επακόλουθη κβαντοποίηση των λαμβανόμενων συντελεστών και η κωδικοποίηση χωρίς απώλειες επιτρέπουν σε κάποιον να αποκτήσει σημαντικούς λόγους συμπίεσης. Η χρήση του μετασχηματισμού PCA ως γραμμικού μετασχηματισμού είναι, για ορισμένους τύπους δεδομένων, η βέλτιστη από την άποψη του μεγέθους των δεδομένων που προκύπτουν διατηρώντας την ίδια παραμόρφωση. Προς το παρόν, αυτή η μέθοδος δεν χρησιμοποιείται ενεργά, κυρίως λόγω της υψηλής υπολογιστικής πολυπλοκότητάς της. Η συμπίεση δεδομένων μπορεί επίσης να επιτευχθεί με την απόρριψη των τελευταίων συντελεστών μετατροπής.

Μειώστε το θόρυβο στις εικόνες

Χημειομετρία

Η μέθοδος του κύριου συστατικού είναι μία από τις κύριες μεθόδους στη χημειομετρία. Χημειομετρία ). Σας επιτρέπει να διαιρέσετε τον πίνακα δεδομένων πηγής X σε δύο μέρη: "με νόημα" και "θόρυβος". Σύμφωνα με τον πιο δημοφιλή ορισμό, «Η χημειομετρία είναι ένας χημικός κλάδος που εφαρμόζει μαθηματικές, στατιστικές και άλλες μεθόδους που βασίζονται στην τυπική λογική για την κατασκευή ή την επιλογή βέλτιστων μεθόδων μέτρησης και πειραματικών σχεδίων, καθώς και για την εξαγωγή των πιο σημαντικών πληροφοριών στην ανάλυση πειραματικών δεδομένα."

Ψυχοδιαγνωστικά

  1. ανάλυση δεδομένων (περιγραφή των αποτελεσμάτων ερευνών ή άλλων μελετών που παρουσιάζονται με τη μορφή αριθμητικών πινάκων δεδομένων).
  2. περιγραφή κοινωνικών φαινομένων (κατασκευή μοντέλων φαινομένων, συμπεριλαμβανομένων μαθηματικών μοντέλων).

Στην πολιτική επιστήμη, η μέθοδος του κύριου συστατικού ήταν το κύριο εργαλείο του έργου «Πολιτικός Άτλας της Νεωτερικότητας» για γραμμική και μη γραμμική ανάλυση αξιολογήσεων 192 χωρών του κόσμου σύμφωνα με πέντε ειδικά αναπτυγμένους ολοκληρωμένους δείκτες (πρότυπο ζωής, διεθνής επιρροή, απειλές , κρατισμός και δημοκρατία). Για τη χαρτογράφηση των αποτελεσμάτων αυτής της ανάλυσης, έχει αναπτυχθεί ένα ειδικό GIS (Σύστημα Γεωγραφικών Πληροφοριών) που συνδυάζει τον γεωγραφικό χώρο με τον χώρο χαρακτηριστικών. Οι χάρτες δεδομένων πολιτικού άτλαντα έχουν επίσης δημιουργηθεί χρησιμοποιώντας δισδιάστατες κύριες πολλαπλότητες στον πενταδιάστατο χώρο των χωρών ως βάση. Η διαφορά μεταξύ ενός χάρτη δεδομένων και ενός γεωγραφικού χάρτη είναι αυτή γεωγραφικό χάρτηαντικείμενα που έχουν παρόμοιες γεωγραφικές συντεταγμένες εμφανίζονται κοντά, ενώ στον χάρτη δεδομένων υπάρχουν αντικείμενα (χώρες) με παρόμοια χαρακτηριστικά (δείκτες) κοντά.