Πολυδιάστατη κλιμάκωση: ορισμός, στόχοι, στόχοι και παράδειγμα

Πίνακας περιεχομένων:

Πολυδιάστατη κλιμάκωση: ορισμός, στόχοι, στόχοι και παράδειγμα
Πολυδιάστατη κλιμάκωση: ορισμός, στόχοι, στόχοι και παράδειγμα
Anonim

Η πολυπαραγοντική κλιμάκωση (MDS) είναι ένα εργαλείο για την οπτικοποίηση του επιπέδου ομοιότητας των μεμονωμένων περιπτώσεων σε ένα σύνολο δεδομένων. Αναφέρεται σε ένα σύνολο σχετικών μεθόδων χειροτονίας που χρησιμοποιούνται στην οπτικοποίηση πληροφοριών, ιδίως για την εμφάνιση των πληροφοριών που περιέχονται σε έναν πίνακα απόστασης. Αυτή είναι μια μορφή μη γραμμικής μείωσης διαστάσεων. Ο αλγόριθμος MDS στοχεύει να τοποθετήσει κάθε αντικείμενο σε ένα χώρο Ν-διάστασης με τέτοιο τρόπο ώστε οι αποστάσεις μεταξύ των αντικειμένων να διατηρούνται όσο το δυνατόν καλύτερα. Στη συνέχεια, σε κάθε αντικείμενο εκχωρούνται συντεταγμένες σε κάθε μία από τις διαστάσεις N.

Ο αριθμός των διαστάσεων του γραφήματος MDS μπορεί να υπερβαίνει τις 2 και καθορίζεται εκ των προτέρων. Η επιλογή N=2 βελτιστοποιεί την τοποθέτηση αντικειμένων για το 2D scatterplot. Μπορείτε να δείτε παραδείγματα πολυδιάστατης κλιμάκωσης στις εικόνες του άρθρου. Τα παραδείγματα με σύμβολα στα ρωσικά είναι ιδιαίτερα ενδεικτικά.

Πολυδιάστατη κλιμάκωση
Πολυδιάστατη κλιμάκωση

Essence

Μέθοδος πολυδιάστατης κλιμάκωσης (MMS,MDS) είναι ένα εκτεταμένο σύνολο κλασικών εργαλείων που γενικεύει τη διαδικασία βελτιστοποίησης για ένα σύνολο συναρτήσεων απώλειας και πίνακες εισόδου γνωστών αποστάσεων με βάρη και ούτω καθεξής. Σε αυτό το πλαίσιο, μια χρήσιμη συνάρτηση απώλειας ονομάζεται άγχος, η οποία συχνά ελαχιστοποιείται με μια διαδικασία που ονομάζεται μείζονα πίεσης.

Εγχειρίδιο

Υπάρχουν πολλές επιλογές για πολυδιάστατη κλιμάκωση. Τα προγράμματα MDS ελαχιστοποιούν αυτόματα το φορτίο για να βρουν λύση. Ο πυρήνας του μη μετρικού αλγορίθμου MDS είναι μια διττή διαδικασία βελτιστοποίησης. Αρχικά, πρέπει να βρεθεί ο βέλτιστος μετασχηματισμός μονοτονικής εγγύτητας. Δεύτερον, τα σημεία διαμόρφωσης πρέπει να είναι βέλτιστα τοποθετημένα έτσι ώστε οι αποστάσεις τους να ταιριάζουν με τις κλιμακούμενες τιμές εγγύτητας όσο το δυνατόν περισσότερο.

Παράδειγμα πολυδιάστατης κλιμάκωσης
Παράδειγμα πολυδιάστατης κλιμάκωσης

Επέκταση

Μια επέκταση της μετρικής πολυδιάστατης κλίμακας στα στατιστικά στοιχεία όπου ο χώρος στόχος είναι ένας αυθαίρετος ομαλός μη Ευκλείδειος χώρος. Όπου οι διαφορές είναι αποστάσεις σε μια επιφάνεια και ο χώρος στόχος είναι διαφορετική επιφάνεια. Τα θεματικά προγράμματα σάς επιτρέπουν να βρείτε ένα συνημμένο με ελάχιστη παραμόρφωση μιας επιφάνειας σε μια άλλη.

Βήματα

Υπάρχουν πολλά βήματα για τη διεξαγωγή μιας μελέτης χρησιμοποιώντας κλιμάκωση πολλαπλών μεταβλητών:

  1. Διατύπωση του προβλήματος. Ποιες μεταβλητές θέλετε να συγκρίνετε; Πόσες μεταβλητές θέλετε να συγκρίνετε; Για ποιο σκοπό θα χρησιμοποιηθεί η μελέτη;
  2. Λήψη δεδομένων εισόδου. Στους ερωτώμενους τίθεται μια σειρά ερωτήσεων. Για κάθε ζεύγος προϊόντων, τους ζητείται να βαθμολογήσουν την ομοιότητα (συνήθως σε μια κλίμακα Likert 7 βαθμών από πολύ παρόμοια έως πολύ ανόμοια). Η πρώτη ερώτηση θα μπορούσε να είναι για την Coca-Cola/Pepsi, για παράδειγμα, η επόμενη για την μπύρα, η επόμενη για τον Dr. Pepper, κ.λπ. Ο αριθμός των ερωτήσεων εξαρτάται από τον αριθμό των εμπορικών σημάτων.
Κλιμάκωση απόστασης
Κλιμάκωση απόστασης

Εναλλακτικές προσεγγίσεις

Υπάρχουν δύο άλλες προσεγγίσεις. Υπάρχει μια τεχνική που ονομάζεται «Αντιληπτικά Δεδομένα: Παράγωγη Προσέγγιση» στην οποία τα προϊόντα αποσυντίθενται σε χαρακτηριστικά και η αξιολόγηση γίνεται σε σημασιολογική διαφορική κλίμακα. Μια άλλη μέθοδος είναι η «προσέγγιση δεδομένων προτίμησης», στην οποία οι ερωτηθέντες ερωτώνται για προτιμήσεις και όχι για ομοιότητες.

Αποτελείται από τα ακόλουθα βήματα:

  1. Εκκίνηση του στατιστικού προγράμματος MDS. Λογισμικό για την εκτέλεση της διαδικασίας είναι διαθέσιμο σε πολλά πακέτα στατιστικών λογισμικού. Υπάρχει συχνά μια επιλογή μεταξύ μετρικού MDS (που αφορά δεδομένα επιπέδου διαστήματος ή αναλογίας) και μη μετρικού MDS (που αφορά τα τακτικά δεδομένα).
  2. Προσδιορισμός του αριθμού των μετρήσεων. Ο ερευνητής πρέπει να καθορίσει τον αριθμό των μετρήσεων που θέλει να δημιουργήσει στον υπολογιστή. Όσο περισσότερες μετρήσεις, τόσο καλύτερη είναι η στατιστική προσαρμογή, αλλά τόσο πιο δύσκολη είναι η ερμηνεία των αποτελεσμάτων.
  3. Εμφάνιση αποτελεσμάτων και ορισμός μετρήσεων - το στατιστικό πρόγραμμα (ή σχετική ενότητα) θα εμφανίσει τα αποτελέσματα. Ο χάρτης θα εμφανίζει κάθε προϊόν (συνήθως σε 2D).χώρος). Η εγγύτητα των προϊόντων μεταξύ τους υποδηλώνει είτε την ομοιότητα είτε την προτίμησή τους, ανάλογα με την προσέγγιση που χρησιμοποιήθηκε. Ωστόσο, το πώς οι μετρήσεις αντιστοιχούν πραγματικά στις μετρήσεις της συμπεριφοράς του συστήματος δεν είναι πάντα σαφές. Μια υποκειμενική κρίση συμμόρφωσης μπορεί να γίνει εδώ.
  4. Ελέγξτε τα αποτελέσματα ως προς την αξιοπιστία και την εγκυρότητα - υπολογίστε το R-τετράγωνο για να προσδιορίσετε την αναλογία της κλιμακούμενης διακύμανσης δεδομένων που μπορεί να υπολογιστεί με τη διαδικασία MDS. Το τετράγωνο R 0,6 θεωρείται το ελάχιστο αποδεκτό επίπεδο. Το R τετράγωνο 0,8 θεωρείται καλό για μετρική κλίμακα, ενώ το 0,9 θεωρείται καλό για μη μετρική κλίμακα.
Αποτελέσματα κλιμάκωσης πολλαπλών μεταβλητών
Αποτελέσματα κλιμάκωσης πολλαπλών μεταβλητών

Διάφορες δοκιμές

Άλλες πιθανές δοκιμές είναι οι δοκιμές ακραίων καταστάσεων τύπου Kruskal, οι δοκιμές διαχωρισμού δεδομένων, οι δοκιμές σταθερότητας δεδομένων και οι δοκιμές αξιοπιστίας εκ νέου. Γράψτε αναλυτικά για τα αποτελέσματα στο τεστ. Μαζί με τη χαρτογράφηση, θα πρέπει να καθοριστεί τουλάχιστον ένα μέτρο απόστασης (π.χ. δείκτης Sorenson, δείκτης Jaccard) και αξιοπιστίας (π.χ. τιμή τάσης).

Είναι επίσης πολύ επιθυμητό να δώσετε έναν αλγόριθμο (π.χ. Kruskal, Mather) που συχνά καθορίζεται από το πρόγραμμα που χρησιμοποιείται (μερικές φορές αντικαθιστά την αναφορά αλγορίθμου), εάν έχετε δώσει μια αρχική διαμόρφωση ή είχατε μια τυχαία επιλογή, αριθμό των σειρών διαστάσεων, των αποτελεσμάτων Monte Carlo, του αριθμού των επαναλήψεων, της βαθμολογίας σταθερότητας και της αναλογικής διακύμανσης κάθε άξονα (r-τετράγωνο).

Μέθοδος ανάλυσης οπτικών πληροφοριών και δεδομένωνπολυδιάστατη κλιμάκωση

Οπτικοποίηση πληροφοριών είναι η μελέτη διαδραστικών (οπτικών) αναπαραστάσεων αφηρημένων δεδομένων για την ενίσχυση της ανθρώπινης γνώσης. Τα αφηρημένα δεδομένα περιλαμβάνουν τόσο αριθμητικά όσο και μη αριθμητικά δεδομένα, όπως κειμενικές και γεωγραφικές πληροφορίες. Ωστόσο, η οπτικοποίηση πληροφοριών διαφέρει από την επιστημονική οπτικοποίηση: "είναι πληροφοριακή (οπτικοποίηση πληροφοριών) όταν επιλέγεται μια χωρική αναπαράσταση και scivis (επιστημονική απεικόνιση) όταν δίνεται μια χωρική αναπαράσταση."

Το πεδίο της οπτικοποίησης πληροφοριών προέκυψε από την έρευνα στην αλληλεπίδραση ανθρώπου-υπολογιστή, εφαρμογές επιστήμης υπολογιστών, γραφικά, οπτικό σχέδιο, ψυχολογία και επιχειρηματικές μεθόδους. Χρησιμοποιείται όλο και περισσότερο ως βασικό συστατικό στην επιστημονική έρευνα, τις ψηφιακές βιβλιοθήκες, την εξόρυξη δεδομένων, τα οικονομικά δεδομένα, την έρευνα αγοράς, τον έλεγχο παραγωγής κ.λπ.

Μέθοδοι και αρχές

Η οπτικοποίηση πληροφοριών υποδηλώνει ότι οι μέθοδοι οπτικοποίησης και αλληλεπίδρασης εκμεταλλεύονται τον πλούτο της ανθρώπινης αντίληψης, επιτρέποντας στους χρήστες να βλέπουν, να εξερευνούν και να κατανοούν ταυτόχρονα μεγάλες ποσότητες πληροφοριών. Η οπτικοποίηση πληροφοριών στοχεύει στη δημιουργία προσεγγίσεων για την επικοινωνία αφηρημένων δεδομένων, πληροφοριών με διαισθητικό τρόπο.

Έγχρωμη πολυδιάστατη κλιμάκωση
Έγχρωμη πολυδιάστατη κλιμάκωση

Η ανάλυση δεδομένων αποτελεί αναπόσπαστο μέρος όλης της εφαρμοσμένης έρευνας και της επίλυσης προβλημάτων στη βιομηχανία. ΠλέονΟι θεμελιώδεις προσεγγίσεις για την ανάλυση δεδομένων είναι η οπτικοποίηση (ιστογράμματα, διαγράμματα διασποράς, επιφανειακές γραφές, χάρτες δέντρων, γραφήματα παράλληλων συντεταγμένων, κ.λπ.), στατιστικές (δοκιμή υποθέσεων, παλινδρόμηση, PCA, κ.λπ.), ανάλυση δεδομένων (αντίστοιχη κ.λπ.)..δ.) και μεθόδους μηχανικής μάθησης (ομαδοποίηση, ταξινόμηση, δέντρα αποφάσεων κ.λπ.).

Μεταξύ αυτών των προσεγγίσεων, η οπτικοποίηση πληροφοριών ή η ανάλυση οπτικών δεδομένων είναι η πιο εξαρτημένη από τις γνωστικές δεξιότητες του αναλυτικού προσωπικού και επιτρέπει την ανακάλυψη αδόμητων ενεργών γνώσεων που περιορίζονται μόνο από την ανθρώπινη φαντασία και δημιουργικότητα. Ένας αναλυτής δεν χρειάζεται να μάθει σύνθετες τεχνικές για να μπορεί να ερμηνεύει οπτικοποιήσεις δεδομένων. Η οπτικοποίηση πληροφοριών είναι επίσης ένα σχήμα δημιουργίας υποθέσεων που μπορεί και συνήθως συνοδεύεται από πιο αναλυτική ή επίσημη ανάλυση, όπως ο έλεγχος στατιστικών υποθέσεων.

Μελέτη

Η σύγχρονη μελέτη της οπτικοποίησης ξεκίνησε με τα γραφικά υπολογιστή, τα οποία "από την αρχή χρησιμοποιήθηκαν για τη μελέτη επιστημονικών προβλημάτων. Ωστόσο, τα πρώτα χρόνια, η έλλειψη ισχύος γραφικών περιόριζε συχνά τη χρησιμότητά της. Άρχισε η προτεραιότητα στην οπτικοποίηση να αναπτυχθεί το 1987, με την κυκλοφορία ειδικού λογισμικού για τα γραφικά υπολογιστών και την οπτικοποίηση στον επιστημονικό υπολογισμό Έκτοτε, έχουν πραγματοποιηθεί πολλά συνέδρια και εργαστήρια από κοινού από την IEEE Computer Society και την ACM SIGGRAPH".

Κάλυψαν τα γενικά θέματα της οπτικοποίησης δεδομένων, της οπτικοποίησης πληροφοριών και της επιστημονικής οπτικοποίησης,καθώς και πιο συγκεκριμένες περιοχές, όπως η απόδοση όγκου.

Πολυδιάστατη κλιμάκωση επωνυμίας
Πολυδιάστατη κλιμάκωση επωνυμίας

Σύνοψη

Γενική πολυδιάστατη κλίμακα (GMDS) είναι μια επέκταση της μετρικής πολυδιάστατης κλίμακας στην οποία ο χώρος στόχος είναι μη Ευκλείδειος. Όταν οι διαφορές είναι αποστάσεις σε μια επιφάνεια και ο χώρος στόχος είναι μια άλλη επιφάνεια, το GMDS σάς επιτρέπει να βρείτε την ένθεση μιας επιφάνειας σε μια άλλη με ελάχιστη παραμόρφωση.

Το

GMDS είναι μια νέα γραμμή έρευνας. Επί του παρόντος, οι κύριες εφαρμογές είναι η αναγνώριση παραμορφώσιμων αντικειμένων (για παράδειγμα, για την τρισδιάστατη αναγνώριση προσώπου) και η χαρτογράφηση υφής.

Ο σκοπός της πολυδιάστατης κλίμακας είναι η αναπαράσταση πολυδιάστατων δεδομένων. Τα πολυδιάστατα δεδομένα, δηλαδή τα δεδομένα που απαιτούν περισσότερες από δύο ή τρεις διαστάσεις για να αναπαραστηθούν, μπορεί να είναι δύσκολο να ερμηνευθούν. Μια προσέγγιση για την απλούστευση είναι να υποθέσουμε ότι τα δεδομένα ενδιαφέροντος βρίσκονται σε μια ενσωματωμένη μη γραμμική πολλαπλότητα σε ένα χώρο υψηλών διαστάσεων. Εάν ο συλλέκτης έχει αρκετά χαμηλή διάσταση, τα δεδομένα μπορούν να οπτικοποιηθούν σε χώρο χαμηλών διαστάσεων.

Πολλές από τις μη γραμμικές μεθόδους μείωσης διαστάσεων σχετίζονται με γραμμικές μεθόδους. Οι μη γραμμικές μέθοδοι μπορούν γενικά να ταξινομηθούν σε δύο ομάδες: αυτές που παρέχουν χαρτογράφηση (είτε από χώρο υψηλής διάστασης σε ενσωμάτωση χαμηλής διάστασης, είτε αντίστροφα) και εκείνες που παρέχουν απλώς οπτικοποίηση. Στο πλαίσιο της μηχανικής μάθησης, οι μέθοδοι χαρτογράφησης μπορούν να θεωρηθούν ωςένα προκαταρκτικό στάδιο εξαγωγής χαρακτηριστικών, μετά το οποίο εφαρμόζονται αλγόριθμοι αναγνώρισης προτύπων. Συνήθως αυτά που δίνουν απλώς οπτικοποιήσεις βασίζονται σε δεδομένα εγγύτητας - δηλαδή μετρήσεις απόστασης. Η πολυδιάστατη κλιμάκωση είναι επίσης αρκετά συνηθισμένη στην ψυχολογία και σε άλλες ανθρωπιστικές επιστήμες.

Διαγώνια πολυδιάστατη κλιμάκωση
Διαγώνια πολυδιάστατη κλιμάκωση

Αν ο αριθμός των χαρακτηριστικών είναι μεγάλος, τότε ο χώρος των μοναδικών δυνατών συμβολοσειρών είναι επίσης εκθετικά μεγάλος. Έτσι, όσο μεγαλύτερη είναι η διάσταση, τόσο πιο δύσκολη γίνεται η απεικόνιση του χώρου. Αυτό προκαλεί πολλά προβλήματα. Οι αλγόριθμοι που λειτουργούν σε δεδομένα υψηλών διαστάσεων τείνουν να έχουν πολύ μεγάλη χρονική πολυπλοκότητα. Η μείωση των δεδομένων σε λιγότερες διαστάσεις κάνει συχνά τους αλγόριθμους ανάλυσης πιο αποτελεσματικούς και μπορεί να βοηθήσει τους αλγόριθμους μηχανικής μάθησης να κάνουν πιο ακριβείς προβλέψεις. Αυτός είναι ο λόγος για τον οποίο η πολυδιάστατη κλίμακα δεδομένων είναι τόσο δημοφιλής.

Συνιστάται: