Η μέθοδος ομαδοποίησης είναι η εργασία της ομαδοποίησης ενός συνόλου αντικειμένων με τέτοιο τρόπο ώστε στην ίδια ομάδα να μοιάζουν περισσότερο μεταξύ τους παρά με αντικείμενα σε άλλους κλάδους. Είναι το πρωταρχικό καθήκον της εξόρυξης δεδομένων και μια γενική τεχνική στατιστικής ανάλυσης που χρησιμοποιείται σε πολλούς τομείς, συμπεριλαμβανομένης της μηχανικής εκμάθησης, της αναγνώρισης προτύπων, της αναγνώρισης εικόνας, της ανάκτησης πληροφοριών, της συμπίεσης δεδομένων και των γραφικών υπολογιστή.
Πρόβλημα βελτιστοποίησης
Η ίδια η μέθοδος ομαδοποίησης δεν είναι ένας συγκεκριμένος αλγόριθμος, αλλά μια γενική εργασία που πρέπει να επιλυθεί. Αυτό μπορεί να επιτευχθεί με διάφορους αλγόριθμους που διαφέρουν σημαντικά στην κατανόηση του τι συνιστά μια ομάδα και πώς να την βρει κανείς αποτελεσματικά. Η χρήση της μεθόδου ομαδοποίησης για το σχηματισμό μεταθεμάτων περιλαμβάνει τη χρήση μιας ομάδας μεμικρές αποστάσεις μεταξύ μελών, πυκνές περιοχές χώρου, διαστήματα ή ορισμένες στατιστικές κατανομές. Επομένως, η ομαδοποίηση μπορεί να διατυπωθεί ως ένα πρόβλημα βελτιστοποίησης πολλαπλών στόχων.
Οι κατάλληλες ρυθμίσεις μεθόδου και παραμέτρων (συμπεριλαμβανομένων στοιχείων όπως η συνάρτηση απόστασης προς χρήση, το όριο πυκνότητας ή ο αριθμός των αναμενόμενων συμπλεγμάτων) εξαρτώνται από το μεμονωμένο σύνολο δεδομένων και την προβλεπόμενη χρήση των αποτελεσμάτων. Η ανάλυση αυτή καθαυτή δεν είναι μια αυτόματη εργασία, αλλά μια επαναληπτική διαδικασία ανακάλυψης γνώσης ή διαδραστικής βελτιστοποίησης πολλαπλών στόχων. Αυτή η μέθοδος ομαδοποίησης περιλαμβάνει προσπάθειες δοκιμής και λάθους. Είναι συχνά απαραίτητο να τροποποιήσετε την προεπεξεργασία δεδομένων και τις παραμέτρους του μοντέλου μέχρι το αποτέλεσμα να επιτύχει τις επιθυμητές ιδιότητες.
Εκτός από τον όρο "ομαδοποίηση", υπάρχει ένας αριθμός λέξεων με παρόμοια σημασία, όπως αυτόματη ταξινόμηση, αριθμητική ταξινόμηση, βορυολογία και τυπολογική ανάλυση. Οι λεπτές διαφορές βρίσκονται συχνά στη χρήση της μεθόδου ομαδοποίησης για τη δημιουργία σχέσεων μετα-υποκειμένου. Ενώ στην εξαγωγή δεδομένων οι ομάδες που προκύπτουν παρουσιάζουν ενδιαφέρον, στην αυτόματη ταξινόμηση είναι ήδη η διακριτική δύναμη που εκτελεί αυτές τις λειτουργίες.
Η ανάλυση συμπλέγματος βασίστηκε σε πολυάριθμα έργα του Kroeber το 1932. Εισήχθη στην ψυχολογία από τον Zubin το 1938 και από τον Robert Tryon το 1939. Και αυτά τα έργα έχουν χρησιμοποιηθεί από τον Cattell από το 1943 για να υποδείξουν την ταξινόμηση των μεθόδων ομαδοποίησης στη θεωρία.
Διάρκεια
Η έννοια του "cluster" δεν μπορεί να οριστεί με ακρίβεια. Αυτός είναι ένας από τους λόγους για τους οποίους υπάρχουν τόσες πολλές μέθοδοι ομαδοποίησης. Υπάρχει ένας κοινός παρονομαστής: μια ομάδα αντικειμένων δεδομένων. Ωστόσο, διαφορετικοί ερευνητές χρησιμοποιούν διαφορετικά μοντέλα. Και κάθε μία από αυτές τις χρήσεις μεθόδων ομαδοποίησης περιλαμβάνει διαφορετικά δεδομένα. Η έννοια που εντοπίζεται από διάφορους αλγόριθμους διαφέρει σημαντικά στις ιδιότητές της.
Η χρήση της μεθόδου ομαδοποίησης είναι το κλειδί για την κατανόηση των διαφορών μεταξύ των οδηγιών. Τα τυπικά μοτίβα συμπλέγματος περιλαμβάνουν:
- Centroid s. Αυτό συμβαίνει, για παράδειγμα, όταν η ομαδοποίηση k-means αντιπροσωπεύει κάθε ομάδα με ένα μέσο διάνυσμα.
- Μοντέλο συνδεσιμότητας s. Αυτή είναι, για παράδειγμα, η ιεραρχική ομαδοποίηση, η οποία δημιουργεί μοντέλα με βάση τη συνδεσιμότητα απόστασης.
- Μοντέλο διανομής s. Σε αυτή την περίπτωση, οι συστάδες μοντελοποιούνται χρησιμοποιώντας τη μέθοδο ομαδοποίησης για να σχηματίσουν στατιστικές κατανομές μετα-αντικειμένων. Όπως ο πολυμεταβλητός κανονικός διαχωρισμός, ο οποίος ισχύει για τον αλγόριθμο μεγιστοποίησης προσδοκιών.
- Μοντέλο πυκνότητας s. Αυτά είναι, για παράδειγμα, το DBSCAN (Spatial Clustering Algorithm with Noise) και το OPTICS (Order Points for Structure Detection), που ορίζουν τα συμπλέγματα ως συνδεδεμένες πυκνές περιοχές στο χώρο δεδομένων.
- Μοντέλο υποδιαστήματος γ. Στη διπλή ομαδοποίηση (επίσης γνωστή ως συνομαδοποίηση ή δύο λειτουργίες), οι ομάδες μοντελοποιούνται και με τα δύο στοιχεία και με τα κατάλληλα χαρακτηριστικά.
- Μοντέλο s. Ορισμένοι αλγόριθμοι δεν το κάνουνεκλεπτυσμένη σχέση για τη μέθοδο ομαδοποίησης τους για τη δημιουργία αποτελεσμάτων μετα-θέματος και την απλή ομαδοποίηση πληροφοριών.
- Μοντέλο βάσει γραφήματος s. Μια κλίκα, δηλαδή ένα υποσύνολο κόμβων, έτσι ώστε κάθε δύο συνδέσεις στο άκρο να μπορούν να θεωρηθούν ως πρωτότυπο του σχήματος συμπλέγματος. Η αποδυνάμωση της συνολικής ζήτησης είναι γνωστή ως οιονεί κλίκες. Ακριβώς το ίδιο όνομα παρουσιάζεται στον αλγόριθμο ομαδοποίησης HCS.
- Νευρωνικά μοντέλα s. Το πιο γνωστό δίκτυο χωρίς επίβλεψη είναι ο αυτοοργανωμένος χάρτης. Και είναι αυτά τα μοντέλα που μπορούν συνήθως να χαρακτηριστούν παρόμοια με μία ή περισσότερες από τις παραπάνω μεθόδους ομαδοποίησης για το σχηματισμό αποτελεσμάτων μετα-υποκειμένου. Περιλαμβάνει υποδιαστημικά συστήματα όταν τα νευρωνικά δίκτυα εφαρμόζουν την απαραίτητη μορφή ανάλυσης κύριου ή ανεξάρτητου στοιχείου.
Αυτός ο όρος είναι, στην πραγματικότητα, ένα σύνολο τέτοιων ομάδων, οι οποίες συνήθως περιέχουν όλα τα αντικείμενα στο σύνολο των μεθόδων ομαδοποίησης δεδομένων. Επιπλέον, μπορεί να υποδεικνύει τη σχέση των συστάδων μεταξύ τους, όπως μια ιεραρχία συστημάτων ενσωματωμένων το ένα στο άλλο. Η ομαδοποίηση μπορεί να χωριστεί στις ακόλουθες πτυχές:
- Μέθοδος ομαδοποίησης σκληρού κέντρου. Εδώ, κάθε αντικείμενο ανήκει σε μια ομάδα ή είναι εκτός αυτής.
- Απαλό ή ασαφές σύστημα. Σε αυτό το σημείο, κάθε αντικείμενο ανήκει ήδη σε κάποιο βαθμό σε οποιοδήποτε σύμπλεγμα. Ονομάζεται επίσης μέθοδος ασαφούς ομαδοποίησης c-means.
Και πιο ανεπαίσθητες διαφορές είναι επίσης δυνατές. Για παράδειγμα:
- Αυστηρή ομαδοποίηση διαμερισμάτων. Εδώκάθε αντικείμενο ανήκει ακριβώς σε μία ομάδα.
- Αυστηρή ομαδοποίηση κατατμήσεων με ακραίες τιμές. Σε αυτήν την περίπτωση, τα αντικείμενα ενδέχεται επίσης να μην ανήκουν σε κανένα σύμπλεγμα και να θεωρούνται περιττά.
- Επικαλυπτόμενη ομαδοποίηση (επίσης εναλλακτική, με πολλαπλές προβολές). Εδώ, τα αντικείμενα μπορούν να ανήκουν σε περισσότερους από έναν κλάδους. Συνήθως περιλαμβάνει συμπαγή συμπλέγματα.
- Μέθοδοι ιεραρχικής ομαδοποίησης. Τα αντικείμενα που ανήκουν σε μια θυγατρική ομάδα ανήκουν επίσης στο γονικό υποσύστημα.
- Σχηματισμός υποχώρου. Αν και παρόμοια με επικαλυπτόμενα συμπλέγματα, μέσα σε ένα μοναδικά καθορισμένο σύστημα, οι αμοιβαίες ομάδες δεν πρέπει να επικαλύπτονται.
Οδηγίες
Όπως αναφέρθηκε παραπάνω, οι αλγόριθμοι ομαδοποίησης μπορούν να ταξινομηθούν με βάση το μοντέλο τους. Η ακόλουθη ανασκόπηση θα απαριθμήσει μόνο τα πιο σημαντικά παραδείγματα αυτών των οδηγιών. Δεδομένου ότι μπορεί να υπάρχουν πάνω από 100 δημοσιευμένοι αλγόριθμοι, δεν παρέχουν όλοι μοντέλα για τα συμπλέγματά τους και επομένως δεν μπορούν εύκολα να ταξινομηθούν.
Δεν υπάρχει αντικειμενικά σωστός αλγόριθμος ομαδοποίησης. Όμως, όπως σημειώθηκε παραπάνω, η οδηγία βρίσκεται πάντα στο οπτικό πεδίο του παρατηρητή. Ο καταλληλότερος αλγόριθμος ομαδοποίησης για ένα συγκεκριμένο πρόβλημα συχνά πρέπει να επιλέγεται πειραματικά, εκτός εάν υπάρχει μαθηματικός λόγος για την προτίμηση ενός μοντέλου έναντι ενός άλλου. Θα πρέπει να σημειωθεί ότι ένας αλγόριθμος που έχει σχεδιαστεί για έναν μόνο τύπο συνήθως δεν λειτουργείένα σύνολο δεδομένων που περιέχει ένα ριζικά διαφορετικό θέμα. Για παράδειγμα, το k-means δεν μπορεί να βρει μη κυρτές ομάδες.
Ομαδοποίηση βάσει σύνδεσης
Αυτή η ένωση είναι επίσης γνωστή με το όνομά της, το ιεραρχικό μοντέλο. Βασίζεται στην τυπική ιδέα ότι τα αντικείμενα συνδέονται περισσότερο με γειτονικά μέρη παρά με εκείνα που είναι πολύ πιο μακριά. Αυτοί οι αλγόριθμοι συνδέουν αντικείμενα, σχηματίζοντας διαφορετικά συμπλέγματα, ανάλογα με την απόστασή τους. Μια ομάδα μπορεί να περιγραφεί κυρίως από τη μέγιστη απόσταση που απαιτείται για τη σύνδεση των διαφορετικών τμημάτων του συμπλέγματος. Σε όλες τις πιθανές αποστάσεις, θα σχηματιστούν άλλες ομάδες, οι οποίες μπορούν να αναπαρασταθούν χρησιμοποιώντας ένα δενδρογράμμα. Αυτό εξηγεί από πού προέρχεται η κοινή ονομασία "ιεραρχική ομαδοποίηση". Δηλαδή, αυτοί οι αλγόριθμοι δεν παρέχουν ένα μόνο διαμέρισμα του συνόλου δεδομένων, αλλά αντίθετα παρέχουν μια εκτεταμένη σειρά εξουσιοδότησης. Είναι χάρη σε αυτόν που υπάρχει μια αποχέτευση μεταξύ τους σε ορισμένες αποστάσεις. Σε ένα δενδρόγραμμα, ο άξονας y υποδηλώνει την απόσταση στην οποία οι συστάδες ενώνονται. Και τα αντικείμενα είναι διατεταγμένα κατά μήκος της γραμμής Χ έτσι ώστε οι ομάδες να μην αναμειγνύονται.
Η ομαδοποίηση με βάση τη σύνδεση είναι μια ολόκληρη οικογένεια μεθόδων που διαφέρουν στον τρόπο υπολογισμού των αποστάσεων. Εκτός από τη συνήθη επιλογή των λειτουργιών απόστασης, ο χρήστης πρέπει επίσης να αποφασίσει για το κριτήριο σύνδεσης. Δεδομένου ότι ένα σύμπλεγμα αποτελείται από πολλά αντικείμενα, υπάρχουν πολλές επιλογές για τον υπολογισμό του. Μια δημοφιλής επιλογή είναι γνωστή ως ομαδοποίηση ενός μοχλού, αυτή είναι η μέθοδοςπλήρης σύνδεσμος, ο οποίος περιέχει UPGMA ή WPGMA (μη σταθμισμένο ή σταθμισμένο σύνολο ζευγών με αριθμητικό μέσο όρο, γνωστό και ως ομαδοποίηση μέσων συνδέσμων). Επιπλέον, το ιεραρχικό σύστημα μπορεί να είναι συγκεντρωτικό (ξεκινώντας με μεμονωμένα στοιχεία και συνδυάζοντάς τα σε ομάδες) ή χωριστικό (ξεκινώντας με ένα πλήρες σύνολο δεδομένων και χωρίζοντας το σε ενότητες).
Κατανεμημένη ομαδοποίηση
Αυτά τα μοντέλα σχετίζονται στενότερα με στατιστικά στοιχεία που βασίζονται σε διαχωρισμούς. Τα συμπλέγματα μπορούν εύκολα να οριστούν ως αντικείμενα που πιθανότατα ανήκουν στην ίδια κατανομή. Ένα χρήσιμο χαρακτηριστικό αυτής της προσέγγισης είναι ότι μοιάζει πολύ με τον τρόπο που δημιουργούνται τεχνητά σύνολα δεδομένων. Με δειγματοληψία τυχαίων αντικειμένων από μια κατανομή.
Ενώ η θεωρητική βάση αυτών των μεθόδων είναι εξαιρετική, υποφέρουν από ένα βασικό πρόβλημα, γνωστό ως υπερπροσαρμογή, εκτός και αν επιβληθούν όρια στην πολυπλοκότητα του μοντέλου. Μια μεγαλύτερη συσχέτιση συνήθως εξηγεί καλύτερα τα δεδομένα, καθιστώντας δύσκολη την επιλογή της σωστής μεθόδου.
Μοντέλο μείγματος Gauss
Αυτή η μέθοδος χρησιμοποιεί όλα τα είδη αλγορίθμων μεγιστοποίησης προσδοκιών. Εδώ, το σύνολο δεδομένων μοντελοποιείται συνήθως με έναν σταθερό (για να αποφευχθεί η παράκαμψη) αριθμός κατανομών Gauss που αρχικοποιούνται τυχαία και των οποίων οι παράμετροι βελτιστοποιούνται επαναληπτικά για να ταιριάζουν καλύτερα στο σύνολο δεδομένων. Αυτό το σύστημα θα συγκλίνει σε ένα τοπικό βέλτιστο. Γι' αυτό πολλά τρεξίματα μπορούν να δώσουνδιαφορετικά αποτελέσματα. Για να επιτευχθεί η πιο στενή ομαδοποίηση, τα χαρακτηριστικά συχνά εκχωρούνται στην κατανομή Gauss στην οποία είναι πιο πιθανό να ανήκουν. Και για πιο ήπιες ομάδες, αυτό δεν είναι απαραίτητο.
Η ομαδοποίηση με βάση τη διανομή δημιουργεί πολύπλοκα μοντέλα που μπορούν τελικά να καταγράψουν τη συσχέτιση και την εξάρτηση μεταξύ των χαρακτηριστικών. Ωστόσο, αυτοί οι αλγόριθμοι επιβάλλουν πρόσθετο βάρος στον χρήστη. Για πολλά σύνολα δεδομένων πραγματικού κόσμου, μπορεί να μην υπάρχει ένα συνοπτικά καθορισμένο μαθηματικό μοντέλο (για παράδειγμα, υποθέτοντας ότι μια κατανομή Gauss είναι μια αρκετά ισχυρή υπόθεση).
Ομαδοποίηση βάσει πυκνότητας
Σε αυτό το παράδειγμα, οι ομάδες ορίζονται βασικά ως περιοχές με υψηλότερη στεγανότητα από το υπόλοιπο σύνολο δεδομένων. Τα αντικείμενα σε αυτά τα σπάνια μέρη, τα οποία είναι απαραίτητα για τον διαχωρισμό όλων των στοιχείων, θεωρούνται συνήθως σημεία θορύβου και ακμών.
Η πιο δημοφιλής μέθοδος ομαδοποίησης με βάση την πυκνότητα είναι το DBSCAN (Spatial Noise Clustering Algorithm). Σε αντίθεση με πολλές νεότερες μεθόδους, έχει ένα καλά καθορισμένο συστατικό συμπλέγματος που ονομάζεται "προσιτότητα πυκνότητας". Παρόμοια με την ομαδοποίηση που βασίζεται σε συνδέσμους, βασίζεται σε σημεία σύνδεσης εντός ορισμένων ορίων απόστασης. Ωστόσο, αυτή η μέθοδος συλλέγει μόνο εκείνα τα στοιχεία που ικανοποιούν το κριτήριο της πυκνότητας. Στην αρχική έκδοση, που ορίζεται ως ο ελάχιστος αριθμός άλλων αντικειμένων σε αυτήν την ακτίνα, το σύμπλεγμα αποτελείται από όλα ταστοιχεία που σχετίζονται με την πυκνότητα (τα οποία μπορούν να σχηματίσουν μια ομάδα ελεύθερης μορφής, σε αντίθεση με πολλές άλλες μεθόδους) και όλα τα αντικείμενα που βρίσκονται εντός του επιτρεπόμενου εύρους.
Μια άλλη ενδιαφέρουσα ιδιότητα του DBSCAN είναι ότι η πολυπλοκότητά του είναι αρκετά χαμηλή - απαιτεί γραμμικό αριθμό ερωτημάτων εύρους έναντι της βάσης δεδομένων. Και επίσης ασυνήθιστο είναι ότι θα βρει ουσιαστικά τα ίδια αποτελέσματα (αυτό είναι ντετερμινιστικό για τα σημεία πυρήνα και θορύβου, αλλά όχι για οριακά στοιχεία) σε κάθε εκτέλεση. Επομένως, δεν χρειάζεται να το εκτελέσετε πολλές φορές.
Το κύριο μειονέκτημα του DBSCAN και του OPTICS είναι ότι αναμένουν κάποια πτώση στην πυκνότητα για τον εντοπισμό ορίων συμπλέγματος. Για παράδειγμα, σε σύνολα δεδομένων με επικαλυπτόμενες κατανομές Gauss - μια κοινή περίπτωση χρήσης για τεχνητά αντικείμενα - τα όρια συμπλέγματος που δημιουργούνται από αυτούς τους αλγόριθμους εμφανίζονται συχνά αυθαίρετα. Αυτό συμβαίνει επειδή η πυκνότητα των ομάδων μειώνεται συνεχώς. Και σε ένα σύνολο δεδομένων μείγματος Gauss, αυτοί οι αλγόριθμοι σχεδόν πάντα ξεπερνούν τις μεθόδους όπως η ομαδοποίηση EM, οι οποίες είναι σε θέση να μοντελοποιούν με ακρίβεια αυτούς τους τύπους συστημάτων.
Η μέση μετατόπιση είναι μια προσέγγιση ομαδοποίησης στην οποία κάθε αντικείμενο μετακινείται στην πυκνότερη περιοχή της γειτονιάς με βάση μια εκτίμηση ολόκληρου του πυρήνα. Στο τέλος, τα αντικείμενα συγκλίνουν σε τοπικά μέγιστα αδιαπέραστα. Παρόμοια με τη ομαδοποίηση k-means, αυτοί οι "ελκυστήρες πυκνότητας" μπορούν να χρησιμεύσουν ως εκπρόσωποι για ένα σύνολο δεδομένων. Αλλά η μέση μετατόπισημπορεί να ανιχνεύσει συμπλέγματα αυθαίρετου σχήματος παρόμοια με το DBSCAN. Λόγω της ακριβής επαναληπτικής διαδικασίας και της εκτίμησης πυκνότητας, η μέση μετατόπιση είναι συνήθως πιο αργή από το DBSCAN ή το k-Means. Επιπλέον, η δυνατότητα εφαρμογής του τυπικού αλγορίθμου μετατόπισης σε δεδομένα υψηλών διαστάσεων είναι δύσκολη λόγω της μη ομοιόμορφης συμπεριφοράς της εκτίμησης της πυκνότητας του πυρήνα, η οποία οδηγεί σε υπερβολικό κατακερματισμό των ουρών του συμπλέγματος.
Βαθμολογία
Η επαλήθευση των αποτελεσμάτων της ομαδοποίησης είναι τόσο δύσκολη όσο η ίδια η ομαδοποίηση. Οι δημοφιλείς προσεγγίσεις περιλαμβάνουν την «εσωτερική» βαθμολόγηση (όπου το σύστημα περιορίζεται σε ένα μόνο μέτρο ποιότητας) και, φυσικά, η «εξωτερική» βαθμολόγηση (όπου η ομαδοποίηση συγκρίνεται με μια υπάρχουσα ταξινόμηση «βασικής αλήθειας»). Και η βαθμολογία του εγχειριδίου και η έμμεση βαθμολογία του ανθρώπινου ειδικού βρίσκονται εξετάζοντας τη χρησιμότητα της ομαδοποίησης στην προβλεπόμενη εφαρμογή.
Τα μέτρα εσωτερικής επισήμανσης αντιμετωπίζουν το πρόβλημα ότι αντιπροσωπεύουν χαρακτηριστικά που μπορούν να θεωρηθούν ως στόχοι ομαδοποίησης. Για παράδειγμα, είναι δυνατή η ομαδοποίηση δεδομένων που δίνονται από τον συντελεστή Silhouette, εκτός από το ότι δεν υπάρχει γνωστός αποτελεσματικός αλγόριθμος για να γίνει αυτό. Χρησιμοποιώντας ένα τέτοιο εσωτερικό μέτρο για την αξιολόγηση, είναι καλύτερο να συγκρίνετε την ομοιότητα των προβλημάτων βελτιστοποίησης.
Το εξωτερικό σημάδι έχει παρόμοια προβλήματα. Αν υπάρχουν τέτοιες ταμπέλες «βασικής αλήθειας», τότε δεν χρειάζεται να ομαδοποιηθούν. Και σε πρακτικές εφαρμογές, συνήθως δεν υπάρχουν τέτοιες έννοιες. Από την άλλη πλευρά, οι ετικέτες αντικατοπτρίζουν μόνο ένα πιθανό διαμέρισμα του συνόλου δεδομένων, κάτι που δεν σημαίνειότι δεν υπάρχει άλλη (ίσως και καλύτερη) ομαδοποίηση.
Έτσι, καμία από αυτές τις προσεγγίσεις δεν μπορεί να κρίνει τελικά την πραγματική ποιότητα. Αλλά αυτό απαιτεί ανθρώπινη αξιολόγηση, η οποία είναι άκρως υποκειμενική. Ωστόσο, τέτοια στατιστικά στοιχεία μπορούν να είναι κατατοπιστικά για τον εντοπισμό κακών συστάδων. Αλλά δεν πρέπει κανείς να υποτιμά την υποκειμενική αξιολόγηση ενός ατόμου.
Εσωτερικό σημάδι
Όταν το αποτέλεσμα μιας ομαδοποίησης αξιολογείται με βάση δεδομένα που έχουν ομαδοποιηθεί, αυτό αναφέρεται ως αυτός ο όρος. Αυτές οι μέθοδοι γενικά αποδίδουν το καλύτερο αποτέλεσμα σε έναν αλγόριθμο που δημιουργεί ομάδες με υψηλή ομοιότητα εντός και χαμηλή μεταξύ των ομάδων. Ένα από τα μειονεκτήματα της χρήσης εσωτερικών κριτηρίων στην αξιολόγηση συστάδων είναι ότι οι υψηλές βαθμολογίες δεν οδηγούν απαραίτητα σε αποτελεσματικές εφαρμογές ανάκτησης πληροφοριών. Επίσης, αυτή η βαθμολογία είναι προκατειλημμένη προς αλγόριθμους που χρησιμοποιούν το ίδιο μοντέλο. Για παράδειγμα, η ομαδοποίηση k-means βελτιστοποιεί φυσικά τις αποστάσεις χαρακτηριστικών και ένα εσωτερικό κριτήριο που βασίζεται σε αυτό είναι πιθανό να υπερεκτιμήσει την προκύπτουσα ομαδοποίηση.
Ως εκ τούτου, αυτά τα μέτρα αξιολόγησης είναι τα πλέον κατάλληλα για να πάρετε μια ιδέα για καταστάσεις όπου ένας αλγόριθμος αποδίδει καλύτερα από έναν άλλο. Αυτό όμως δεν σημαίνει ότι κάθε πληροφορία δίνει πιο αξιόπιστα αποτελέσματα από άλλες. Η περίοδος εγκυρότητας που μετράται από έναν τέτοιο δείκτη εξαρτάται από τον ισχυρισμό ότι η δομή υπάρχει στο σύνολο δεδομένων. Ένας αλγόριθμος που αναπτύχθηκε για ορισμένους τύπους δεν έχει καμία πιθανότητα εάν το σύνολο περιέχει ριζικάδιαφορετική σύνθεση ή εάν η αξιολόγηση μετρά διαφορετικά κριτήρια. Για παράδειγμα, η ομαδοποίηση k-means μπορεί να βρει μόνο κυρτά συμπλέγματα και πολλοί δείκτες βαθμολογίας έχουν την ίδια μορφή. Σε ένα σύνολο δεδομένων με μη κυρτά μοντέλα, είναι ακατάλληλο να χρησιμοποιούνται k-μέσες και τυπικά κριτήρια αξιολόγησης.
Εξωτερική αξιολόγηση
Με αυτό το είδος σφαιροποίησης, τα αποτελέσματα της ομαδοποίησης αξιολογούνται με βάση δεδομένα που δεν χρησιμοποιήθηκαν για ομαδοποίηση. Δηλαδή, όπως γνωστές ετικέτες τάξης και εξωτερικές δοκιμές. Τέτοιες ερωτήσεις αποτελούνται από ένα σύνολο προ-ταξινομημένων στοιχείων και συχνά δημιουργούνται από ειδικούς (άνθρωπους). Ως εκ τούτου, τα κιτ αναφοράς μπορούν να θεωρηθούν ως το χρυσό πρότυπο για την αξιολόγηση. Αυτοί οι τύποι μεθόδων βαθμολόγησης μετρούν πόσο κοντά είναι η ομαδοποίηση σε δεδομένες κλάσεις αναφοράς. Ωστόσο, έχει συζητηθεί πρόσφατα εάν αυτό είναι επαρκές για πραγματικά δεδομένα ή μόνο για συνθετικά σύνολα με πραγματική βασική αλήθεια. Δεδομένου ότι οι κλάσεις μπορεί να περιέχουν εσωτερική δομή και τα υπάρχοντα χαρακτηριστικά ενδέχεται να μην επιτρέπουν διαχωρισμό συμπλεγμάτων. Επίσης, από την άποψη της ανακάλυψης γνώσης, η αναπαραγωγή γνωστών γεγονότων μπορεί να μην παράγει απαραίτητα το αναμενόμενο αποτέλεσμα. Σε ένα ειδικό σενάριο ομαδοποίησης με περιορισμούς όπου μετα-πληροφορίες (όπως ετικέτες κλάσεων) χρησιμοποιούνται ήδη στη διαδικασία ομαδοποίησης, δεν είναι ασήμαντο να διατηρούνται όλες οι πληροφορίες για σκοπούς αξιολόγησης.
Τώρα είναι σαφές τι δεν ισχύει για τις μεθόδους ομαδοποίησης και ποια μοντέλα χρησιμοποιούνται για αυτούς τους σκοπούς.