Οι υποθέσεις που ενσωματώνονται στη στατιστική μοντελοποίηση περιγράφουν ένα σύνολο κατανομών πιθανοτήτων, μερικές από τις οποίες υποτίθεται ότι προσεγγίζουν επαρκώς την κατανομή. Ένα συγκεκριμένο σύνολο δεδομένων επιλέγεται από τον ορισμό. Οι κατανομές πιθανοτήτων που είναι εγγενείς στη στατιστική μοντελοποίηση είναι αυτές που διακρίνουν τα στατιστικά μοντέλα από άλλα, μη στατιστικά, μαθηματικά μοντέλα.
Σύνδεση με τα μαθηματικά
Αυτή η επιστημονική μέθοδος έχει τις ρίζες της κυρίως στα μαθηματικά. Η στατιστική μοντελοποίηση συστημάτων δίνεται συνήθως με μαθηματικές εξισώσεις που συσχετίζουν μία ή περισσότερες τυχαίες μεταβλητές και πιθανώς άλλες μη τυχαίες μεταβλητές. Έτσι, ένα στατιστικό μοντέλο είναι μια «επίσημη αναπαράσταση μιας θεωρίας» (Hermann Ader, παραθέτοντας τον Kenneth Bollen).
Όλες οι δοκιμές στατιστικών υποθέσεων και όλες οι στατιστικές εκτιμήσεις προέρχονται από στατιστικά μοντέλα. Γενικότερα, τα στατιστικά μοντέλα αποτελούν μέρος της βάσης των στατιστικών συμπερασμάτων.
Μέθοδοι στατιστικήςμοντελοποίηση
Άτυπα, ένα στατιστικό μοντέλο μπορεί να θεωρηθεί ως μια στατιστική υπόθεση (ή σύνολο στατιστικών υποθέσεων) με μια συγκεκριμένη ιδιότητα: αυτή η υπόθεση μας επιτρέπει να υπολογίσουμε την πιθανότητα οποιουδήποτε γεγονότος. Για παράδειγμα, θεωρήστε ένα ζευγάρι συνηθισμένων ζαριών έξι όψεων. Θα μελετήσουμε δύο διαφορετικές στατιστικές υποθέσεις για το οστό.
Η πρώτη στατιστική υπόθεση αποτελεί το στατιστικό μοντέλο, γιατί με μία μόνο υπόθεση μπορούμε να υπολογίσουμε την πιθανότητα οποιουδήποτε γεγονότος. Η εναλλακτική στατιστική υπόθεση δεν αποτελεί στατιστικό μοντέλο, γιατί με μία μόνο υπόθεση δεν μπορούμε να υπολογίσουμε την πιθανότητα κάθε συμβάντος.
Στο παραπάνω παράδειγμα με την πρώτη υπόθεση, είναι εύκολο να υπολογιστεί η πιθανότητα ενός γεγονότος. Ωστόσο, σε ορισμένα άλλα παραδείγματα, ο υπολογισμός μπορεί να είναι περίπλοκος ή ακόμη και μη πρακτικός (για παράδειγμα, μπορεί να απαιτεί εκατομμύρια χρόνια υπολογισμού). Για την υπόθεση που αποτελεί ένα στατιστικό μοντέλο, αυτή η δυσκολία είναι αποδεκτή: η εκτέλεση του υπολογισμού δεν χρειάζεται να είναι πρακτικά εφικτή, απλώς θεωρητικά δυνατή.
Παραδείγματα μοντέλων
Ας υποθέσουμε ότι έχουμε έναν πληθυσμό μαθητών με ομοιόμορφα κατανεμημένα παιδιά. Το ύψος ενός παιδιού θα σχετίζεται στοχαστικά με την ηλικία: για παράδειγμα, όταν γνωρίζουμε ότι ένα παιδί είναι 7 ετών, αυτό επηρεάζει την πιθανότητα το παιδί να έχει ύψος 5 πόδια (περίπου 152 cm). Θα μπορούσαμε να επισημοποιήσουμε αυτή τη σχέση σε ένα μοντέλο γραμμικής παλινδρόμησης, για παράδειγμα: ανάπτυξη=b0 + b1agei+ εi, όπου b0 είναι η τομή, b1 είναι η παράμετρος με την οποία πολλαπλασιάζεται η ηλικία κατά τη λήψη της πρόβλεψης ανάπτυξης, εi είναι ο όρος σφάλματος. Αυτό σημαίνει ότι το ύψος προβλέπεται από την ηλικία με κάποιο σφάλμα.
Ένα έγκυρο μοντέλο πρέπει να ταιριάζει με όλα τα σημεία δεδομένων. Έτσι, μια ευθεία γραμμή (heighti=b0 + b1agei) δεν μπορεί να είναι εξίσωση για ένα μοντέλο δεδομένων - εκτός εάν ταιριάζει σε όλα τα σημεία δεδομένων ακριβώς, δηλαδή όλα τα σημεία δεδομένων βρίσκονται τέλεια στη γραμμή. Ο όρος σφάλματος εi πρέπει να συμπεριληφθεί στην εξίσωση ώστε το μοντέλο να ταιριάζει σε όλα τα σημεία δεδομένων.
Για να κάνουμε ένα στατιστικό συμπέρασμα, πρέπει πρώτα να υποθέσουμε κάποιες κατανομές πιθανοτήτων για εi. Για παράδειγμα, μπορούμε να υποθέσουμε ότι οι κατανομές του εi είναι Gaussian, με μηδενικό μέσο όρο. Σε αυτήν την περίπτωση, το μοντέλο θα έχει 3 παραμέτρους: b0, b1 και τη διακύμανση της κατανομής Gauss.
Γενική περιγραφή
Ένα στατιστικό μοντέλο είναι μια ειδική κατηγορία μαθηματικού μοντέλου. Αυτό που διακρίνει ένα στατιστικό μοντέλο από άλλα μαθηματικά μοντέλα είναι ότι δεν είναι ντετερμινιστικό. Χρησιμοποιείται για τη μοντελοποίηση στατιστικών δεδομένων. Έτσι, σε ένα στατιστικό μοντέλο που ορίζεται με μαθηματικές εξισώσεις, ορισμένες μεταβλητές δεν έχουν συγκεκριμένες τιμές, αλλά έχουν κατανομές πιθανοτήτων. δηλαδή κάποιες μεταβλητές είναι στοχαστικές. Στο παραπάνω παράδειγμα, το ε είναι μια στοχαστική μεταβλητή. χωρίς αυτή τη μεταβλητή, το μοντέλο ήτανθα ήταν ντετερμινιστικό.
Τα στατιστικά μοντέλα χρησιμοποιούνται συχνά στη στατιστική ανάλυση και μοντελοποίηση, ακόμα κι αν η φυσική διαδικασία που μοντελοποιείται είναι ντετερμινιστική. Για παράδειγμα, η ρίψη νομισμάτων είναι καταρχήν μια ντετερμινιστική διαδικασία. ωστόσο συνήθως μοντελοποιείται ως στοχαστικό (μέσω μιας διαδικασίας Bernoulli).
Παραμετρικά μοντέλα
Τα παραμετρικά μοντέλα είναι τα πιο συχνά χρησιμοποιούμενα στατιστικά μοντέλα. Όσον αφορά τα ημιπαραμετρικά και μη παραμετρικά μοντέλα, ο Sir David Cox είπε: «Γενικά περιλαμβάνουν λιγότερες υποθέσεις σχετικά με τη δομή και το σχήμα της κατανομής, αλλά συνήθως περιέχουν ισχυρές υποθέσεις ανεξαρτησίας». Όπως όλα τα άλλα αναφερόμενα μοντέλα, χρησιμοποιούνται επίσης συχνά στη στατιστική μέθοδο της μαθηματικής μοντελοποίησης.
Μοντέλα πολλαπλών επιπέδων
Τα μοντέλα πολλαπλών επιπέδων (γνωστά και ως ιεραρχικά γραμμικά μοντέλα, μοντέλα ένθετων δεδομένων, μικτά μοντέλα, τυχαίοι συντελεστές, μοντέλα τυχαίων εφέ, μοντέλα τυχαίων παραμέτρων ή μοντέλα διαμερισμάτων) είναι μοντέλα στατιστικών παραμέτρων που ποικίλλουν σε περισσότερα από ένα επίπεδα. Ένα παράδειγμα είναι ένα μοντέλο επιτευγμάτων μαθητών που περιέχει μετρήσεις για μεμονωμένους μαθητές καθώς και μετρήσεις για τάξεις στις οποίες ομαδοποιούνται οι μαθητές. Αυτά τα μοντέλα μπορούν να θεωρηθούν ως γενικεύσεις γραμμικών μοντέλων (ιδιαίτερα, γραμμικής παλινδρόμησης), αν και μπορούν επίσης να επεκταθούν σε μη γραμμικά μοντέλα. Αυτά τα μοντέλα έχουν γίνειπολύ πιο δημοφιλή όταν έγινε διαθέσιμη επαρκής υπολογιστική ισχύς και λογισμικό.
Τα μοντέλα πολλαπλών επιπέδων είναι ιδιαίτερα κατάλληλα για ερευνητικά έργα όπου τα δεδομένα για τους συμμετέχοντες είναι οργανωμένα σε περισσότερα από ένα επίπεδα (δηλαδή, ένθετα δεδομένα). Οι μονάδες ανάλυσης είναι συνήθως άτομα (σε χαμηλότερο επίπεδο) που είναι φωλιασμένα μέσα σε μονάδες περιβάλλοντος/συγκεντρωτικών μονάδων (σε υψηλότερο επίπεδο). Ενώ το χαμηλότερο επίπεδο δεδομένων σε μοντέλα πολλαπλών επιπέδων είναι συνήθως μεμονωμένο, μπορούν επίσης να ληφθούν υπόψη επαναλαμβανόμενες μετρήσεις ατόμων. Έτσι, τα πολυεπίπεδα μοντέλα παρέχουν έναν εναλλακτικό τύπο ανάλυσης για μονομεταβλητή ή πολυμεταβλητή ανάλυση επαναλαμβανόμενων μετρήσεων. Μπορούν να ληφθούν υπόψη μεμονωμένες διαφορές στις καμπύλες ανάπτυξης. Επιπλέον, τα μοντέλα πολλαπλών επιπέδων μπορούν να χρησιμοποιηθούν ως εναλλακτική του ANCOVA, όπου οι βαθμολογίες εξαρτημένων μεταβλητών προσαρμόζονται για συμμεταβλητές (π.χ. μεμονωμένες διαφορές) πριν από τον έλεγχο για διαφορές στη θεραπεία. Τα πολυεπίπεδα μοντέλα είναι σε θέση να αναλύσουν αυτά τα πειράματα χωρίς την υπόθεση ομοιόμορφων κλίσεων παλινδρόμησης που απαιτούνται από την ANCOVA.
Τα μοντέλα πολλαπλών επιπέδων μπορούν να χρησιμοποιηθούν για δεδομένα με πολλά επίπεδα, αν και τα μοντέλα δύο επιπέδων είναι τα πιο κοινά και το υπόλοιπο αυτού του άρθρου εστιάζει σε αυτά. Η εξαρτημένη μεταβλητή θα πρέπει να εξετάζεται στο χαμηλότερο επίπεδο ανάλυσης.
Επιλογή μοντέλου
Επιλογή μοντέλουείναι το έργο της επιλογής από ένα σύνολο υποψηφίων μοντέλων δεδομένων των δεδομένων, που πραγματοποιείται στο πλαίσιο της στατιστικής μοντελοποίησης. Στις απλούστερες περιπτώσεις, εξετάζεται ένα ήδη υπάρχον σύνολο δεδομένων. Ωστόσο, η εργασία μπορεί επίσης να περιλαμβάνει σχεδιασμό πειραμάτων έτσι ώστε τα δεδομένα που συλλέγονται να ταιριάζουν καλά στην εργασία επιλογής μοντέλου. Δεδομένων των υποψηφίων μοντέλων με παρόμοια προγνωστική ή επεξηγηματική ισχύ, το απλούστερο μοντέλο είναι πιθανό να είναι η καλύτερη επιλογή (το ξυράφι του Occam).
Οι
Konishi & Kitagawa λένε, "Τα περισσότερα προβλήματα στατιστικών συμπερασμάτων μπορούν να θεωρηθούν προβλήματα που σχετίζονται με τη στατιστική μοντελοποίηση." Ομοίως, ο Cox είπε: «Το πώς γίνεται η μετάφραση του θέματος στο στατιστικό μοντέλο είναι συχνά το πιο σημαντικό μέρος της ανάλυσης».
Η επιλογή μοντέλου μπορεί επίσης να αναφέρεται στο πρόβλημα της επιλογής μερικών αντιπροσωπευτικών μοντέλων από ένα μεγάλο σύνολο υπολογιστικών μοντέλων για λόγους απόφασης ή βελτιστοποίησης υπό αβεβαιότητα.
Γραφικά μοτίβα
Γραφικό μοντέλο, ή πιθανοτικό γραφικό μοντέλο, (PGM) ή δομημένο πιθανοτικό μοντέλο, είναι ένα πιθανό μοντέλο για το οποίο το γράφημα εκφράζει τη δομή μιας σχέσης υπό όρους μεταξύ τυχαίων μεταβλητών. Χρησιμοποιούνται συνήθως στη θεωρία πιθανοτήτων, τις στατιστικές (ειδικά τις στατιστικές Bayes) και τη μηχανική μάθηση.
Οικομετρικά μοντέλα
Τα οικονομετρικά μοντέλα είναι στατιστικά μοντέλα που χρησιμοποιούνται σεοικονομετρία. Ένα οικονομετρικό μοντέλο ορίζει τις στατιστικές σχέσεις που πιστεύεται ότι υπάρχουν μεταξύ διαφόρων οικονομικών μεγεθών που σχετίζονται με ένα συγκεκριμένο οικονομικό φαινόμενο. Ένα οικονομετρικό μοντέλο μπορεί να προέλθει από ένα ντετερμινιστικό οικονομικό μοντέλο που λαμβάνει υπόψη την αβεβαιότητα ή από ένα οικονομικό μοντέλο που είναι το ίδιο στοχαστικό. Ωστόσο, είναι επίσης δυνατή η χρήση οικονομετρικών μοντέλων που δεν συνδέονται με κάποια συγκεκριμένη οικονομική θεωρία.