Στατιστικό μοντέλο: η ουσία της μεθόδου, κατασκευής και ανάλυσης

Πίνακας περιεχομένων:

Στατιστικό μοντέλο: η ουσία της μεθόδου, κατασκευής και ανάλυσης
Στατιστικό μοντέλο: η ουσία της μεθόδου, κατασκευής και ανάλυσης
Anonim

Ένα στατιστικό μοντέλο είναι μια μαθηματική προβολή που ενσωματώνει ένα σύνολο διαφορετικών υποθέσεων σχετικά με τη δημιουργία ορισμένων δειγματοληπτικών δεδομένων. Ο όρος συχνά παρουσιάζεται σε πολύ εξιδανικευμένη μορφή.

Οι υποθέσεις που εκφράζονται στο στατιστικό μοντέλο δείχνουν ένα σύνολο κατανομών πιθανοτήτων. Πολλά από τα οποία έχουν σκοπό να προσεγγίσουν σωστά την κατανομή από την οποία αντλείται ένα συγκεκριμένο σύνολο πληροφοριών. Οι κατανομές πιθανοτήτων που είναι εγγενείς στα στατιστικά μοντέλα είναι αυτές που διακρίνουν την προβολή από άλλες μαθηματικές τροποποιήσεις.

Γενική προβολή

στατιστικά μοντέλα διαδικασίας
στατιστικά μοντέλα διαδικασίας

Μαθηματικό μοντέλο είναι μια περιγραφή του συστήματος χρησιμοποιώντας ορισμένες έννοιες και γλώσσα. Ισχύουν για τις φυσικές επιστήμες (όπως η φυσική, η βιολογία, η επιστήμη της γης, η χημεία) και οι κλάδοι της μηχανικής (όπως η επιστήμη των υπολογιστών, η ηλεκτρική μηχανική), καθώς και οι κοινωνικές επιστήμες (όπως η οικονομία, η ψυχολογία, η κοινωνιολογία, οι πολιτικές επιστήμες).

Το μοντέλο μπορεί να σας βοηθήσει να εξηγήσετε το σύστημα καιμελετήστε την επιρροή διαφόρων συστατικών και κάντε προβλέψεις για τη συμπεριφορά.

Τα μαθηματικά μοντέλα μπορούν να λάβουν πολλές μορφές, συμπεριλαμβανομένων δυναμικών συστημάτων, στατιστικών προβολών, διαφορικών εξισώσεων ή παραμέτρων θεωρίας παιγνίων. Αυτοί και άλλοι τύποι μπορεί να επικαλύπτονται και αυτό το μοντέλο περιλαμβάνει πολλές αφηρημένες δομές. Γενικά, οι μαθηματικές προβολές μπορούν επίσης να περιλαμβάνουν λογικά στοιχεία. Σε πολλές περιπτώσεις, η ποιότητα ενός επιστημονικού πεδίου εξαρτάται από το πόσο καλά συμφωνούν τα θεωρητικά ανεπτυγμένα μαθηματικά μοντέλα με τα αποτελέσματα επαναλαμβανόμενων πειραμάτων. Η έλλειψη συμφωνίας μεταξύ θεωρητικών διαδικασιών και πειραματικών μετρήσεων συχνά οδηγεί σε σημαντικές προόδους καθώς αναπτύσσονται καλύτερες θεωρίες.

Στις φυσικές επιστήμες, το παραδοσιακό μαθηματικό μοντέλο περιέχει μεγάλο αριθμό από τα ακόλουθα στοιχεία:

  • Εξισώσεις ελέγχου.
  • Πρόσθετα υπομοντέλα.
  • Ορισμός εξισώσεων.
  • Συστατικές εξισώσεις.
  • Υποθέσεις και περιορισμοί.
  • Αρχικές και οριακές συνθήκες.
  • Κλασικοί περιορισμοί και κινηματικές εξισώσεις.

Formula

Ένα στατιστικό μοντέλο, κατά κανόνα, ορίζεται από μαθηματικές εξισώσεις που συνδυάζουν μία ή περισσότερες τυχαίες μεταβλητές και, πιθανώς, άλλες φυσικές μεταβλητές. Ομοίως, η προβολή θεωρείται "η επίσημη έννοια μιας έννοιας."

Όλοι οι έλεγχοι στατιστικών υποθέσεων και οι στατιστικές αξιολογήσεις προέρχονται από μαθηματικά μοντέλα.

Εισαγωγή

στατιστικά μαθηματικά μοντέλα
στατιστικά μαθηματικά μοντέλα

Άτυπα, ένα στατιστικό μοντέλο μπορεί να θεωρηθεί ως υπόθεση (ή σύνολο υποθέσεων) με μια συγκεκριμένη ιδιότητα: επιτρέπει σε κάποιον να υπολογίσει την πιθανότητα οποιουδήποτε γεγονότος. Για παράδειγμα, θεωρήστε ένα ζευγάρι συνηθισμένων ζαριών έξι όψεων. Πρέπει να διερευνηθούν δύο διαφορετικές στατιστικές υποθέσεις σχετικά με το οστό.

Η πρώτη υπόθεση είναι:

Για κάθε ένα από τα ζάρια, η πιθανότητα να λάβετε έναν από τους αριθμούς (1, 2, 3, 4, 5 και 6) είναι: 1/6.

Από αυτήν την υπόθεση, μπορούμε να υπολογίσουμε την πιθανότητα και των δύο ζαριών: 1:1/6×1/6=1/36.

Γενικά, μπορείτε να υπολογίσετε την πιθανότητα οποιουδήποτε συμβάντος. Ωστόσο, πρέπει να γίνει κατανοητό ότι είναι αδύνατο να υπολογιστεί η πιθανότητα οποιουδήποτε άλλου μη τετριμμένου γεγονότος.

Μόνο η πρώτη γνώμη συλλέγει ένα στατιστικό μαθηματικό μοντέλο: λόγω του γεγονότος ότι με μία μόνο υπόθεση είναι δυνατός ο προσδιορισμός της πιθανότητας κάθε ενέργειας.

Στο παραπάνω δείγμα με αρχική άδεια, είναι εύκολο να προσδιοριστεί η πιθανότητα ενός συμβάντος. Με ορισμένα άλλα παραδείγματα, ο υπολογισμός μπορεί να είναι δύσκολος ή ακόμα και μη ρεαλιστικός (για παράδειγμα, μπορεί να απαιτήσει πολλά χρόνια υπολογισμών). Για ένα άτομο που σχεδιάζει ένα μοντέλο στατιστικής ανάλυσης, μια τέτοια πολυπλοκότητα θεωρείται απαράδεκτη: η υλοποίηση των υπολογισμών δεν θα πρέπει να είναι πρακτικά αδύνατη και θεωρητικά αδύνατη.

Τυπικός ορισμός

Σε μαθηματικούς όρους, το στατιστικό μοντέλο ενός συστήματος συνήθως θεωρείται ως ένα ζεύγος (S, P), όπου το S είναιτο σύνολο των πιθανών παρατηρήσεων, δηλαδή ο χώρος του δείγματος, και το P είναι το σύνολο των κατανομών πιθανοτήτων στο S.

Η διαίσθηση αυτού του ορισμού είναι η εξής. Υποτίθεται ότι υπάρχει μια "αληθινή" κατανομή πιθανοτήτων που προκαλείται από τη διαδικασία που δημιουργεί ορισμένα δεδομένα.

Σετ

Είναι αυτός που καθορίζει τις παραμέτρους του μοντέλου. Η παραμετροποίηση γενικά απαιτεί διαφορετικές τιμές για να οδηγήσει σε διαφορετικές κατανομές, π.χ.

Πρότυπη συνέπεια
Πρότυπη συνέπεια

Το

πρέπει να ισχύει (με άλλα λόγια, πρέπει να είναι ενετικό). Μια παραμετροποίηση που πληροί την απαίτηση λέγεται ότι είναι αναγνωρίσιμη.

Παράδειγμα

Γράφημα Στατιστικής
Γράφημα Στατιστικής

Υποθέστε ότι υπάρχει ένας αριθμός μαθητών διαφορετικών ηλικιών. Το ύψος του παιδιού θα σχετίζεται στοχαστικά με το έτος γέννησης: για παράδειγμα, όταν ένας μαθητής είναι 7 ετών, αυτό επηρεάζει την πιθανότητα ανάπτυξης, μόνο έτσι ώστε το άτομο να είναι ψηλότερο από 3 εκατοστά.

Μπορείτε να επισημοποιήσετε αυτήν την προσέγγιση σε ένα μοντέλο ευθύγραμμης παλινδρόμησης, για παράδειγμα, ως εξής: ύψος i=b 0 + b 1agei + εi, όπου b 0 είναι η τομή, b 1 είναι η παράμετρος κατά την οποία η ηλικία πολλαπλασιάζεται κατά τη λήψη υψομετρικής παρακολούθησης. Αυτός είναι ένας όρος σφάλματος. Δηλαδή, υποθέτει ότι το ύψος προβλέπεται από την ηλικία με ένα συγκεκριμένο σφάλμα.

Μια έγκυρη φόρμα πρέπει να ταιριάζει με όλα τα σημεία πληροφοριών. Έτσι, η ευθύγραμμη κατεύθυνση (επίπεδο i=b 0 + b 1agei) δεν είναι ικανή να είναι εξίσωση για ένα μοντέλο δεδομένων - εάν δεν απαντά καθαρά απολύτως σε όλα τα σημεία. Δηλχωρίς εξαίρεση, όλες οι πληροφορίες βρίσκονται άψογα στη γραμμή. Το περιθώριο σφάλματος εi πρέπει να εισαχθεί στην εξίσωση έτσι ώστε η φόρμα να ταιριάζει απολύτως με όλα τα στοιχεία πληροφοριών.

Για να κάνουμε ένα στατιστικό συμπέρασμα, πρέπει πρώτα να υποθέσουμε κάποιες κατανομές πιθανοτήτων για το ε i. Για παράδειγμα, μπορεί κανείς να υποθέσει ότι οι κατανομές του ε i έχουν σχήμα Gauss με μηδενικό μέσο όρο. Σε αυτήν την περίπτωση, το μοντέλο θα έχει 3 παραμέτρους: b 0, b 1 και τη διακύμανση της κατανομής Gauss.

Μπορείτε να ορίσετε επίσημα το μοντέλο ως (S, P).

Σε αυτό το παράδειγμα, το μοντέλο ορίζεται προσδιορίζοντας το S και έτσι μπορούν να γίνουν κάποιες υποθέσεις σχετικά με το P. Υπάρχουν δύο επιλογές:

Αυτή η ανάπτυξη μπορεί να προσεγγιστεί με μια γραμμική συνάρτηση της ηλικίας;

Ότι τα σφάλματα στην προσέγγιση κατανέμονται όπως μέσα σε ένα Gaussian.

Γενικές παρατηρήσεις

Οι στατιστικές παράμετροι των μοντέλων αποτελούν μια ειδική κατηγορία μαθηματικής προβολής. Τι κάνει ένα είδος διαφορετικό από το άλλο; Είναι λοιπόν ότι το στατιστικό μοντέλο δεν είναι ντετερμινιστικό. Έτσι, σε αυτήν, σε αντίθεση με τις μαθηματικές εξισώσεις, ορισμένες μεταβλητές δεν έχουν συγκεκριμένες τιμές, αλλά αντίθετα έχουν μια κατανομή πιθανοτήτων. Δηλαδή, μεμονωμένες μεταβλητές θεωρούνται στοχαστικές. Στο παραπάνω παράδειγμα, το ε είναι μια στοχαστική μεταβλητή. Χωρίς αυτήν, η προβολή θα ήταν ντετερμινιστική.

Η δημιουργία ενός στατιστικού μοντέλου χρησιμοποιείται συχνά, ακόμη κι αν η διαδικασία υλικού θεωρείται ντετερμινιστική. Για παράδειγμα, η ρίψη νομισμάτων είναι, καταρχήν, μια προκαθοριστική ενέργεια. Ωστόσο, αυτό εξακολουθεί στις περισσότερες περιπτώσεις να μοντελοποιείται ως στοχαστικό (μέσω μιας διαδικασίας Bernoulli).

Σύμφωνα με τους Konishi και Kitagawa, υπάρχουν τρεις στόχοι για ένα στατιστικό μοντέλο:

  • Προβλέψεις.
  • Εξόρυξη πληροφοριών.
  • Περιγραφή στοχαστικών δομών.

Μέγεθος προβολής

Υποθέστε ότι υπάρχει ένα μοντέλο στατιστικής πρόβλεψης, Το μοντέλο ονομάζεται παραμετρικό εάν το O έχει πεπερασμένη διάσταση. Στη λύση, πρέπει να γράψετε ότι

Διαφορά μοντέλου
Διαφορά μοντέλου

όπου k είναι θετικός ακέραιος (R αντιπροσωπεύει οποιουσδήποτε πραγματικούς αριθμούς). Εδώ το k ονομάζεται διάσταση του μοντέλου.

Για παράδειγμα, μπορούμε να υποθέσουμε ότι όλα τα δεδομένα προέρχονται από μια μονομεταβλητή κατανομή Gauss:

Φόρμουλα Στατιστικής
Φόρμουλα Στατιστικής

Σε αυτό το παράδειγμα, η διάσταση του k είναι 2.

Και ως άλλο παράδειγμα, τα δεδομένα μπορεί να θεωρηθεί ότι αποτελούνται από σημεία (x, y), τα οποία υποτίθεται ότι είναι κατανεμημένα σε ευθεία γραμμή με υπολείμματα Gauss (με μηδενικό μέσο όρο). Τότε η διάσταση του στατιστικού οικονομικού μοντέλου είναι ίση με 3: η τομή της γραμμής, η κλίση της και η διακύμανση της κατανομής των υπολειμμάτων. Πρέπει να σημειωθεί ότι στη γεωμετρία μια ευθεία έχει διάσταση 1.

Αν και η παραπάνω τιμή είναι τεχνικά η μόνη παράμετρος που έχει διάσταση k, μερικές φορές θεωρείται ότι περιέχει k διακριτές τιμές. Για παράδειγμα, με μια μονοδιάστατη κατανομή Gauss, το O είναι η μόνη παράμετρος με μέγεθος 2, αλλά μερικές φορές θεωρείται ότι περιέχει δύομεμονωμένη παράμετρος - μέση τιμή και τυπική απόκλιση.

Ένα μοντέλο στατιστικής διαδικασίας είναι μη παραμετρικό εάν το σύνολο των τιμών O είναι απεριόριστων διαστάσεων. Είναι επίσης ημιπαραμετρικό εάν έχει παραμέτρους και πεπερασμένων και άπειρων διαστάσεων. Τυπικά, αν k είναι μια διάσταση του O και n είναι ο αριθμός των δειγμάτων, τα ημιπαραμετρικά και μη παραμετρικά μοντέλα έχουν

Φόρμουλα μοντέλου
Φόρμουλα μοντέλου

τότε το μοντέλο είναι ημιπαραμετρικό. Διαφορετικά, η προβολή δεν είναι παραμετρική.

Τα παραμετρικά μοντέλα είναι τα πιο συχνά χρησιμοποιούμενα στατιστικά στοιχεία. Όσον αφορά τις ημιπαραμετρικές και μη παραμετρικές προβλέψεις, ο Sir David Cox δήλωσε:

"Τυπικά, περιλαμβάνουν τις λιγότερες υποθέσεις σχετικά με την υφή και το σχήμα διανομής, αλλά περιλαμβάνουν ισχυρές θεωρίες για την αυτάρκεια."

Ένθετα μοντέλα

Μην τα μπερδεύετε με πολυεπίπεδες προβολές.

Δύο στατιστικά μοντέλα είναι ένθετα εάν το πρώτο μπορεί να μετατραπεί στο δεύτερο επιβάλλοντας περιορισμούς στις παραμέτρους του πρώτου. Για παράδειγμα, το σύνολο όλων των κατανομών Gauss έχει ένα ένθετο σύνολο μηδενικών μέσων κατανομών:

Δηλαδή, πρέπει να περιορίσετε τον μέσο όρο στο σύνολο όλων των κατανομών Gauss για να λάβετε κατανομές με μηδενικό μέσο όρο. Ως δεύτερο παράδειγμα, το τετραγωνικό μοντέλο y=b 0 + b 1 x + b 2 x 2 + ε, ε ~N (0, σ 2) έχει ένα ενσωματωμένο γραμμικό μοντέλο y=b 0 + b 1 x + ε, ε ~ N (0,σ 2) - δηλαδή η παράμετρος b2 ισούται με 0.

Σε δύο από αυτά τα παραδείγματα, το πρώτο μοντέλο έχει υψηλότερη διάσταση από το δεύτερο μοντέλο. Αυτό συμβαίνει συχνά, αλλά όχι πάντα. Ένα άλλο παράδειγμα είναι το σύνολο των κατανομών Gauss με θετικό μέσο όρο, το οποίο έχει διάσταση 2.

Σύγκριση μοντέλων

στατιστικό μοντέλο
στατιστικό μοντέλο

Υποτίθεται ότι υπάρχει μια "αληθινή" κατανομή πιθανοτήτων που βασίζεται στα παρατηρούμενα δεδομένα που προκλήθηκαν από τη διαδικασία που τα δημιούργησε.

Και επίσης τα μοντέλα μπορούν να συγκριθούν μεταξύ τους, χρησιμοποιώντας διερευνητική ανάλυση ή επιβεβαίωση. Σε μια διερευνητική ανάλυση, διατυπώνονται διαφορετικά μοντέλα και γίνεται αξιολόγηση του πόσο καλά περιγράφει τα δεδομένα καθένα από αυτά. Σε μια επιβεβαιωτική ανάλυση, η υπόθεση που διατυπώθηκε προηγουμένως συγκρίνεται με την αρχική. Τα κοινά κριτήρια για αυτό περιλαμβάνουν το P 2, ο παράγοντας Bayesian και η σχετική πιθανότητα.

Η σκέψη του Konishi and Kitagawa

«Τα περισσότερα προβλήματα σε ένα στατιστικό μαθηματικό μοντέλο μπορούν να θεωρηθούν ως προγνωστικές ερωτήσεις. Συνήθως διατυπώνονται ως συγκρίσεις πολλών παραγόντων."

Επιπλέον, ο Sir David Cox είπε: "Ως μετάφραση από το θέμα, το πρόβλημα στο στατιστικό μοντέλο είναι συχνά το πιο σημαντικό μέρος της ανάλυσης."

Συνιστάται: