Ο έλεγχος υποθέσεων είναι μια απαραίτητη διαδικασία στη στατιστική. Ένα τεστ υποθέσεων αξιολογεί δύο αμοιβαία αποκλειστικές δηλώσεις για να προσδιορίσει ποια δήλωση υποστηρίζεται καλύτερα από τα δεδομένα του δείγματος. Όταν ένα εύρημα λέγεται ότι είναι στατιστικά σημαντικό, αυτό οφείλεται σε ένα τεστ υποθέσεων.
Μέθοδοι επαλήθευσης
Οι μέθοδοι για τον έλεγχο στατιστικών υποθέσεων είναι μέθοδοι στατιστικής ανάλυσης. Συνήθως, συγκρίνονται δύο σύνολα στατιστικών στοιχείων ή ένα σύνολο δεδομένων δειγματοληψίας συγκρίνεται με ένα συνθετικό σύνολο δεδομένων από ένα εξιδανικευμένο μοντέλο. Τα δεδομένα πρέπει να ερμηνεύονται με τέτοιο τρόπο ώστε να προσθέτουν νέες έννοιες. Μπορείτε να τα ερμηνεύσετε υποθέτοντας μια συγκεκριμένη δομή του τελικού αποτελέσματος και χρησιμοποιώντας στατιστικές μεθόδους για να επιβεβαιώσετε ή να απορρίψετε την υπόθεση. Η υπόθεση ονομάζεται υπόθεση και οι στατιστικές δοκιμές που χρησιμοποιούνται για το σκοπό αυτό ονομάζονται στατιστικές υποθέσεις.
Υποθέσεις H0 και H1
Υπάρχουν δύο κύριεςοι έννοιες του στατιστικού ελέγχου των υποθέσεων - η λεγόμενη "κύρια ή μηδενική υπόθεση" και "εναλλακτική υπόθεση". Ονομάζονται επίσης υποθέσεις Neyman-Pearson. Η υπόθεση της στατιστικής δοκιμής ονομάζεται μηδενική υπόθεση, η κύρια υπόθεση ή H0 για συντομία. Συχνά αναφέρεται ως η προεπιλεγμένη υπόθεση ή η υπόθεση ότι τίποτα δεν έχει αλλάξει. Μια παραβίαση της υπόθεσης δοκιμής αναφέρεται συχνά ως πρώτη υπόθεση, εναλλακτική υπόθεση ή H1. Το H1 είναι συντομογραφία για κάποια άλλη υπόθεση, επειδή το μόνο που γνωρίζουμε είναι ότι τα δεδομένα H0 μπορούν να απορριφθούν.
Πριν απόρριψη ή όχι τη μηδενική υπόθεση, το αποτέλεσμα της δοκιμής πρέπει να ερμηνευτεί. Μια σύγκριση θεωρείται στατιστικά σημαντική εάν η σχέση μεταξύ των συνόλων δεδομένων είναι απίθανο να είναι η υλοποίηση της μηδενικής υπόθεσης σύμφωνα με την πιθανότητα κατωφλίου - το επίπεδο σημαντικότητας. Υπάρχουν επίσης κριτήρια καλής προσαρμογής για τον έλεγχο στατιστικών υποθέσεων. Αυτό είναι το όνομα του κριτηρίου δοκιμής υπόθεσης, το οποίο σχετίζεται με τον υποτιθέμενο νόμο της άγνωστης κατανομής. Αυτό είναι ένα αριθμητικό μέτρο της ασυμφωνίας μεταξύ της εμπειρικής και της θεωρητικής κατανομής.
Διαδικασία και κριτήρια για τον έλεγχο στατιστικών υποθέσεων
Οι πιο συνηθισμένες μέθοδοι επιλογής υποθέσεων βασίζονται είτε στο κριτήριο πληροφοριών Akaike είτε στο συντελεστή Bayes. Ο έλεγχος στατιστικών υποθέσεων είναι μια βασική τεχνική τόσο στην εξαγωγή συμπερασμάτων όσο και στην εξαγωγή συμπερασμάτων Bayes, αν και οι δύο τύποι έχουν αξιοσημείωτες διαφορές. Δοκιμές Στατιστικών Υποθέσεωνορίστε μια διαδικασία που ελέγχει την πιθανότητα εσφαλμένης απόφασης για μια εσφαλμένη προεπιλογή ή μηδενική υπόθεση. Η διαδικασία βασίζεται στο πόσο πιθανό είναι να λειτουργήσει. Αυτή η πιθανότητα να ληφθεί μια λανθασμένη απόφαση είναι η απιθανότητα ότι η μηδενική υπόθεση είναι αληθινή και ότι δεν υπάρχει συγκεκριμένη εναλλακτική υπόθεση. Το τεστ δεν μπορεί να δείξει αν είναι αληθές ή λάθος.
Εναλλακτικές μέθοδοι θεωρίας αποφάσεων
Υπάρχουν εναλλακτικές μέθοδοι θεωρίας αποφάσεων, στις οποίες η μηδενική και η πρώτη υπόθεση εξετάζονται σε πιο ισότιμη βάση. Άλλες προσεγγίσεις λήψης αποφάσεων, όπως η Μπεϋζιανή θεωρία, προσπαθούν να εξισορροπήσουν τις συνέπειες των κακών αποφάσεων σε όλες τις πιθανότητες αντί να επικεντρωθούν σε μια και μόνο μηδενική υπόθεση. Μια σειρά από άλλες προσεγγίσεις για να αποφασίσουμε ποια από τις υποθέσεις είναι σωστή βασίζονται στα δεδομένα, ποιες από αυτές έχουν τις επιθυμητές ιδιότητες. Όμως ο έλεγχος υποθέσεων είναι η κυρίαρχη προσέγγιση στην ανάλυση δεδομένων σε πολλούς τομείς της επιστήμης.
Έλεγχος της στατιστικής υπόθεσης
Όποτε ένα σύνολο αποτελεσμάτων διαφέρει από ένα άλλο σύνολο, πρέπει να βασιστείτε στον έλεγχο στατιστικών υποθέσεων ή σε δοκιμές στατιστικών υποθέσεων. Η ερμηνεία τους απαιτεί σωστή κατανόηση των τιμών p και των κρίσιμων τιμών. Είναι επίσης σημαντικό να γίνει κατανοητό ότι, ανεξάρτητα από το επίπεδο σημαντικότητας, οι δοκιμές ενδέχεται να εξακολουθούν να περιέχουν σφάλματα. Επομένως, το συμπέρασμα μπορεί να μην είναι σωστό.
Η διαδικασία δοκιμής αποτελείται απόπολλαπλά βήματα:
- Μια αρχική υπόθεση δημιουργείται για έρευνα.
- Εμφανίζονται σχετικές μηδενικές και εναλλακτικές υποθέσεις.
- Εξηγεί στατιστικές υποθέσεις σχετικά με το δείγμα στο τεστ.
- Καθορισμός του κατάλληλου τεστ.
- Επιλέξτε το επίπεδο σημαντικότητας και το όριο πιθανότητας κάτω από το οποίο θα απορριφθεί η μηδενική υπόθεση.
- Η κατανομή του στατιστικού ελέγχου μηδενικής υπόθεσης δείχνει τις πιθανές τιμές στις οποίες απορρίπτεται η μηδενική υπόθεση.
- Υπολογισμός σε εξέλιξη.
- Λήψη απόφασης για απόρριψη ή αποδοχή της μηδενικής υπόθεσης υπέρ μιας εναλλακτικής.
Υπάρχει μια εναλλακτική που χρησιμοποιεί μια τιμή p.
Δοκιμές σημασίας
Τα καθαρά δεδομένα δεν έχουν πρακτική χρήση χωρίς ερμηνεία. Στις στατιστικές, όταν πρόκειται για ερωτήσεις σχετικά με δεδομένα και ερμηνεία αποτελεσμάτων, χρησιμοποιούνται στατιστικές μέθοδοι για να διασφαλιστεί η ακρίβεια ή η πιθανότητα απαντήσεων. Κατά τον έλεγχο στατιστικών υποθέσεων, αυτή η κατηγορία μεθόδων ονομάζεται στατιστικός έλεγχος ή δοκιμές σημαντικότητας. Ο όρος «υπόθεση» θυμίζει επιστημονικές μεθόδους, όπου διερευνώνται υποθέσεις και θεωρίες. Στη στατιστική, μια δοκιμή υποθέσεων καταλήγει σε μια ποσότητα με δεδομένη υπόθεση. Σας επιτρέπει να ερμηνεύσετε εάν μια υπόθεση είναι αληθής ή έχει γίνει παραβίαση.
Στατιστική ερμηνεία των τεστ
Δοκιμασίες υποθέσεωνχρησιμοποιούνται για να προσδιοριστεί ποια ερευνητικά αποτελέσματα θα οδηγήσουν στην απόρριψη της μηδενικής υπόθεσης για ένα προκαθορισμένο επίπεδο σημασίας. Τα αποτελέσματα μιας δοκιμής στατιστικής υπόθεσης πρέπει να ερμηνεύονται έτσι ώστε να συνεχιστεί η εργασία σε αυτήν. Υπάρχουν δύο κοινές μορφές κριτηρίων ελέγχου στατιστικών υποθέσεων. Αυτές είναι τιμές p και κρίσιμες τιμές. Ανάλογα με το επιλεγμένο κριτήριο, τα αποτελέσματα που λαμβάνονται πρέπει να ερμηνεύονται διαφορετικά.
Τι είναι μια τιμή p
Η έξοδος περιγράφεται ως στατιστικά σημαντική κατά την ερμηνεία της τιμής p. Στην πραγματικότητα, αυτός ο δείκτης σημαίνει την πιθανότητα λάθους εάν απορριφθεί η μηδενική υπόθεση. Με άλλα λόγια, μπορεί να χρησιμοποιηθεί για να ονομάσει μια τιμή που μπορεί να χρησιμοποιηθεί για την ερμηνεία ή την ποσοτικοποίηση ενός αποτελέσματος δοκιμής και για τον προσδιορισμό της πιθανότητας λάθους στην απόρριψη της μηδενικής υπόθεσης. Για παράδειγμα, μπορείτε να εκτελέσετε μια δοκιμή κανονικότητας σε ένα δείγμα δεδομένων και να διαπιστώσετε ότι υπάρχει μικρή πιθανότητα ακραίας τιμής. Ωστόσο, η μηδενική υπόθεση δεν χρειάζεται να απορριφθεί. Μια δοκιμή στατιστικής υπόθεσης μπορεί να επιστρέψει μια τιμή p. Αυτό γίνεται συγκρίνοντας την τιμή του p με μια προκαθορισμένη τιμή κατωφλίου που ονομάζεται επίπεδο σημαντικότητας.
Επίπεδο Σημασίας
Το επίπεδο σημασίας γράφεται συχνά με το ελληνικό πεζό γράμμα "άλφα". Η γενική τιμή που χρησιμοποιείται για το άλφα είναι 5%, ή 0,05. Μια μικρότερη τιμή άλφα υποδηλώνει μια πιο αξιόπιστη ερμηνεία της μηδενικής υπόθεσης. Η τιμή p συγκρίνεται μεπροεπιλεγμένη τιμή άλφα. Το αποτέλεσμα είναι στατιστικά σημαντικό εάν η τιμή p είναι μικρότερη από την άλφα. Το επίπεδο σημαντικότητας μπορεί να αντιστραφεί αφαιρώντας το από το ένα. Αυτό γίνεται για να προσδιοριστεί το επίπεδο εμπιστοσύνης της υπόθεσης δεδομένων των παρατηρούμενων δεδομένων δείγματος. Όταν χρησιμοποιείται αυτή η μέθοδος δοκιμής στατιστικών υποθέσεων, η τιμή P είναι πιθανολογική. Αυτό σημαίνει ότι κατά τη διαδικασία ερμηνείας του αποτελέσματος μιας στατιστικής δοκιμής, κάποιος δεν γνωρίζει τι είναι σωστό ή λάθος.
Θεωρία ελέγχου στατιστικών υποθέσεων
Η απόρριψη της μηδενικής υπόθεσης σημαίνει ότι υπάρχουν αρκετά στατιστικά στοιχεία που δείχνουν πιθανή. Διαφορετικά, σημαίνει ότι δεν υπάρχουν αρκετά στατιστικά στοιχεία για την απόρριψή του. Μπορεί κανείς να σκεφτεί στατιστικά τεστ ως προς τη διχοτόμηση της απόρριψης και της αποδοχής της μηδενικής υπόθεσης. Ο κίνδυνος του στατιστικού ελέγχου της μηδενικής υπόθεσης είναι ότι, εάν γίνει αποδεκτή, μπορεί να φαίνεται αληθής. Αντίθετα, θα ήταν πιο σωστό να πούμε ότι η μηδενική υπόθεση δεν απορρίπτεται επειδή δεν υπάρχουν αρκετά στατιστικά στοιχεία για την απόρριψή της.
Αυτή η στιγμή συχνά μπερδεύει τους αρχάριους επιπλέον. Σε μια τέτοια περίπτωση, είναι σημαντικό να υπενθυμίσετε στον εαυτό σας ότι το αποτέλεσμα είναι πιθανό και ότι ακόμη και η αποδοχή της μηδενικής υπόθεσης εξακολουθεί να έχει μικρές πιθανότητες λάθους.
Σωστή ή ψευδής μηδενική υπόθεση
Η ερμηνεία της τιμής του p δεν σημαίνει ότι το μηδένη υπόθεση είναι αληθής ή ψευδής. Αυτό σημαίνει ότι έχει γίνει μια επιλογή να απορριφθεί ή να μην απορριφθεί η μηδενική υπόθεση σε ένα ορισμένο επίπεδο στατιστικής σημασίας με βάση τα εμπειρικά δεδομένα και τον επιλεγμένο στατιστικό έλεγχο. Επομένως, η τιμή p μπορεί να θεωρηθεί ως η πιθανότητα των δεδομένων που δίνονται κάτω από μια προκαθορισμένη υπόθεση που ενσωματώνεται στις στατιστικές δοκιμές. Η τιμή p είναι ένα μέτρο της πιθανότητας να παρατηρηθεί το δείγμα δεδομένων εάν η μηδενική υπόθεση είναι αληθής.
Ερμηνεία κρίσιμων τιμών
Ορισμένες δοκιμές δεν επιστρέφουν σελ. Αντίθετα, ενδέχεται να επιστρέψουν μια λίστα κρίσιμων τιμών. Τα αποτελέσματα μιας τέτοιας μελέτης ερμηνεύονται με παρόμοιο τρόπο. Αντί να συγκρίνεται μια μεμονωμένη τιμή p με ένα προκαθορισμένο επίπεδο σημαντικότητας, η στατιστική δοκιμής συγκρίνεται με μια κρίσιμη τιμή. Εάν αποδειχθεί μικρότερο, σημαίνει ότι δεν ήταν δυνατό να απορριφθεί η μηδενική υπόθεση. Εάν είναι μεγαλύτερη ή ίση, η μηδενική υπόθεση θα πρέπει να απορριφθεί. Η σημασία του αλγορίθμου δοκιμής στατιστικών υποθέσεων και η ερμηνεία του αποτελέσματός του είναι παρόμοια με την τιμή p. Το επίπεδο σημαντικότητας που επιλέχθηκε είναι μια πιθανολογική απόφαση για απόρριψη ή μη απόρριψη της υπόθεσης βασικής δοκιμής δεδομένων των δεδομένων.
Σφάλματα σε στατιστικές δοκιμές
Η ερμηνεία ενός τεστ στατιστικής υπόθεσης είναι πιθανολογική. Το καθήκον του ελέγχου των στατιστικών υποθέσεων δεν είναι να βρεθεί μια αληθής ή ψευδής δήλωση. Οι αποδείξεις δοκιμής μπορεί να είναι εσφαλμένες. Για παράδειγμα, εάν το άλφα ήταν 5%, αυτό σημαίνει ότι ως επί το πλείστον 1 στα 20η μηδενική υπόθεση θα απορριφθεί κατά λάθος. Ή δεν θα οφείλεται στον στατιστικό θόρυβο στο δείγμα δεδομένων. Δεδομένου αυτού του σημείου, μια μικρή τιμή p στην οποία απορρίπτεται η μηδενική υπόθεση μπορεί να σημαίνει ότι είναι ψευδής ή ότι έχει γίνει λάθος. Εάν γίνει αυτό το είδος σφάλματος, το αποτέλεσμα ονομάζεται ψευδώς θετικό. Και ένα τέτοιο σφάλμα είναι ένα σφάλμα πρώτου είδους κατά τον έλεγχο στατιστικών υποθέσεων. Από την άλλη πλευρά, εάν η τιμή p είναι αρκετά μεγάλη ώστε να σημαίνει απόρριψη της μηδενικής υπόθεσης, μπορεί να σημαίνει ότι είναι αλήθεια. Ή δεν είναι σωστό και συνέβη κάποιο απίθανο συμβάν λόγω του οποίου έγινε το σφάλμα. Αυτός ο τύπος σφάλματος ονομάζεται ψευδώς αρνητικός.
Πιθανότητα σφαλμάτων
Κατά τον έλεγχο στατιστικών υποθέσεων, υπάρχει ακόμα πιθανότητα να γίνει οποιοδήποτε από αυτά τα είδη σφαλμάτων. Τα ψευδή δεδομένα ή τα ψευδή συμπεράσματα είναι αρκετά πιθανά. Στην ιδανική περίπτωση, θα πρέπει να επιλεγεί ένα επίπεδο σημαντικότητας που να ελαχιστοποιεί την πιθανότητα ενός από αυτά τα σφάλματα. Για παράδειγμα, ο στατιστικός έλεγχος μηδενικών υποθέσεων μπορεί να έχει πολύ χαμηλό επίπεδο σημασίας. Αν και τα επίπεδα σημαντικότητας όπως 0,05 και 0,01 είναι κοινά σε πολλούς τομείς της επιστήμης, το πιο συχνά χρησιμοποιούμενο επίπεδο σημασίας είναι 310^-7, ή 0,0000003. Συχνά αναφέρεται ως "5-σίγμα". Αυτό σημαίνει ότι το συμπέρασμα ήταν τυχαίο με πιθανότητα 1 στα 3,5 εκατομμύρια ανεξάρτητες επαναλήψεις των πειραμάτων. Τα παραδείγματα ελέγχου στατιστικών υποθέσεων συχνά περιέχουν τέτοια σφάλματα. Αυτός είναι και ο λόγος για τον οποίο είναι σημαντικό να έχουμε ανεξάρτητα αποτελέσματα.επαλήθευση.
Παραδείγματα χρήσης στατιστικής επαλήθευσης
Υπάρχουν αρκετά κοινά παραδείγματα ελέγχου υποθέσεων στην πράξη. Ένα από τα πιο δημοφιλή είναι γνωστό ως «Tea Tasting». Η Δρ. Muriel Bristol, συνάδελφος του ιδρυτή της βιομετρίας Ρόμπερτ Φίσερ, ισχυρίστηκε ότι ήταν σε θέση να πει με βεβαιότητα εάν προστέθηκε πρώτα σε ένα φλιτζάνι τσάι ή γάλα. Ο Fisher προσφέρθηκε να της δώσει οκτώ φλιτζάνια (τέσσερα από κάθε ποικιλία) τυχαία. Το στατιστικό τεστ ήταν απλό: μέτρηση του αριθμού των επιτυχιών στην επιλογή ενός κυπέλλου. Η κρίσιμη περιοχή ήταν η μόνη επιτυχία από τις 4, πιθανώς με βάση το συνηθισμένο κριτήριο πιθανότητας (< 5%, 1 στους 70 ≈ 1,4%). Ο Fisher υποστήριξε ότι δεν απαιτείται εναλλακτική υπόθεση. Η κυρία προσδιόρισε σωστά κάθε κύπελλο, κάτι που θεωρήθηκε στατιστικά σημαντικό αποτέλεσμα. Αυτή η εμπειρία οδήγησε στο βιβλίο του Fisher Statistical Methods for Researchers.
Παράδειγμα κατηγορουμένου
Η διαδικασία της στατιστικής δίκης είναι συγκρίσιμη με ένα ποινικό δικαστήριο όπου ο κατηγορούμενος θεωρείται αθώος έως ότου αποδειχθεί η ενοχή του. Ο εισαγγελέας προσπαθεί να αποδείξει την ενοχή του κατηγορουμένου. Μόνο όταν υπάρχουν επαρκή στοιχεία για μια κατηγορία μπορεί να κριθεί ένοχος ο κατηγορούμενος. Στην αρχή της διαδικασίας υπάρχουν δύο υποθέσεις: «Ο κατηγορούμενος δεν είναι ένοχος» και «Ο κατηγορούμενος είναι ένοχος». Η υπόθεση της αθωότητας μπορεί να απορριφθεί μόνο όταν το λάθος είναι πολύ απίθανο επειδή δεν θέλει κανείς να καταδικάσει έναν αθώο κατηγορούμενο. Ένα τέτοιο σφάλμα ονομάζεται σφάλμα τύπου Ι και η εμφάνισή τουσπάνια ελέγχεται. Ως συνέπεια αυτής της ασύμμετρης συμπεριφοράς, το σφάλμα τύπου II, δηλαδή η αθώωση του δράστη, είναι πιο συνηθισμένο.
Τα στατιστικά είναι χρήσιμα κατά την ανάλυση μεγάλων ποσοτήτων δεδομένων. Αυτό ισχύει εξίσου για τον έλεγχο των υποθέσεων, οι οποίες μπορούν να δικαιολογήσουν τα συμπεράσματα ακόμη και αν δεν υπάρχει επιστημονική θεωρία. Στο παράδειγμα της γευσιγνωσίας τσαγιού, ήταν "προφανές" ότι δεν υπήρχε διαφορά μεταξύ του να ρίχνεις γάλα στο τσάι ή στο να ρίχνεις τσάι στο γάλα.
Η πραγματική πρακτική εφαρμογή του ελέγχου υποθέσεων περιλαμβάνει:
- δοκιμάζοντας εάν οι άνδρες έχουν περισσότερους εφιάλτες από τις γυναίκες;
- απόδοση εγγράφου;
- Αξιολόγηση της επίδρασης της πανσελήνου στη συμπεριφορά;
- καθορισμός του εύρους στο οποίο μια νυχτερίδα μπορεί να ανιχνεύσει ένα έντομο χρησιμοποιώντας μια ηχώ;
- επιλέγοντας τα καλύτερα μέσα για να κόψετε το κάπνισμα;
- Έλεγχος εάν τα αυτοκόλλητα προφυλακτήρα αντικατοπτρίζουν τη συμπεριφορά του ιδιοκτήτη του αυτοκινήτου.
Ο έλεγχος στατιστικών υποθέσεων παίζει σημαντικό ρόλο στη στατιστική γενικά και στα στατιστικά συμπεράσματα. Ο έλεγχος αξίας χρησιμοποιείται ως αντικατάσταση της παραδοσιακής σύγκρισης της προβλεπόμενης αξίας και του πειραματικού αποτελέσματος στον πυρήνα της επιστημονικής μεθόδου. Όταν μια θεωρία είναι ικανή μόνο να προβλέψει το πρόσημο μιας σχέσης, τα τεστ κατευθυνόμενης υπόθεσης μπορούν να διαμορφωθούν με τέτοιο τρόπο ώστε μόνο ένα στατιστικά σημαντικό αποτέλεσμα να υποστηρίζει τη θεωρία. Αυτή η μορφή θεωρίας αξιολόγησης είναι η πιο άκαμπτηκριτική για τη χρήση του ελέγχου υποθέσεων.