Στατιστικές πληροφορίες: συλλογή, επεξεργασία, ανάλυση

Πίνακας περιεχομένων:

Στατιστικές πληροφορίες: συλλογή, επεξεργασία, ανάλυση
Στατιστικές πληροφορίες: συλλογή, επεξεργασία, ανάλυση
Anonim

Σε όλη την ιστορία των στατιστικών, έχουν γίνει διάφορες προσπάθειες για τη δημιουργία μιας ταξινόμησης επιπέδων μέτρησης. Ο ψυχοφυσικός Stanley Smith Stevens όρισε τις κλίμακες ονομαστικής, τακτικής, διαστήματος και αναλογικής.

Ονομαστικές μετρήσεις δεν έχουν σημαντική σειρά κατάταξης μεταξύ των τιμών και επιτρέπουν οποιαδήποτε μετατροπή ένας προς έναν.

Οι κανονικές διαστάσεις έχουν ανακριβείς διαφορές μεταξύ των διαδοχικών τιμών, αλλά έχουν μια συγκεκριμένη σειρά αυτών των τιμών και επιτρέπουν οποιονδήποτε μετασχηματισμό διατήρησης σειράς.

Οι μετρήσεις διαστήματος έχουν σημαντικές αποστάσεις μεταξύ σημείων, αλλά η μηδενική τιμή είναι αυθαίρετη (όπως στην περίπτωση των μετρήσεων γεωγραφικού μήκους και θερμοκρασίας σε Κελσίου ή Φαρενάιτ) και επιτρέπει οποιονδήποτε γραμμικό μετασχηματισμό.

Οι διαστάσεις αναλογίας έχουν τόσο σημαντική μηδενική τιμή όσο και αποστάσεις μεταξύ διαφορετικών διαστάσεων και επιτρέπουν οποιονδήποτε μετασχηματισμό κλιμάκωσης.

Image
Image

Μεταβλητές και ταξινόμηση πληροφοριών

Επειδή οι μεταβλητέςπου αντιστοιχούν μόνο σε ονομαστικές ή τακτικές μετρήσεις δεν μπορούν εύλογα να μετρηθούν αριθμητικά και μερικές φορές ομαδοποιούνται ως κατηγορικές μεταβλητές. Οι μετρήσεις αναλογίας και διαστήματος ομαδοποιούνται ως ποσοτικές μεταβλητές, οι οποίες μπορεί να είναι είτε διακριτές είτε συνεχείς λόγω της αριθμητικής τους φύσης. Τέτοιες διακρίσεις συχνά σχετίζονται χαλαρά με τον τύπο δεδομένων στην επιστήμη των υπολογιστών, καθώς οι διχοτομικές κατηγορικές μεταβλητές μπορούν να αναπαρασταθούν από τιμές boolean, πολυτομικές κατηγορικές μεταβλητές με αυθαίρετους ακέραιους αριθμούς σε έναν ολοκληρωμένο τύπο δεδομένων και συνεχείς μεταβλητές με πραγματικά στοιχεία που περιλαμβάνουν υπολογισμό κινητής υποδιαστολής. Ωστόσο, η εμφάνιση των τύπων δεδομένων στατιστικών πληροφοριών εξαρτάται από την ταξινόμηση που εφαρμόζεται.

Στατιστικά στοιχεία για τους εργαζόμενους
Στατιστικά στοιχεία για τους εργαζόμενους

Άλλες ταξινομήσεις

Έχουν δημιουργηθεί και άλλες ταξινομήσεις στατιστικών δεδομένων (πληροφοριών). Για παράδειγμα, οι Mosteller και Tukey έκαναν διάκριση μεταξύ βαθμών, βαθμών, καταμετρημένων μετοχών, μετρήσεων, ποσών και υπολοίπων. Ο Nelder κάποτε περιέγραψε συνεχείς μετρήσεις, συνεχείς αναλογίες, συσχετισμό μετρήσεων και κατηγορικούς τρόπους επικοινωνίας δεδομένων. Όλες αυτές οι μέθοδοι ταξινόμησης χρησιμοποιούνται για τη συλλογή στατιστικών πληροφοριών.

Προβλήματα

Το ερώτημα εάν είναι σκόπιμο να εφαρμοστούν διαφορετικά είδη στατιστικών μεθόδων σε δεδομένα που λαμβάνονται μέσω διαφορετικών διαδικασιών μέτρησης (συλλογής) περιπλέκεται από ζητήματα που σχετίζονται με τη μετατροπή των μεταβλητών και την ακριβή ερμηνεία των ερωτήσεωνέρευνα. «Η σχέση μεταξύ των δεδομένων και αυτού που περιγράφει απλώς αντανακλά το γεγονός ότι ορισμένα είδη στατιστικών δηλώσεων μπορούν να έχουν τιμές αλήθειας που δεν είναι αμετάβλητες υπό ορισμένους μετασχηματισμούς. Το αν αξίζει να εξεταστεί ο μετασχηματισμός εξαρτάται από την ερώτηση που προσπαθείτε να απαντήσετε.

Ένα παράδειγμα στατιστικών πληροφοριών
Ένα παράδειγμα στατιστικών πληροφοριών

Τι είναι ο τύπος δεδομένων

Ο τύπος δεδομένων είναι ένα θεμελιώδες στοιχείο του σημασιολογικού περιεχομένου μιας μεταβλητής και ελέγχει τα είδη των κατανομών πιθανοτήτων που μπορούν να χρησιμοποιηθούν λογικά για την περιγραφή της μεταβλητής, τις πράξεις που επιτρέπονται σε αυτήν, τον τύπο της ανάλυσης παλινδρόμησης που χρησιμοποιείται για την πρόβλεψή της, κ.λπ. Η έννοια του τύπου δεδομένων είναι παρόμοια με την έννοια του επιπέδου μέτρησης, αλλά πιο συγκεκριμένη - για παράδειγμα, οι μετρήσεις δεδομένων απαιτούν διαφορετική κατανομή (Poisson ή διωνυμική) από ό,τι για τις μη αρνητικές πραγματικές τιμές, αλλά και οι δύο εμπίπτουν στο ίδιο επίπεδο μέτρησης (κλίμακα συντελεστών).

Στατιστικά στοιχεία για τους δικαστές
Στατιστικά στοιχεία για τους δικαστές

Ζυγαριές

Έχουν γίνει διάφορες προσπάθειες για τη δημιουργία μιας ταξινόμησης επιπέδων μέτρησης για την επεξεργασία στατιστικών πληροφοριών. Ο ψυχοφυσικός Stanley Smith Stevens όρισε τις κλίμακες ονομαστικής, τακτικής, διαστήματος και αναλογικής. Οι ονομαστικές μετρήσεις δεν έχουν σημαντική σειρά κατάταξης μεταξύ των τιμών και επιτρέπουν οποιαδήποτε μετατροπή ένας προς έναν. Οι συνήθεις μετρήσεις έχουν ανακριβείς διαφορές μεταξύ διαδοχικών τιμών, αλλά διαφέρουν στη σημαντική σειρά αυτών των τιμών και επιτρέπουνοποιοσδήποτε μετασχηματισμός διατήρησης της τάξης. Οι μετρήσεις διαστήματος έχουν σημαντικές αποστάσεις μεταξύ των μετρήσεων, αλλά η μηδενική τιμή είναι αυθαίρετη (όπως στην περίπτωση των μετρήσεων γεωγραφικού μήκους και θερμοκρασίας σε Κελσίου ή Φαρενάιτ) και επιτρέπει οποιονδήποτε γραμμικό μετασχηματισμό. Οι διαστάσεις αναλογίας έχουν τόσο σημαντική μηδενική τιμή όσο και αποστάσεις μεταξύ διαφορετικών καθορισμένων διαστάσεων και επιτρέπουν οποιονδήποτε μετασχηματισμό κλιμάκωσης.

Μοντέλο διαγράμματος
Μοντέλο διαγράμματος

Δεδομένα που δεν μπορούν να περιγραφούν χρησιμοποιώντας έναν μόνο αριθμό περιλαμβάνονται συχνά σε τυχαία διανύσματα πραγματικών τυχαίων μεταβλητών, αν και υπάρχει μια αυξανόμενη τάση να τα επεξεργάζεστε μόνοι σας. Τέτοια παραδείγματα θα συζητηθούν παρακάτω.

Τυχαία διανύσματα

Μεμονωμένα στοιχεία μπορεί να συσχετίζονται ή όχι. Παραδείγματα κατανομών που χρησιμοποιούνται για την περιγραφή συσχετισμένων τυχαίων διανυσμάτων είναι η πολυμεταβλητή κανονική κατανομή και η πολυμεταβλητή t-κατανομή. Σε γενικές γραμμές, μπορεί να υπάρχουν αυθαίρετες συσχετίσεις μεταξύ οποιωνδήποτε στοιχείων, ωστόσο αυτό γίνεται συχνά μη διαχειρίσιμο πάνω από ένα συγκεκριμένο μέγεθος, απαιτώντας πρόσθετους περιορισμούς στα συσχετισμένα στοιχεία.

στατιστικές ιδιότητες
στατιστικές ιδιότητες

Τυχαίοι πίνακες

Οι τυχαίοι πίνακες μπορούν να ταξινομηθούν γραμμικά και να αντιμετωπίζονται ως τυχαία διανύσματα, ωστόσο αυτός μπορεί να μην είναι ένας αποτελεσματικός τρόπος για την αναπαράσταση συσχετίσεων μεταξύ διαφορετικών στοιχείων. Ορισμένες κατανομές πιθανοτήτων έχουν σχεδιαστεί ειδικά για τυχαίους πίνακες, όπως ο κανονικός πίνακαςδιανομή και διανομή Wishart.

Τυχαίες ακολουθίες

Μερικές φορές θεωρούνται τα ίδια με τα τυχαία διανύσματα, αλλά σε άλλες περιπτώσεις ο όρος εφαρμόζεται ειδικά σε περιπτώσεις όπου κάθε τυχαία μεταβλητή συσχετίζεται μόνο με κοντινές μεταβλητές (όπως σε ένα μοντέλο Markov). Αυτή είναι μια ειδική περίπτωση του Bayesian δικτύου και χρησιμοποιείται για πολύ μεγάλες ακολουθίες, όπως γονιδιακές αλυσίδες ή μεγάλα έγγραφα κειμένου. Ορισμένα μοντέλα είναι ειδικά σχεδιασμένα για τέτοιες ακολουθίες, όπως οι κρυφές ακολουθίες Markov.

Τυπικό διάγραμμα
Τυπικό διάγραμμα

Τυχαίες διεργασίες

Μοιάζουν με τυχαίες ακολουθίες, αλλά μόνο όταν το μήκος της ακολουθίας είναι αόριστο ή άπειρο και τα στοιχεία της ακολουθίας υποβάλλονται σε επεξεργασία ένα προς ένα. Αυτό χρησιμοποιείται συχνά για δεδομένα που μπορούν να περιγραφούν ως χρονοσειρές. Αυτό ισχύει όταν πρόκειται, για παράδειγμα, για την τιμή της μετοχής την επόμενη μέρα.

Συμπέρασμα

Η ανάλυση των στατιστικών πληροφοριών εξαρτάται εξ ολοκλήρου από την ποιότητα της συλλογής τους. Το τελευταίο, με τη σειρά του, σχετίζεται έντονα με τις δυνατότητες κατάταξής του. Φυσικά, υπάρχουν πολλά είδη ταξινόμησης στατιστικών πληροφοριών, τα οποία ο αναγνώστης θα μπορούσε να δει μόνος του διαβάζοντας αυτό το άρθρο. Ωστόσο, η παρουσία αποτελεσματικών εργαλείων και η καλή γνώση των μαθηματικών, καθώς και η γνώση στον τομέα της κοινωνιολογίας, θα κάνουν τη δουλειά τους, επιτρέποντάς σας να διεξάγετε οποιαδήποτε έρευνα ή μελέτη χωρίς σημαντικές διορθώσεις για σφάλματα. Πηγές στατιστικών πληροφοριών στο έντυποάνθρωποι, οργανισμοί και άλλα θέματα της κοινωνιολογίας, ευτυχώς, εκπροσωπούνται σε μεγάλη αφθονία. Και καμία δυσκολία δεν μπορεί να σταθεί εμπόδιο σε έναν αληθινό εξερευνητή.

Συνιστάται: