Η έννοια της πληροφοριακής εντροπίας υποδηλώνει τον αρνητικό λογάριθμο της συνάρτησης μάζας πιθανότητας για μια τιμή. Έτσι, όταν η πηγή δεδομένων έχει μια τιμή με μικρότερη πιθανότητα (δηλαδή, όταν συμβαίνει ένα συμβάν με χαμηλή πιθανότητα), το συμβάν φέρει περισσότερες "πληροφορίες" ("έκπληξη") από ό,τι όταν τα δεδομένα προέλευσης έχουν μια τιμή με μεγαλύτερη πιθανότητα.
Η ποσότητα των πληροφοριών που μεταφέρεται από κάθε γεγονός που ορίζεται με αυτόν τον τρόπο γίνεται μια τυχαία μεταβλητή της οποίας η αναμενόμενη τιμή είναι η εντροπία πληροφοριών. Γενικά, η εντροπία αναφέρεται στη διαταραχή ή την αβεβαιότητα και ο ορισμός της που χρησιμοποιείται στη θεωρία της πληροφορίας είναι άμεσα ανάλογος με αυτόν που χρησιμοποιείται στη στατιστική θερμοδυναμική. Η έννοια του IE εισήχθη από τον Claude Shannon στην εργασία του το 1948 "A Mathematical Theory of Communication". Από εδώ προήλθε ο όρος "πληροφοριακή εντροπία του Shannon".
Ορισμός και σύστημα
Το βασικό μοντέλο ενός συστήματος μετάδοσης δεδομένων αποτελείται από τρία στοιχεία: μια πηγή δεδομένων, ένα κανάλι επικοινωνίας και έναν δέκτη,και, όπως το θέτει ο Shannon, το «βασικό πρόβλημα επικοινωνίας» είναι να μπορεί ο δέκτης να αναγνωρίσει ποια δεδομένα δημιουργήθηκαν από την πηγή με βάση το σήμα που λαμβάνει μέσω του καναλιού. Η εντροπία παρέχει έναν απόλυτο περιορισμό στο μικρότερο δυνατό μέσο μήκος κωδικοποίησης χωρίς απώλειες συμπιεσμένων δεδομένων πηγής. Εάν η εντροπία της πηγής είναι μικρότερη από το εύρος ζώνης του καναλιού επικοινωνίας, τα δεδομένα που δημιουργεί μπορούν να μεταδοθούν αξιόπιστα στον δέκτη (τουλάχιστον θεωρητικά, ίσως παραβλέποντας ορισμένα πρακτικά ζητήματα όπως η πολυπλοκότητα του συστήματος που απαιτείται για τη μετάδοση των δεδομένων και ο χρόνος που μπορεί να χρειαστεί για τη μετάδοση δεδομένων).
Η εντροπία πληροφοριών συνήθως μετριέται σε bit (εναλλακτικά ονομάζεται "shannons") ή μερικές φορές σε "φυσικές μονάδες" (nats) ή δεκαδικά ψηφία (ονομάζονται "dits", "bans" ή "hartleys"). Η μονάδα μέτρησης εξαρτάται από τη βάση του λογαρίθμου, η οποία χρησιμοποιείται για τον προσδιορισμό της εντροπίας.
Ιδιότητες και λογάριθμος
Η κατανομή πιθανότητας καταγραφής είναι χρήσιμη ως μέτρο εντροπίας επειδή είναι προσθετική για ανεξάρτητες πηγές. Για παράδειγμα, η εντροπία ενός δίκαιου στοιχήματος ενός νομίσματος είναι 1 bit, ενώ η εντροπία των m-όγκων είναι m bit. Σε μια απλή αναπαράσταση, απαιτούνται bit log2(n) για να αναπαραστήσουν μια μεταβλητή που μπορεί να λάβει μία από τις n τιμές εάν το n είναι δύναμη 2. Εάν αυτές οι τιμές είναι εξίσου πιθανές, η εντροπία (σε bit) είναι ίσο με αυτόν τον αριθμό. Εάν μία από τις τιμές είναι πιο πιθανή από τις άλλες, η παρατήρηση ότι είναιΤο νόημα εμφανίζεται, είναι λιγότερο κατατοπιστικό από ό,τι αν προέκυπτε κάποιο λιγότερο γενικό αποτέλεσμα. Αντίθετα, τα πιο σπάνια συμβάντα παρέχουν πρόσθετες πληροφορίες παρακολούθησης.
Επειδή η παρατήρηση λιγότερο πιθανών γεγονότων είναι λιγότερο συχνή, δεν υπάρχει τίποτα κοινό στο ότι η εντροπία (που θεωρείται μέση πληροφορία) που λαμβάνεται από άνισα κατανεμημένα δεδομένα είναι πάντα μικρότερη ή ίση με log2(n). Η εντροπία είναι μηδέν όταν ορίζεται ένα αποτέλεσμα.
Η εντροπία πληροφοριών του Shannon ποσοτικοποιεί αυτές τις εκτιμήσεις όταν είναι γνωστή η κατανομή πιθανοτήτων των υποκείμενων δεδομένων. Η έννοια των παρατηρούμενων γεγονότων (η έννοια των μηνυμάτων) είναι άσχετη με τον ορισμό της εντροπίας. Το τελευταίο λαμβάνει υπόψη μόνο την πιθανότητα να δει ένα συγκεκριμένο γεγονός, επομένως οι πληροφορίες που ενσωματώνει είναι δεδομένα σχετικά με την υποκείμενη κατανομή των δυνατοτήτων, όχι για το νόημα των ίδιων των γεγονότων. Οι ιδιότητες της εντροπίας πληροφοριών παραμένουν οι ίδιες όπως περιγράφονται παραπάνω.
Θεωρία πληροφοριών
Η βασική ιδέα της θεωρίας της πληροφορίας είναι ότι όσο περισσότερα γνωρίζει κανείς για ένα θέμα, τόσο λιγότερες πληροφορίες μπορεί να πάρει για αυτό. Εάν ένα γεγονός είναι πολύ πιθανό, δεν αποτελεί έκπληξη όταν συμβαίνει και επομένως παρέχει λίγες νέες πληροφορίες. Αντίθετα, αν το γεγονός ήταν απίθανο, ήταν πολύ πιο ενημερωτικό ότι συνέβη το γεγονός. Επομένως, το ωφέλιμο φορτίο είναι μια αυξανόμενη συνάρτηση της αντίστροφης πιθανότητας του συμβάντος (1 / p).
Τώρα, αν συμβούν περισσότερα συμβάντα, εντροπίαμετρά το μέσο περιεχόμενο πληροφοριών που μπορείτε να περιμένετε εάν συμβεί ένα από τα συμβάντα. Αυτό σημαίνει ότι η ρίψη μιας μήτρας έχει περισσότερη εντροπία από την ρίψη ενός νομίσματος, επειδή κάθε έκβαση κρυστάλλου έχει μικρότερη πιθανότητα από κάθε έκβαση νομίσματος.
Λειτουργίες
Επομένως, η εντροπία είναι ένα μέτρο της μη προβλεψιμότητας μιας κατάστασης ή, το ίδιο πράγμα, του μέσου περιεχομένου πληροφοριών της. Για να κατανοήσετε διαισθητικά αυτούς τους όρους, εξετάστε το παράδειγμα μιας πολιτικής δημοσκόπησης. Συνήθως τέτοιες δημοσκοπήσεις γίνονται επειδή τα αποτελέσματα, για παράδειγμα, εκλογών δεν είναι ακόμη γνωστά.
Με άλλα λόγια, τα αποτελέσματα της έρευνας είναι σχετικά απρόβλεπτα και στην πραγματικότητα, η διεξαγωγή της και η εξέταση των δεδομένων παρέχει κάποιες νέες πληροφορίες. είναι απλώς διαφορετικοί τρόποι για να πούμε ότι η προηγούμενη εντροπία των αποτελεσμάτων της δημοσκόπησης είναι μεγάλη.
Σκεφτείτε τώρα την περίπτωση όπου η ίδια δημοσκόπηση πραγματοποιείται για δεύτερη φορά λίγο μετά την πρώτη. Δεδομένου ότι το αποτέλεσμα της πρώτης έρευνας είναι ήδη γνωστό, τα αποτελέσματα της δεύτερης έρευνας μπορούν να προβλεφθούν καλά και τα αποτελέσματα δεν πρέπει να περιέχουν πολλές νέες πληροφορίες. σε αυτήν την περίπτωση, η a priori εντροπία του δεύτερου αποτελέσματος δημοσκόπησης είναι μικρή σε σύγκριση με την πρώτη.
Πέταγμα νομίσματος
Σκεφτείτε τώρα το παράδειγμα της ανατροπής ενός νομίσματος. Υποθέτοντας ότι η πιθανότητα ουρών είναι ίδια με την πιθανότητα κεφαλών, η εντροπία μιας ρίψης νομίσματος είναι πολύ υψηλή, καθώς είναι ένα περίεργο παράδειγμα της πληροφοριακής εντροπίας ενός συστήματος.
Αυτό συμβαίνει γιατίότι είναι αδύνατο να προβλέψουμε ότι το αποτέλεσμα ενός νομίσματος θα πεταχτεί νωρίτερα: αν πρέπει να επιλέξουμε, το καλύτερο που μπορούμε να κάνουμε είναι να προβλέψουμε ότι το κέρμα θα προσγειωθεί στις ουρές, και αυτή η πρόβλεψη θα είναι σωστή με πιθανότητα 1 / 2. Μια τέτοια ρίψη νομίσματος έχει εντροπία ενός bit, καθώς υπάρχουν δύο πιθανά αποτελέσματα που συμβαίνουν με ίση πιθανότητα και η μελέτη του πραγματικού αποτελέσματος περιέχει ένα bit πληροφοριών.
Αντίθετα, η ανατροπή ενός νομίσματος χρησιμοποιώντας και τις δύο πλευρές με ουρές και χωρίς κεφαλές έχει μηδενική εντροπία, καθώς το νόμισμα θα προσγειώνεται πάντα σε αυτό το σύμβολο και το αποτέλεσμα μπορεί να προβλεφθεί τέλεια.
Συμπέρασμα
Εάν το σχήμα συμπίεσης είναι χωρίς απώλειες, που σημαίνει ότι μπορείτε πάντα να ανακτήσετε ολόκληρο το αρχικό μήνυμα αποσυμπιέζοντας, τότε το συμπιεσμένο μήνυμα έχει τον ίδιο όγκο πληροφοριών με το πρωτότυπο, αλλά μεταδίδεται με λιγότερους χαρακτήρες. Δηλαδή έχει περισσότερες πληροφορίες ή μεγαλύτερη εντροπία ανά χαρακτήρα. Αυτό σημαίνει ότι το συμπιεσμένο μήνυμα έχει μικρότερο πλεονασμό.
Χονδρικά, το θεώρημα κωδικοποίησης πηγαίου κώδικα του Shannon δηλώνει ότι ένα σχήμα συμπίεσης χωρίς απώλειες δεν μπορεί να μειώσει τα μηνύματα κατά μέσο όρο ώστε να έχουν περισσότερα από ένα bit πληροφοριών ανά bit μηνύματος, αλλά μπορεί να επιτευχθεί οποιαδήποτε τιμή μικρότερη από ένα bit πληροφοριών ανά bit Μηνύματα χρησιμοποιώντας το κατάλληλο σχήμα κωδικοποίησης. Η εντροπία ενός μηνύματος σε bit επί το μήκος του είναι ένα μέτρο του πόσες γενικές πληροφορίες περιέχει.