Ανάλυση κειμένου συχνότητας: χαρακτηριστικά και παραδείγματα

Πίνακας περιεχομένων:

Ανάλυση κειμένου συχνότητας: χαρακτηριστικά και παραδείγματα
Ανάλυση κειμένου συχνότητας: χαρακτηριστικά και παραδείγματα
Anonim

Έχετε συναντήσει αυτήν την έννοια περισσότερες από μία φορές στη ζωή σας αν έπρεπε να δουλέψετε με κείμενα. Συγκεκριμένα, θα μπορούσατε να απευθυνθείτε σε ηλεκτρονικές αριθμομηχανές που πραγματοποιούν ακριβώς την ανάλυση συχνότητας του κειμένου. Αυτά τα εύχρηστα εργαλεία δείχνουν πόσες φορές εμφανίζεται ένας συγκεκριμένος χαρακτήρας ή γράμμα σε οποιοδήποτε απόσπασμα κειμένου. Συχνά εμφανίζεται και ένα ποσοστό. Γιατί χρειάζεται αυτό; Πώς συμβάλλει η ανάλυση συχνότητας κειμένου στο «σπάσιμο» των απλών κρυπτογράφησης; Ποια είναι η ουσία του, ποιος το επινόησε; Θα απαντήσουμε σε αυτές και άλλες σημαντικές ερωτήσεις σχετικά με το θέμα κατά τη διάρκεια του άρθρου.

Ορισμός

Η ανάλυση συχνότητας είναι μία από τις ποικιλίες κρυπτανάλυσης. Βασίζεται στην υπόθεση των επιστημόνων για την ύπαρξη μιας στατιστικής μη τετριμμένης κατανομής μεμονωμένων χαρακτήρων και των κανονικών τους ακολουθιών τόσο σε απλό όσο και σε κρυπτογραφημένο κείμενο.

Πιστεύεται ότι μια τέτοια διανομή, μέχρι την αντικατάσταση μεμονωμένων χαρακτήρων, θα διατηρηθεί επίσης στις διαδικασίες κρυπτογράφησης/αποκρυπτογράφησης.

ανάλυση συχνότητας συστημάτων
ανάλυση συχνότητας συστημάτων

χαρακτηριστικό διαδικασίας

Τώρα ας ρίξουμε μια ματιά στην ανάλυση συχνότητας με απλά λόγια. Αυτό σημαίνει ότι ο αριθμός των εμφανίσεων του ίδιου αλφαβητικού χαρακτήρα σε κείμενα επαρκούς έκτασης είναι ο ίδιος σε διαφορετικά κείμενα γραμμένα στην ίδια γλώσσα.

Και τώρα τι γίνεται με τη μονοαλφαβητική κρυπτογράφηση; Υποτίθεται ότι εάν υπάρχει ένας χαρακτήρας με παρόμοια πιθανότητα εμφάνισης στην ενότητα με κρυπτογραφημένο κείμενο, τότε είναι ρεαλιστικό να υποθέσουμε ότι είναι αυτό το κρυπτογραφημένο γράμμα.

Οι οπαδοί της ανάλυσης κειμένου συχνότητας εφαρμόζουν τον ίδιο συλλογισμό σε διαγράμματα (ακολουθίες δύο γραμμάτων). Τριγράμματα - αυτό ισχύει για την περίπτωση ήδη πολυαλφαβητικών κρυπτογράφησης.

Ιστορικό της μεθόδου

Η ανάλυση συχνότητας των λέξεων δεν είναι εύρημα της νεωτερικότητας. Είναι γνωστό στον επιστημονικό κόσμο από τον 9ο αιώνα. Η δημιουργία του συνδέεται με το όνομα Al-Kindi.

Ομως οι γνωστές περιπτώσεις εφαρμογής της μεθόδου ανάλυσης συχνότητας ανήκουν σε πολύ μεταγενέστερη περίοδο. Το πιο εντυπωσιακό παράδειγμα εδώ είναι η αποκρυπτογράφηση αιγυπτιακών ιερογλυφικών, που δημιουργήθηκε το 1822 από τον J.-F. Champollion.

Αν στραφούμε στη μυθοπλασία, μπορούμε να βρούμε πολλές ενδιαφέρουσες αναφορές σε αυτήν τη μέθοδο αποκρυπτογράφησης:

  • Conan Doyle - "The Dancing Men".
  • Ιούλιος Βερν - "Τα παιδιά του καπετάνιου Γκραντ".
  • Edgar Poe - "Gold Bug".

Ωστόσο, από τα μέσα του περασμένου αιώνα, οι περισσότεροι αλγόριθμοι που χρησιμοποιούνται στην κρυπτογράφηση έχουν αναπτυχθεί λαμβάνοντας υπόψη την αντοχή τους σε τέτοια κρυπτανάλυση συχνοτήτων. Ως εκ τούτουσήμερα χρησιμοποιούνται συχνότερα μόνο για την εκπαίδευση μελλοντικών κρυπτογράφων.

ανάλυση συχνότητας κειμένου
ανάλυση συχνότητας κειμένου

Βασική μέθοδος

Ας παρουσιάσουμε τώρα αναλυτικά την ανάλυση απόκρισης συχνότητας. Αυτό το είδος ανάλυσης βασίζεται άμεσα στο γεγονός ότι το τεστ αποτελείται από λέξεις και αυτές, με τη σειρά τους, από γράμματα. Ο αριθμός των γραμμάτων που συμπληρώνουν τα εθνικά αλφάβητα είναι περιορισμένος. Τα γράμματα μπορούν απλώς να παρατίθενται εδώ.

Τα πιο σημαντικά χαρακτηριστικά ενός τέτοιου κειμένου θα είναι τόσο η επανάληψη γραμμάτων, διάφορα διγράμματα, τριγράμματα και ν-γραμμάρια, όσο και η συμβατότητα διαφόρων γραμμάτων μεταξύ τους, η εναλλαγή συμφώνων / φωνηέντων και άλλα ποικιλίες αυτών των συμβόλων.

Η κύρια ιδέα των μεθόδων είναι η μέτρηση των περιπτώσεων πιθανών n-γραμμαρίων (που συμβολίζονται με nm) σε απλά κείμενα αρκετά μεγάλα για ανάλυση (που συμβολίζονται με T=t1t2…tl) που αποτελούνται από γράμματα του εθνικού αλφαβήτου (συμβολίζεται με {a1, a2, …, an}). Όλα τα παραπάνω προκαλούν ορισμένα διαδοχικά m-grams του κειμένου:

t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.

Εάν αυτός είναι ο αριθμός των εμφανίσεων του m-gram ai1ai2…στόχος σε ένα συγκεκριμένο κείμενο T, και L είναι ο συνολικός αριθμός των m-grams που αναλύθηκαν από τον ερευνητή, τότε είναι δυνατό να διαπιστωθεί εμπειρικά ότι για αρκετά μεγάλο L, οι συχνότητες για ένα τέτοιο m-gram θα είναι ελάχιστα διαφορετικές μεταξύ τους.

ανάλυση συχνότητας
ανάλυση συχνότητας

Συχνά απαντώμενα γράμματα του ρωσικού αλφαβήτου

Αλλά η ανάλυση χρόνου-συχνότητας, παρά την παρόμοια ονομασία, δεν έχει καμία σχέση με το θέμα της συζήτησής μας. Αυτό το είδος ανάλυσης πραγματοποιείται γιασήματα από σταθμούς ραντάρ χαμηλής παρατήρησης που χρησιμοποιούν ειδικό μετασχηματισμό κυματιδίων.

Τώρα ας επιστρέψουμε στο κύριο θέμα. Κατά τη διεξαγωγή ανάλυσης συχνότητας, μπορείτε να μάθετε ποια γράμματα του ρωσικού αλφαβήτου βρίσκονται πιο συχνά σε αρκετά ογκώδη κείμενα (ποσοστό από 0,062 έως 0,018):

  • A.
  • V.
  • D.
  • F.
  • I.
  • K.
  • M.
  • O.
  • R.
  • T.
  • F.
  • T.
  • Sh.
  • β.
  • E.
  • I.

Έχει εισαχθεί ακόμη και ένας ειδικός μνημονικός κανόνας, ο οποίος βοηθά στην εκμάθηση των πιο κοινών γραμμάτων του ρωσικού αλφαβήτου. Για να το κάνετε αυτό, αρκεί να θυμάστε μόνο μια λέξη - "hayloft".

Σε γενικές περιπτώσεις, η συχνότητα χρήσης των γραμμάτων σε ποσοστιαίες τιμές ρυθμίζεται απλά: ο ειδικός μετράει πόσες φορές εμφανίζεται το γράμμα στο κείμενο και, στη συνέχεια, διαιρεί την τιμή που προκύπτει με τον συνολικό αριθμό χαρακτήρων στο κείμενο. Και για να εκφράσουμε αυτή την τιμή ως ποσοστό, αρκεί να την πολλαπλασιάσουμε επί 100.

Είναι σημαντικό να λάβετε υπόψη ότι η συχνότητα θα εξαρτηθεί όχι μόνο από τον όγκο του κειμένου, αλλά και από τη φύση του. Για παράδειγμα, σε τεχνικές πηγές το γράμμα "F" εμφανίζεται πολύ πιο συχνά από ό,τι στη μυθοπλασία. Επομένως, για αντικειμενικά αποτελέσματα, ένας ειδικός πρέπει να πληκτρολογήσει κείμενα ποικίλης φύσης και στυλ για έρευνα.

Προγράμματα ανάλυσης συχνότητας κειμένου
Προγράμματα ανάλυσης συχνότητας κειμένου

Δι-, τρι-, τέσσερα γραμμάρια

Σε κείμενα με νόημα, μπορείτε επίσης να βρείτε τα πιο κοινά (αντίστοιχα, τα πιοεπαναλαμβανόμενοι) συνδυασμοί δύο ή περισσότερων γραμμάτων. Οι ειδικοί έχουν επίσης συντάξει αρκετούς πίνακες, οι οποίοι υποδεικνύουν τις συχνότητες παρόμοιων διαγραμμάτων διαφόρων αλφαβήτων.

Όσον αφορά τα ρωσικά, η ανάλυση συχνότητας συστημάτων ογκωδών κειμένων με νόημα κατέστησε δυνατό τον καθορισμό των πιο κοινών διγραμμάτων και τριγραμμάτων:

  • EN.
  • ST.
  • ΑΛΛΑ.
  • NOT.
  • ΕΝΕΡΓΟ.
  • RA.
  • OV.
  • KO.
  • VO.
  • STO.
  • ΝΕΟ
  • ENO.
  • TOV.
  • OVA.
  • OVO.

Προτιμώμενες σχέσεις μεταξύ των γραμμάτων

Και δεν είναι όλες αυτές οι δυνατότητες που μπορεί να προσφέρει η ανάλυση συχνότητας στους ερευνητές κειμένου. Με τη συστηματοποίηση πληροφοριών από παρόμοιους πίνακες διγραμμάτων και τριγραμμάτων, είναι δυνατή η εξαγωγή δεδομένων για τους πιο συνηθισμένους συνδυασμούς γραμμάτων. Ή, με άλλα λόγια, οι προτιμώμενες σχέσεις τους μεταξύ τους.

Μια τέτοια εκτενής μελέτη έχει ήδη πραγματοποιηθεί από ειδικούς. Το αποτέλεσμα ήταν ένας πίνακας όπου, μαζί με κάθε γράμμα του αλφαβήτου, υποδεικνύονταν και οι γείτονές του. Επιπλέον, εκείνοι οι χαρακτήρες που βρίσκονται συχνά τόσο αμέσως πριν όσο και μετά από αυτό. Τα γράμματα στον πίνακα δεν γράφονται τυχαία. Πιο κοντά στο σύμβολο, υποδεικνύονται οι πιο συχνοί γείτονες, περαιτέρω - πιο σπάνιοι.

Εξετάστε παραδείγματα:

  • Γράμμα "Α". Οι ακόλουθες προτιμώμενες συνδέσεις διακρίνονται εδώ: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. Από εδώ βλέπουμε ότι πιο συχνά πριν από το «Α» στα κείμενα υπάρχει «Η» («ΝΑ»). Και μετά το "Α" πιο συχνά σε κείμενα στα ρωσικά μπορούμε να συναντήσουμε το "L"("AL").
  • Γράμμα "M". Οι ειδικοί έχουν εντοπίσει τέτοιες προτιμώμενες συνδέσεις: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s".
  • Γράμμα "β". Οι προτιμώμενες συνδέσεις είναι οι εξής: "n-s-t-l-b-n-k-v-p-s-e-o-i".
  • Γράμμα "Sh". Προτιμώμενες συνδέσεις: "e-b-a-i-u-Sch-e-i-a".
  • Γράμμα "P". Προτιμώμενες συνδέσεις με αυτό το σύμβολο του ρωσικού αλφαβήτου: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l".
ανάλυση χρόνου-συχνότητας
ανάλυση χρόνου-συχνότητας

Τι ορίζει την ανάλυση;

Τα σύγχρονα προγράμματα ανάλυσης κειμένου συχνότητας βοηθούν στη μελέτη μεγάλου όγκου μιας μεγάλης ποικιλίας άρθρων, δοκιμίων, αποσπασμάτων και ούτω καθεξής. Οι ακόλουθες πληροφορίες παρέχονται στον ερευνητή ως πρότυπο:

  • Συνολικός αριθμός χαρακτήρων στο κείμενο.
  • Αριθμός διαστημάτων που χρησιμοποιούνται από τον συγγραφέα.
  • Αριθμός ψηφίων.
  • Πληροφορίες σχετικά με χρησιμοποιημένα σημεία στίξης - τελείες, κόμματα κ.λπ.
  • Ο αριθμός των γραμμάτων σε καθένα από τα διαθέσιμα αλφάβητα - Κυριλλικό, Λατινικό, κ.λπ.
  • Πληροφορίες σχετικά με τη συχνότητα χρήσης κάθε γράμματος και συμβόλου στο κείμενο - ο αριθμός των αναφορών και το ποσοστό σε σύγκριση με ολόκληρο το κείμενο.

Αγώνας ενάντια στην υπερβελτιστοποίηση και τον υπερκορεσμό

Γιατί πραγματοποιείται η ανάλυση συχνότητας κειμένου; Είναι απλώς για λόγους περιέργειας - να διαπιστωθεί ποιοι χαρακτήρες στο γραπτό κείμενο αποδείχθηκε ότι συναντώνται συχνά; Όχι, η κύρια εφαρμογή της ανάλυσης είναι πρακτική και βρίσκεται αλλού.

Τα N-γραμμάρια περιλαμβάνουν όχι μόνο σταθερά διγράμματα και τρίγραμμα. Στο ίδιοΟι κατηγορίες περιλαμβάνουν λέξεις-κλειδιά (ετικέτες), συντοπίσεις. Δηλαδή, σταθεροί συνδυασμοί που αποτελούνται από δύο ή περισσότερες λέξεις. Διακρίνονται από το γεγονός ότι τέτοιες συνθέσεις εμφανίζονται μαζί στο κείμενο και ταυτόχρονα φέρουν ένα ορισμένο σημασιολογικό φορτίο.

Αυτό είναι καλό σε αδίστακτους ειδικούς SEO. Στη δουλειά τους, μερικές φορές κάνουν κατάχρηση της επανάληψης ετικετών και λέξεων-κλειδιών στο κείμενο προκειμένου να αυξήσουν τεχνητά τη συνάφεια μιας συγκεκριμένης ιστοσελίδας. Προσπαθούν να εξαπατήσουν το σύστημα με ένα τέτοιο «κόλπο»: μετατρέποντας έναν φυσικό συνδυασμό με τον συνηθισμένο συνδυασμό λέξεων, που είναι παραδοσιακός για τη ρωσική γλώσσα («αγοράστε ένα παλτό βιζόν») σε ασυνεπή. Δηλαδή, λαμβάνεται με την αναδιάταξη των λέξεων σε ένα τόσο φυσικό N-γραμμάριο ("αγοράστε ένα παλτό βιζόν").

Σήμερα όμως, οι αλγόριθμοι αναζήτησης έχουν μάθει να εντοπίζουν την υπερβελτιστοποίηση εξίσου αποτελεσματικά με το υπερβολικό ανεπιθύμητο περιεχόμενο - υπερκορεσμό κειμένου με λέξεις-κλειδιά, ετικέτες που επηρεάζουν την κατάταξη των αποτελεσμάτων στη σελίδα αναζήτησης. Οι υπερβελτιστοποιημένες σελίδες πλέον, αντίθετα, κατατάσσονται χαμηλότερα από το ερώτημα του χρήστη. Και οι ίδιοι οι άνθρωποι δεν τείνουν να διαβάζουν κείμενο χωρίς νόημα, υπερκορεσμένο με ετικέτες, προτιμώντας χρήσιμες πληροφορίες σε έναν άλλο πόρο.

μέθοδος ανάλυσης συχνότητας
μέθοδος ανάλυσης συχνότητας

Βοηθώντας την ιδιωτική ανάλυση για ειδικούς SEO

Έτσι, τα σύγχρονα φίλτρα κειμένου μηχανών αναζήτησης σήμερα προτιμούν εκείνες τις σελίδες του Διαδικτύου, οι πληροφορίες στις οποίες δεν είναι μόνο ευανάγνωστες, αλλά και χρήσιμες για τους επισκέπτες. Για να βελτιστοποιήσουν την εργασία τους για νέα πρότυπα, ειδικοί SEOκαι στραφείτε στην ανάλυση συχνότητας του κειμένου. Πολλές δημοφιλείς υπηρεσίες το παρέχουν σήμερα.

Η ανάλυση συχνότητας βοηθά στην αναθεώρηση του κειμένου που ετοιμάζεται για δημοσίευση για λόγους πληροφόρησης. Εξαλείψτε τον περιττό πλεονασμό ετικετών και φράσεων κλειδιά. Σας επιτρέπει επίσης να επιστήσετε την προσοχή του συγγραφέα σε αφύσικούς συνδυασμούς λέξεων που προκαλούν υποψίες στα φίλτρα κειμένου των μηχανών αναζήτησης.

ανάλυση απόκρισης συχνότητας
ανάλυση απόκρισης συχνότητας

Η ανάλυση συχνότητας του κειμένου βοηθά επομένως στον προσδιορισμό της συχνότητας αναφοράς ενός συγκεκριμένου χαρακτήρα στην πηγή. Η μέθοδος χρησιμοποιείται σήμερα για την αξιολόγηση της υπερφόρτωσης κειμένου με ετικέτες, αφύσικες μεταθέσεις λέξεων.

Συνιστάται: