Πριν από αρκετές δεκαετίες, οι επιστήμονες μπορούσαν μόνο να ονειρεύονται την αυτοματοποίηση της γλωσσικής έρευνας. Η εργασία έγινε στο χέρι, ένας μεγάλος αριθμός μαθητών συμμετείχε σε αυτήν, υπήρχε σημαντική πιθανότητα λάθους «απροσεξίας» και το πιο σημαντικό, όλα πήραν πολύ, πολύ χρόνο.
Με την ανάπτυξη της τεχνολογίας των υπολογιστών, κατέστη δυνατή η διεξαγωγή έρευνας πολύ πιο γρήγορα, και σήμερα ένας από τους πολλά υποσχόμενους τομείς στη μελέτη της γλώσσας είναι η γλωσσολογία του σώματος. Το κύριο χαρακτηριστικό του είναι η χρήση μεγάλων ποσοτήτων κειμενικών πληροφοριών, που ενοποιούνται σε μια ενιαία βάση δεδομένων, επισημαίνονται με ειδικό τρόπο και ονομάζονται corpus.
Σήμερα, υπάρχουν πολλά σώματα που δημιουργούνται για διαφορετικούς σκοπούς, βασισμένα σε διαφορετικό γλωσσικό υλικό, που καλύπτουν από εκατομμύρια έως δεκάδες δισεκατομμύρια λεξιλογικές μονάδες. Αυτή η κατεύθυνση αναγνωρίζεται ως πολλά υποσχόμενη και καταδεικνύει σημαντική πρόοδο στην επίτευξη εφαρμοσμένων και ερευνητικών στόχων. Επαγγελματίες, με τον ένα ή τον άλλο τρόπο ασχολούνταιφυσική γλώσσα, συνιστάται να εξοικειωθείτε με τα σώματα κειμένου τουλάχιστον σε βασικό επίπεδο.
Ιστορία της γλωσσολογίας του σώματος
Η διαμόρφωση αυτής της κατεύθυνσης συνδέεται με τη δημιουργία του Brown Corps στις ΗΠΑ στις αρχές της δεκαετίας του '60 του περασμένου αιώνα. Η συλλογή των κειμένων αποτελούνταν από μόνο 1 εκατομμύριο μορφές λέξεων και σήμερα ένα σώμα τέτοιου όγκου θα ήταν εντελώς μη ανταγωνιστικό. Αυτό οφείλεται σε μεγάλο βαθμό στον ρυθμό ανάπτυξης της τεχνολογίας υπολογιστών, καθώς και στην αυξανόμενη ζήτηση για νέους ερευνητικούς πόρους.
Στη δεκαετία του '90, η γλωσσολογία του σώματος διαμορφώθηκε σε έναν πλήρη και ανεξάρτητο κλάδο, συλλογές κειμένων συγκεντρώθηκαν και σημειώθηκαν για πολλές δεκάδες γλώσσες. Κατά τη διάρκεια αυτής της περιόδου, για παράδειγμα, δημιουργήθηκε το British National Corpus για 100 εκατομμύρια χρήσεις λέξεων.
Καθώς αναπτύσσεται αυτή η κατεύθυνση της γλωσσολογίας, ο όγκος των κειμένων γίνεται μεγαλύτερος (και φτάνει σε δισεκατομμύρια μονάδες λεξιλογίου) και η σήμανση γίνεται όλο και πιο διαφορετική. Σήμερα, στον χώρο του Διαδικτύου, μπορείτε να βρείτε σώματα γραπτού και προφορικού λόγου, πολύγλωσσου και εκπαιδευτικού, εστιασμένου στη μυθοπλασία ή την ακαδημαϊκή λογοτεχνία, καθώς και πολλές άλλες ποικιλίες.
Τι περιπτώσεις υπάρχουν
Οι τύποι Corpus στη γλωσσολογία σωμάτων μπορούν να αναπαρασταθούν με διάφορους τρόπους. Είναι διαισθητικά σαφές ότι η βάση για την ταξινόμηση μπορεί να είναι η γλώσσα των κειμένων (ρωσικά, γερμανικά), ο τρόπος πρόσβασης (ανοιχτός κώδικας, κλειστός κώδικας, εμπορικός), το είδος του υλικού πηγής (λογοτεχνίαλογοτεχνία, ντοκιμαντέρ, ακαδημαϊκή, δημοσιογραφία).
Με έναν ενδιαφέροντα τρόπο πραγματοποιείται η παραγωγή υλικού που αντιπροσωπεύει τον προφορικό λόγο. Δεδομένου ότι η σκόπιμη καταγραφή μιας τέτοιας ομιλίας θα δημιουργούσε τεχνητές συνθήκες για τους ερωτηθέντες και το υλικό που θα προέκυπτε δεν θα μπορούσε να ονομαστεί «αυθόρμητο», η σύγχρονη γλωσσολογία του σώματος πήγε στον άλλο δρόμο. Ο εθελοντής είναι εξοπλισμένος με μικρόφωνο, και κατά τη διάρκεια της ημέρας καταγράφονται όλες οι συνομιλίες στις οποίες συμμετέχει. Οι γύρω άνθρωποι, φυσικά, δεν μπορούν να γνωρίζουν ότι κατά τη διάρκεια μιας καθημερινής συζήτησης συμβάλλουν στην ανάπτυξη της επιστήμης.
Αργότερα, οι ληφθείσες ηχογραφήσεις αποθηκεύονται στην τράπεζα δεδομένων και συνοδεύονται από τυπωμένο κείμενο σαν μεταγραφή. Με αυτόν τον τρόπο, η σήμανση που απαιτείται για τη δημιουργία ενός σώματος προφορικού καθημερινού λόγου καθίσταται δυνατή.
Αίτηση
Όπου είναι δυνατή η χρήση γλώσσας, είναι επίσης δυνατή η χρήση σωμάτων κειμένου. Ο σκοπός της χρήσης μεθόδων corpus στη γλωσσολογία μπορεί να είναι:
- Δημιουργία προγραμμάτων συναισθήματος που χρησιμοποιούνται ευρέως στην πολιτική και τις επιχειρήσεις για την παρακολούθηση θετικών και αρνητικών σχολίων από ψηφοφόρους και πελάτες, αντίστοιχα.
- Σύνδεση του συστήματος πληροφοριών με λεξικά και μεταφραστές για βελτίωση της απόδοσής τους.
- Διάφορες ερευνητικές εργασίες που συμβάλλουν στην κατανόηση της δομής της γλώσσας, της ιστορίας της ανάπτυξής της και προβλέψεων για την αλλαγή της στο εγγύς μέλλον.
- Ανάπτυξη συστημάτων εξαγωγής πληροφοριών με βάση μορφολογικά,συντακτικά, σημασιολογικά και άλλα χαρακτηριστικά.
- Βελτιστοποίηση της εργασίας διαφόρων γλωσσικών συστημάτων κ.λπ.
Χρήση κελυφών
Η διεπαφή πόρων είναι παρόμοια με μια τυπική μηχανή αναζήτησης και ζητά από τον χρήστη να εισαγάγει κάποια λέξη ή συνδυασμό λέξεων για αναζήτηση στη βάση πληροφοριών. Εκτός από την ακριβή φόρμα αιτήματος, μπορείτε να χρησιμοποιήσετε την εκτεταμένη έκδοση, η οποία σας επιτρέπει να βρείτε πληροφορίες κειμένου με σχεδόν οποιοδήποτε γλωσσικό κριτήριο.
Η βάση για την αναζήτηση μπορεί να είναι:
- ανήκουν σε μια συγκεκριμένη ομάδα μερών του λόγου;
- γραμματικά χαρακτηριστικά;
- σημασιολογία;
- στιλιστικός και συναισθηματικός χρωματισμός.
Επίσης, μπορείτε να συνδυάσετε κριτήρια αναζήτησης για μια ακολουθία λέξεων: για παράδειγμα, βρείτε όλες τις εμφανίσεις ενός ρήματος σε ενεστώτα, πρώτο πρόσωπο, ενικό ακολουθούμενο από την πρόθεση "in" και ένα ουσιαστικό στην κατηγορούμενη περίπτωση. Η επίλυση μιας τόσο απλής εργασίας απαιτεί από τον χρήστη μερικά δευτερόλεπτα και απαιτεί μόνο μερικά κλικ του ποντικιού στα δεδομένα πεδία.
Διαδικασία δημιουργίας
Η ίδια η αναζήτηση μπορεί να πραγματοποιηθεί τόσο σε όλα τα υποσώματα όσο και σε ένα, ειδικά επιλεγμένο, ανάλογα με τις ανάγκες κατά την επίτευξη ενός συγκεκριμένου στόχου:
- Πρώτα από όλα, καθορίζεται ποια κείμενα θα αποτελέσουν τη βάση του corpus. Για πρακτικούς σκοπούς, χρησιμοποιούνται συχνά δημοσιογραφικό υλικό, υλικό εφημερίδων, σχόλια στο Διαδίκτυο. Σε ερευνητικά έργα, τα περισσότεραδιάφοροι τύποι σωμάτων, αλλά τα κείμενα πρέπει να επιλέγονται σε κάποια κοινή βάση.
- Το σύνολο κειμένων που προκύπτει είναι προεπεξεργασμένο, τα λάθη διορθώνονται, εάν υπάρχουν, προετοιμάζεται μια βιβλιογραφική και εξωγλωσσική περιγραφή του κειμένου.
- Όλες οι μη κειμενικές πληροφορίες φιλτράρονται: γραφικά, εικόνες, πίνακες διαγράφονται.
- Τα διακριτικά, συνήθως λέξεις, διατίθενται για περαιτέρω επεξεργασία.
- Τέλος, πραγματοποιείται μορφολογική, συντακτική και άλλη σήμανση του συνόλου στοιχείων που προκύπτει.
Το αποτέλεσμα όλων των πράξεων που εκτελούνται είναι μια συντακτική δομή με ένα σύνολο στοιχείων κατανεμημένων πάνω της, για καθένα από τα οποία ορίζεται ένα μέρος του λόγου, γραμματικά και, σε ορισμένες περιπτώσεις, σημασιολογικά χαρακτηριστικά.
Δυσκολίες στη δημιουργία περιπτώσεων
Είναι σημαντικό να καταλάβετε ότι για να αποκτήσετε ένα corpus, δεν αρκεί να συγκεντρώσετε πολλές λέξεις ή προτάσεις. Από τη μια πλευρά, μια συλλογή κειμένων πρέπει να είναι ισορροπημένη, δηλαδή να παρουσιάζει διαφορετικούς τύπους κειμένων σε ορισμένες αναλογίες. Από την άλλη πλευρά, το περιεχόμενο της θήκης πρέπει να επισημαίνεται με ειδικό τρόπο.
Το πρώτο ζήτημα επιλύεται κατόπιν συμφωνίας: για παράδειγμα, η συλλογή περιλαμβάνει το 60% των κειμένων μυθοπλασίας, το 20% των ντοκιμαντέρ, ένα συγκεκριμένο ποσοστό δίνεται στη γραπτή παρουσίαση προφορικού λόγου, νομοθετικές πράξεις, επιστημονικές εργασίες κ.λπ. Η ιδανική συνταγή για ένα ισορροπημένο σώμα σήμερα δεν υπάρχει.
Η δεύτερη ερώτηση σχετικά με τη σήμανση περιεχομένου είναι πιο δύσκολο να λυθεί. Υπάρχουν ειδικά προγράμματα και αλγόριθμοι που χρησιμοποιούνται για αυτόματη σήμανση κειμένων, αλλά δεν δίνουν 100% αποτέλεσμα, μπορεί να προκαλέσουν βλάβες και να απαιτήσουν χειροκίνητη βελτίωση. Οι ευκαιρίες και τα προβλήματα για την επίλυση αυτού του προβλήματος περιγράφονται λεπτομερώς στο έργο του V. P. Zakharov για τη γλωσσολογία του σώματος.
Η σήμανση κειμένου πραγματοποιείται σε διάφορα επίπεδα, τα οποία θα παραθέσουμε παρακάτω.
Μορφολογική σήμανση
Από το σχολικό παγκάκι, θυμόμαστε ότι στη ρωσική γλώσσα υπάρχουν διαφορετικά μέρη του λόγου και το καθένα από αυτά έχει τα δικά του χαρακτηριστικά. Για παράδειγμα, ένα ρήμα έχει κατηγορίες διάθεσης και χρόνου που δεν έχει ένα ουσιαστικό. Ένας φυσικός ομιλητής απορρίπτει ουσιαστικά και συζεύγει ρήματα χωρίς δισταγμό, αλλά η χειρωνακτική εργασία δεν είναι κατάλληλη για τη σήμανση ενός σώματος 100 εκατομμυρίων χρήσεων λέξεων. Όλες οι απαραίτητες λειτουργίες μπορούν να εκτελεστούν από υπολογιστή, ωστόσο, για αυτό πρέπει να διδαχθεί.
Η μορφολογική σήμανση είναι απαραίτητη για να «κατανοήσει» ο υπολογιστής κάθε λέξη ως μέρος του λόγου που έχει ορισμένα γραμματικά χαρακτηριστικά. Δεδομένου ότι ένας αριθμός κανονικών κανόνων λειτουργεί στη ρωσική (όπως και σε οποιαδήποτε άλλη) γλώσσα, είναι δυνατό να δημιουργηθεί μια αυτόματη διαδικασία για μορφολογική ανάλυση τοποθετώντας έναν αριθμό αλγορίθμων στη μηχανή. Ωστόσο, υπάρχουν εξαιρέσεις στον κανόνα, καθώς και διάφοροι παράγοντες που περιπλέκουν. Ως αποτέλεσμα, η καθαρή ανάλυση υπολογιστή σήμερα απέχει πολύ από το να είναι ιδανική, και ακόμη και τα σφάλματα 4% δίνουν μια τιμή 4 εκατομμυρίων λέξεων σε ένα σώμα 100 εκατομμυρίων μονάδων, που απαιτούν χειροκίνητη βελτίωση.
Αυτό το πρόβλημα περιγράφεται λεπτομερώς από το βιβλίο του V. P. Zakharov "Corpus Linguistics".
Συντακτική σήμανση
Η συντακτική ανάλυση ή ανάλυση είναι μια διαδικασία που καθορίζει τη σχέση των λέξεων σε μια πρόταση. Με τη βοήθεια ενός συνόλου αλγορίθμων, καθίσταται δυνατός ο προσδιορισμός του θέματος, του κατηγορήματος, των προσθηκών και των διαφόρων στροφών του λόγου στο κείμενο. Καθορίζοντας ποιες λέξεις στην ακολουθία είναι κύριες και ποιες εξαρτημένες, μπορούμε να εξαγάγουμε αποτελεσματικά πληροφορίες από το κείμενο και να εκπαιδεύσουμε το μηχάνημα ώστε να επιστρέφει μόνο τις πληροφορίες που μας ενδιαφέρουν ως απάντηση σε ένα αίτημα αναζήτησης.
Παρεμπιπτόντως, οι σύγχρονες μηχανές αναζήτησης το χρησιμοποιούν για να δώσουν συγκεκριμένους αριθμούς αντί για μακροσκελή κείμενα ως απάντηση σε σχετικά ερωτήματα όπως: «πόσες θερμίδες έχει ένα μήλο» ή «απόσταση από τη Μόσχα στην Αγία Πετρούπολη». Ωστόσο, για να κατανοήσετε ακόμη και τα πολύ βασικά της διαδικασίας που περιγράφηκε, θα χρειαστεί να εξοικειωθείτε με την «Εισαγωγή στη Γλωσσολογία του Corpus» ή άλλο βασικό εγχειρίδιο.
Σημασιολογική σήμανση
Η σημασιολογία μιας λέξης είναι, με απλά λόγια, η σημασία της. Μια ευρέως εφαρμόσιμη προσέγγιση στη σημασιολογική ανάλυση είναι η απόδοση ετικετών σε μια λέξη, που αντικατοπτρίζει την υπαγωγή της σε ένα σύνολο σημασιολογικών κατηγοριών και υποκατηγοριών. Τέτοιες πληροφορίες είναι πολύτιμες για τη βελτιστοποίηση αλγορίθμων ανάλυσης συναισθήματος κειμένου, την αυτόματη αναφορά και την εκτέλεση άλλων εργασιών χρησιμοποιώντας μεθόδους γλωσσολογίας σώματος.
Υπάρχει ένας αριθμός από "ρίζες" του δέντρου, οι οποίες είναι αφηρημένες λέξεις που έχουνπολύ ευρεία σημασιολογία. Καθώς αυτό το δέντρο διακλαδίζεται, σχηματίζονται κόμβοι που περιέχουν όλο και πιο συγκεκριμένα λεξικά στοιχεία. Για παράδειγμα, η λέξη "πλάσμα" μπορεί να συσχετιστεί με έννοιες όπως "άνθρωπος" και "ζώο". Η πρώτη λέξη θα συνεχίσει να διακλαδίζεται σε διάφορα επαγγέλματα, όρους συγγένειας, εθνικότητας και η δεύτερη - σε τάξεις και είδη ζώων.
Χρήση συστημάτων ανάκτησης πληροφοριών
Οι σφαίρες χρήσης της γλωσσολογίας του σώματος καλύπτουν μια μεγάλη ποικιλία τομέων δραστηριότητας. Τα σώματα χρησιμοποιούνται για τη σύνταξη και τη διόρθωση λεξικών, τη δημιουργία συστημάτων αυτόματης μετάφρασης, τη σύνοψη, την εξαγωγή γεγονότων, τον προσδιορισμό συναισθημάτων και άλλη επεξεργασία κειμένου.
Επιπλέον, τέτοιοι πόροι χρησιμοποιούνται ενεργά στη μελέτη των γλωσσών του κόσμου και στους μηχανισμούς λειτουργίας της γλώσσας στο σύνολό της. Η πρόσβαση σε μεγάλους όγκους προπαρασκευασμένων πληροφοριών συμβάλλει στην ταχεία και ολοκληρωμένη μελέτη των τάσεων στην ανάπτυξη των γλωσσών, στο σχηματισμό νεολογισμών και σταθερών στροφών του λόγου, στις αλλαγές στις έννοιες των λεξιλογικών ενοτήτων κ.λπ.
Επειδή η εργασία με τόσο μεγάλους όγκους δεδομένων απαιτεί αυτοματοποίηση, σήμερα υπάρχει μια στενή αλληλεπίδραση μεταξύ της γλωσσολογίας του υπολογιστή και του σώματος.
Εθνικό Σώμα της Ρωσικής Γλώσσας
Αυτό το σώμα (συντομογραφία NKRC) περιλαμβάνει έναν αριθμό υποσωμάτων που επιτρέπουν τη χρήση του πόρου για την επίλυση μιας μεγάλης ποικιλίας εργασιών.
Τα υλικά στη βάση δεδομένων NCRA χωρίζονται σε:
- σε δημοσιεύσεις στα μέσα ενημέρωσης των δεκαετιών του '90 και του 2000έτη, εγχώρια και ξένα;
- ηχογραφήσεις προφορικού λόγου;
- κείμενα με τονισμό (δηλαδή με σημεία τονισμού);
- διαλεκτικός λόγος;
- ποιητικά έργα;
- υλικά με συντακτική σήμανση κ.λπ.
Το πληροφοριακό σύστημα περιλαμβάνει επίσης υποσώματα με παράλληλες μεταφράσεις έργων από τα ρωσικά στα αγγλικά, γερμανικά, γαλλικά και πολλές άλλες γλώσσες (και αντίστροφα).
Επίσης, η βάση δεδομένων διαθέτει ένα τμήμα ιστορικών κειμένων που αντιπροσωπεύουν γραπτό λόγο στα ρωσικά σε διάφορες περιόδους ανάπτυξής του. Υπάρχει επίσης ένα εκπαιδευτικό σώμα που μπορεί να είναι χρήσιμο για ξένους πολίτες για την εκμάθηση της ρωσικής γλώσσας.
Το εθνικό σώμα της ρωσικής γλώσσας περιλαμβάνει 400 εκατομμύρια λεξιλογικές μονάδες και από πολλές απόψεις προηγείται από ένα σημαντικό μέρος των σωμάτων των ευρωπαϊκών γλωσσών.
Προοπτικές
Γεγονός υπέρ της αναγνώρισης αυτής της περιοχής ως πολλά υποσχόμενης είναι η παρουσία εργαστηρίων γλωσσολογίας σωμάτων σε ρωσικά πανεπιστήμια, καθώς και σε ξένα. Με τη χρήση και την έρευνα στο πλαίσιο των θεωρούμενων πόρων ανάκτησης πληροφοριών, συνδέεται η ανάπτυξη ορισμένων περιοχών στον τομέα των υψηλών τεχνολογιών, των συστημάτων ερωτήσεων απαντήσεων, αλλά αυτό συζητήθηκε παραπάνω.
Προβλέπεται περαιτέρω ανάπτυξη της γλωσσολογίας του σώματος σε όλα τα επίπεδα, από τεχνικά, όσον αφορά την εισαγωγή νέων αλγορίθμων που βελτιστοποιούν τις διαδικασίες αναζήτησης και επεξεργασίας πληροφοριών, επεκτείνοντας τις δυνατότητες των υπολογιστών, αυξάνοντας το λειτουργικόμνήμη, και τελειώνοντας με τα οικιακά, καθώς οι χρήστες βρίσκουν όλο και περισσότερους τρόπους να χρησιμοποιούν αυτόν τον τύπο πόρων στην καθημερινή ζωή και στην εργασία.
Συμπερασματικά
Στα μέσα του περασμένου αιώνα, το 2017 φαινόταν σαν ένα μακρινό μέλλον, στο οποίο διαστημόπλοια σερφάρουν στις εκτάσεις του Σύμπαντος και τα ρομπότ κάνουν όλη τη δουλειά για τους ανθρώπους. Στην πραγματικότητα, ωστόσο, η επιστήμη είναι γεμάτη με «κενά σημεία» και κάνει απεγνωσμένες προσπάθειες να απαντήσει σε ερωτήματα που προβληματίζουν την ανθρωπότητα εδώ και αιώνες. Τα ερωτήματα σχετικά με τη λειτουργία της γλώσσας παίρνουν υπερήφανο θέση εδώ, και το σώμα και η υπολογιστική γλωσσολογία μπορούν να μας βοηθήσουν να απαντήσουμε σε αυτά.
Η επεξεργασία μεγάλων ποσοτήτων δεδομένων σάς επιτρέπει να ανιχνεύετε μοτίβα που δεν ήταν προσβάσιμα στο παρελθόν, να προβλέψετε την ανάπτυξη ορισμένων γλωσσικών χαρακτηριστικών, να παρακολουθείτε τον σχηματισμό λέξεων σχεδόν σε πραγματικό χρόνο.
Σε πρακτικό παγκόσμιο επίπεδο, τα σώματα μπορούν να θεωρηθούν, για παράδειγμα, ως πιθανό εργαλείο για την αξιολόγηση του κοινού αισθήματος - το Διαδίκτυο είναι μια συνεχώς ενημερωμένη βάση δεδομένων με διάφορα κείμενα που δημιουργούνται από πραγματικούς χρήστες: αυτά είναι σχόλια, κριτικές, άρθρα, και πολλές άλλες μορφές ομιλίας.
Επιπλέον, η συνεργασία με corpora συμβάλλει στην ανάπτυξη των ίδιων τεχνικών μέσων που εμπλέκονται στην ανάκτηση πληροφοριών, γνωστών σε εμάς από τις υπηρεσίες Google ή Yandex, μηχανική μετάφραση, ηλεκτρονικά λεξικά.
Είναι ασφαλές να πούμε ότι το corpus linguistics κάνει μόνο τα πρώτα του βήματα και θα αναπτυχθεί γρήγορα στο εγγύς μέλλον.