Ανάλυση και πρόβλεψη χρονοσειρών

Πίνακας περιεχομένων:

Ανάλυση και πρόβλεψη χρονοσειρών
Ανάλυση και πρόβλεψη χρονοσειρών
Anonim

Για πολλά χρόνια, οι άνθρωποι έχουν προβλέψει καιρικές συνθήκες, οικονομικά και πολιτικά γεγονότα και αθλητικά αποτελέσματα, πρόσφατα αυτή η εκτενής λίστα έχει αναπληρωθεί με κρυπτονομίσματα. Για την πρόβλεψη ευέλικτων γεγονότων, υπάρχουν πολλοί τρόποι ανάπτυξης προβλέψεων. Για παράδειγμα, η διαίσθηση, οι απόψεις ειδικών, η χρήση προηγούμενων αποτελεσμάτων για σύγκριση με τις παραδοσιακές στατιστικές και η πρόβλεψη χρονοσειρών είναι μόνο ένα από αυτά, ενώ ο πιο σύγχρονος και ακριβής τύπος προβλέψεων με ευρύ φάσμα εφαρμογών.

Μέθοδος χρονοσειρών

Μέθοδος χρονοσειρών
Μέθοδος χρονοσειρών

Η μέθοδος χρονοσειράς (TS) είναι ένα σύνολο δεδομένων που συλλέγει πληροφορίες για μια χρονική περίοδο. Υπάρχουν ειδικές μέθοδοι για την εξαγωγή αυτού του τύπου:

  • γραμμικό και μη γραμμικό;
  • παραμετρική και μη παραμετρική;
  • μονοδιάστατο και πολυδιάστατο.

Ώρα πρόβλεψηςΗ σειρά φέρνει μαζί της ένα μοναδικό σύνολο δυνατοτήτων για την αντιμετώπιση των σημερινών προκλήσεων. Η μοντελοποίηση βασίζεται στην εκμάθηση για την καθιέρωση της κινητήριας δύναμης πίσω από την αλλαγή δεδομένων. Η διαδικασία προέρχεται από μακροπρόθεσμες τάσεις, εποχιακές επιδράσεις ή ακανόνιστες διακυμάνσεις που είναι χαρακτηριστικές του TS και δεν παρατηρούνται σε άλλους τύπους ανάλυσης.

Η μηχανική μάθηση είναι ένας κλάδος της επιστήμης των υπολογιστών όπου οι αλγόριθμοι συντάσσονται από δεδομένα και περιλαμβάνουν τεχνητά νευρωνικά δίκτυα, βαθιά μάθηση, κανόνες συσχέτισης, δέντρα αποφάσεων, ενισχυτική μάθηση και δίκτυα Bayes. Μια ποικιλία αλγορίθμων παρέχει επιλογές για την επίλυση προβλημάτων και ο καθένας έχει τις δικές του απαιτήσεις και αντισταθμίσεις όσον αφορά την εισαγωγή δεδομένων, την ταχύτητα και την ακρίβεια των αποτελεσμάτων. Αυτά, μαζί με την ακρίβεια των τελικών προβλέψεων, θα σταθμιστούν όταν ο χρήστης αποφασίσει ποιος αλγόριθμος θα λειτουργήσει καλύτερα για την υπό μελέτη κατάσταση.

Η πρόβλεψη χρονοσειρών δανείζεται από τον τομέα της στατιστικής, αλλά παρέχει νέες προσεγγίσεις στη μοντελοποίηση προβλημάτων. Το κύριο πρόβλημα για τη μηχανική μάθηση και τις χρονοσειρές είναι το ίδιο - η πρόβλεψη νέων αποτελεσμάτων με βάση προηγούμενα γνωστά δεδομένα.

Ο στόχος του προγνωστικού μοντέλου

Σκοπός του προγνωστικού μοντέλου
Σκοπός του προγνωστικού μοντέλου

Το TS είναι ένα σύνολο σημείων δεδομένων που συλλέγονται σε τακτά χρονικά διαστήματα. Αναλύονται για τον προσδιορισμό μιας μακροπρόθεσμης τάσης, για την πρόβλεψη του μέλλοντος ή για την εκτέλεση κάποιου άλλου τύπου ανάλυσης. Υπάρχουν 2 πράγματα που κάνουν το TS διαφορετικό από ένα κανονικό πρόβλημα παλινδρόμησης:

  1. Εξαρτώνται από τον χρόνο. Έτσιη βασική υπόθεση ενός μοντέλου γραμμικής παλινδρόμησης ότι οι παρατηρήσεις είναι ανεξάρτητες δεν ισχύει σε αυτήν την περίπτωση.
  2. Μαζί με μια αυξητική ή πτωτική τάση, τα περισσότερα TS έχουν κάποια μορφή εποχικότητας, δηλαδή αλλαγές που είναι συγκεκριμένες για μια συγκεκριμένη χρονική περίοδο.

Ο στόχος ενός μοντέλου πρόβλεψης χρονοσειρών είναι να παρέχει ακριβή πρόβλεψη κατά παραγγελία. Η χρονοσειρά έχει το χρόνο (t) ως ανεξάρτητη μεταβλητή και την εξαρτημένη μεταβλητή στόχο. Στις περισσότερες περιπτώσεις, η πρόβλεψη είναι ένα συγκεκριμένο αποτέλεσμα, για παράδειγμα, η τιμή πώλησης ενός σπιτιού, το αθλητικό αποτέλεσμα του διαγωνισμού, τα αποτελέσματα των συναλλαγών στο χρηματιστήριο. Η πρόβλεψη αντιπροσωπεύει τη διάμεσο και τη μέση τιμή και περιλαμβάνει ένα διάστημα εμπιστοσύνης που εκφράζει ένα επίπεδο εμπιστοσύνης στην περιοχή 80-95%. Όταν καταγράφονται σε τακτά χρονικά διαστήματα, οι διεργασίες ονομάζονται χρονοσειρές και εκφράζονται με δύο τρόπους:

  • μονοδιάστατο με δείκτη χρόνου που δημιουργεί μια σιωπηρή σειρά,
  • ένα σύνολο με δύο διαστάσεις: χρόνος με μια ανεξάρτητη μεταβλητή και μια άλλη εξαρτημένη μεταβλητή.

Η δημιουργία χαρακτηριστικών είναι μία από τις πιο σημαντικές και χρονοβόρες εργασίες στην εφαρμοσμένη μηχανική εκμάθηση. Ωστόσο, η πρόβλεψη χρονοσειρών δεν δημιουργεί χαρακτηριστικά, τουλάχιστον όχι με την παραδοσιακή έννοια. Αυτό ισχύει ιδιαίτερα όταν θέλετε να προβλέψετε το αποτέλεσμα αρκετά βήματα μπροστά και όχι μόνο την επόμενη τιμή.

Αυτό δεν σημαίνει ότι οι λειτουργίες είναι εντελώς απενεργοποιημένες. Θα πρέπει απλώς να χρησιμοποιούνται με προσοχή για τους ακόλουθους λόγους:

  1. Ασαφές ποιο είναι το πραγματικό μέλλονοι τιμές θα είναι για αυτά τα χαρακτηριστικά.
  2. Εάν τα αντικείμενα είναι προβλέψιμα και έχουν κάποια μοτίβα, μπορείτε να δημιουργήσετε ένα μοντέλο πρόβλεψης για καθένα από αυτά.

Ωστόσο, έχετε υπόψη σας ότι η χρήση προγνωστικών τιμών ως χαρακτηριστικών θα μεταδώσει το σφάλμα στη μεταβλητή στόχο και θα οδηγήσει σε σφάλματα ή μεροληπτικές προβλέψεις.

Στοιχεία χρονολογικής σειράς

Στοιχεία χρονοσειρών
Στοιχεία χρονοσειρών

Τάση υπάρχει όταν η σειρά αυξάνεται, μειώνεται ή παραμένει σε σταθερό επίπεδο με την πάροδο του χρόνου, επομένως λαμβάνεται ως συνάρτηση. Η εποχικότητα αναφέρεται σε μια ιδιότητα μιας χρονοσειράς που εμφανίζει περιοδικά μοτίβα που επαναλαμβάνονται με σταθερή συχνότητα (m), για παράδειγμα, m=12 σημαίνει ότι το μοτίβο επαναλαμβάνεται κάθε δώδεκα μήνες.

Μπορούν να προστεθούν ψευδείς μεταβλητές παρόμοιες με την εποχικότητα ως δυαδική συνάρτηση. Μπορείτε, για παράδειγμα, να λάβετε υπόψη αργίες, ειδικές εκδηλώσεις, εκστρατείες μάρκετινγκ, ανεξάρτητα από το αν η αξία είναι ξένη ή όχι. Ωστόσο, πρέπει να θυμάστε ότι αυτές οι μεταβλητές πρέπει να έχουν ορισμένα μοτίβα. Ωστόσο, ο αριθμός των ημερών μπορεί εύκολα να υπολογιστεί ακόμη και για μελλοντικές περιόδους και να επηρεάσει τις προβλέψεις χρονοσειρών, ειδικά στον οικονομικό τομέα.

Οι κύκλοι είναι εποχές που δεν συμβαίνουν με σταθερό ρυθμό. Για παράδειγμα, τα ετήσια χαρακτηριστικά αναπαραγωγής του λύγκα του Καναδά αντικατοπτρίζουν εποχιακά και κυκλικά μοτίβα. Δεν επαναλαμβάνονται σε τακτά χρονικά διαστήματα και μπορεί να εμφανιστούν ακόμη και αν η συχνότητα είναι 1 (m=1).

Τιμές με καθυστέρηση -Οι καθυστερημένες τιμές μιας μεταβλητής μπορούν να συμπεριληφθούν ως προγνωστικοί παράγοντες. Ορισμένα μοντέλα, όπως το ARIMA, η Vector Autoregression (VAR) ή τα Autoregressive Neural Networks (NNAR), λειτουργούν με αυτόν τον τρόπο.

Τα στοιχεία της μεταβλητής ενδιαφέροντος είναι πολύ σημαντικά για την ανάλυση και την πρόβλεψη χρονοσειρών, για την κατανόηση της συμπεριφοράς, των προτύπων τους και για την επιλογή του κατάλληλου μοντέλου.

Χαρακτηριστικά συνόλου δεδομένων

Χαρακτηριστικά συνόλου δεδομένων
Χαρακτηριστικά συνόλου δεδομένων

Μπορεί να έχετε συνηθίσει να εισάγετε χιλιάδες, εκατομμύρια και δισεκατομμύρια σημεία δεδομένων σε μοντέλα μηχανικής εκμάθησης, αλλά αυτό δεν απαιτείται για χρονοσειρές. Στην πραγματικότητα, είναι δυνατή η εργασία με μικρού και μεσαίους TS, ανάλογα με τη συχνότητα και τον τύπο της μεταβλητής, και αυτό δεν αποτελεί μειονέκτημα της μεθόδου. Επιπλέον, υπάρχει στην πραγματικότητα μια σειρά από πλεονεκτήματα σε αυτή την προσέγγιση:

  1. Τέτοια σύνολα πληροφοριών θα αντιστοιχούν στις δυνατότητες ενός οικιακού υπολογιστή.
  2. Σε ορισμένες περιπτώσεις, πραγματοποιήστε ανάλυση και πρόβλεψη χρονοσειρών χρησιμοποιώντας ολόκληρο το σύνολο δεδομένων, όχι μόνο ένα δείγμα.
  3. Το μήκος TS είναι χρήσιμο για τη δημιουργία γραφημάτων που μπορούν να αναλυθούν. Αυτό είναι ένα πολύ σημαντικό σημείο γιατί οι προγραμματιστές βασίζονται στα γραφικά στη φάση της ανάλυσης. Αυτό δεν σημαίνει ότι δεν λειτουργούν με τεράστιες χρονοσειρές, αλλά αρχικά θα πρέπει να μπορούν να χειρίζονται μικρότερα TS.
  4. Οποιοδήποτε σύνολο δεδομένων που περιέχει ένα πεδίο που σχετίζεται με το χρόνο μπορεί να επωφεληθεί από την ανάλυση και την πρόβλεψη χρονοσειρών. Ωστόσο, εάν ο προγραμματιστής έχει μεγαλύτερο σύνολο δεδομένων, το DB (TSDB)μπορεί να είναι πιο κατάλληλο.

Μερικά από αυτά τα σύνολα προέρχονται από συμβάντα που έχουν καταγραφεί με χρονική σήμανση, αρχεία καταγραφής συστήματος και οικονομικά δεδομένα. Δεδομένου ότι το TSDB λειτουργεί εγγενώς με χρονοσειρές, αυτή είναι μια εξαιρετική ευκαιρία να εφαρμοστεί αυτή η τεχνική σε σύνολα δεδομένων μεγάλης κλίμακας.

Μηχανική εκμάθηση

Η μηχανική εκμάθηση (ML) μπορεί να ξεπεράσει τις παραδοσιακές μεθόδους πρόβλεψης χρονοσειρών. Υπάρχουν πολλές μελέτες εκεί έξω που συγκρίνουν μεθόδους μηχανικής μάθησης με πιο κλασικές στατιστικές μεθόδους για δεδομένα TS. Τα νευρωνικά δίκτυα είναι μια από τις τεχνολογίες που έχουν ερευνηθεί ευρέως και εφαρμόζουν προσεγγίσεις TS. Οι μέθοδοι μηχανικής μάθησης οδηγούν στην κατάταξη για τη συλλογή δεδομένων με βάση χρονοσειρές. Αυτά τα σετ έχουν αποδειχθεί αποτελεσματικά, ξεπερνώντας τα καθαρά σετ TS έναντι M3 ή Kaggle.

Το MO έχει τα δικά του συγκεκριμένα προβλήματα. Η ανάπτυξη χαρακτηριστικών ή η δημιουργία νέων προγνωστικών παραγόντων από ένα σύνολο δεδομένων είναι ένα σημαντικό βήμα για αυτό και μπορεί να έχει τεράστιο αντίκτυπο στην απόδοση και να είναι ένας απαραίτητος τρόπος αντιμετώπισης ζητημάτων τάσης και εποχικότητας των δεδομένων TS. Επίσης, ορισμένα μοντέλα έχουν προβλήματα με το πόσο καλά ταιριάζουν με τα δεδομένα και, αν δεν το κάνουν, μπορεί να χάσουν την κύρια τάση.

Οι χρονοσειρές και οι προσεγγίσεις μηχανικής μάθησης δεν πρέπει να υπάρχουν μεμονωμένα η μία από την άλλη. Μπορούν να συνδυαστούν μαζί για να δώσουν τα οφέλη κάθε προσέγγισης. Οι μέθοδοι πρόβλεψης και η ανάλυση χρονοσειρών είναι καλές στην αποσύνθεση των δεδομένων σε τάσεις και εποχιακά δεδομένα.στοιχεία. Αυτή η ανάλυση μπορεί στη συνέχεια να χρησιμοποιηθεί ως είσοδος σε ένα μοντέλο ML που έχει πληροφορίες τάσεων και εποχικότητας στον αλγόριθμό του, δίνοντας το καλύτερο και από τους δύο κόσμους.

Κατανόηση της δήλωσης προβλήματος

Για παράδειγμα, εξετάστε το TS που σχετίζεται με την πρόβλεψη του αριθμού των επιβατών σε μια νέα σιδηροδρομική υπηρεσία υψηλής ταχύτητας. Για παράδειγμα, έχετε δεδομένα 2 ετών (Αύγουστος 2016 - Σεπτέμβριος 2018) και με αυτά τα δεδομένα πρέπει να προβλέψετε τον αριθμό των επιβατών για τους επόμενους 7 μήνες, έχοντας δεδομένα 2 ετών (2016-2018) σε ωριαίο επίπεδο με το αριθμός επιβατών που ταξιδεύουν και είναι απαραίτητο να εκτιμηθεί ο αριθμός τους στο μέλλον.

Υποσύνολο δεδομένων για πρόβλεψη με χρονοσειρές:

  1. Δημιουργία αρχείου τρένου και δοκιμής για προσομοίωση.
  2. Οι πρώτοι 14 μήνες (Αύγουστος 2016 - Οκτώβριος 2017) χρησιμοποιούνται ως δεδομένα εκπαίδευσης και οι επόμενοι 2 μήνες (Νοέμβριος 2017 - Δεκέμβριος 2017) είναι δεδομένα δοκιμής.
  3. Συγκεντρώστε το σύνολο δεδομένων σε καθημερινή βάση.
Συνάθροιση συνόλων δεδομένων
Συνάθροιση συνόλων δεδομένων

Εκτελέστε οπτικοποίηση δεδομένων για να δείτε πώς αλλάζει σε μια χρονική περίοδο.

Οπτικοποίηση δεδομένων
Οπτικοποίηση δεδομένων

Μέθοδος κατασκευής αφελής προσέγγισης

Η βιβλιοθήκη που χρησιμοποιείται σε αυτήν την περίπτωση για την πρόβλεψη TS είναι τα statsmodels. Πρέπει να εγκατασταθεί πριν εφαρμοστεί οποιαδήποτε από αυτές τις προσεγγίσεις. Ίσως το statsmodels να είναι ήδη εγκατεστημένο στο περιβάλλον Python, αλλά δεν υποστηρίζει μεθόδουςπρόβλεψη, επομένως θα χρειαστεί να το κλωνοποιήσετε από το αποθετήριο και να το εγκαταστήσετε από την πηγή.

Αλληλουχία
Αλληλουχία

Για αυτό το παράδειγμα, σημαίνει ότι οι τιμές ταξιδιού με κέρματα είναι σταθερές από την αρχή και καθ' όλη τη διάρκεια της χρονικής περιόδου. Αυτή η μέθοδος υποθέτει ότι το επόμενο αναμενόμενο σημείο είναι ίσο με το τελευταίο παρατηρούμενο σημείο και ονομάζεται αφελής προσέγγιση.

Αφελής Μέθοδος
Αφελής Μέθοδος

Τώρα υπολογίστε την τυπική απόκλιση για να ελέγξετε την ακρίβεια του μοντέλου στο σύνολο δεδομένων δοκιμής. Από την τιμή RMSE και το παραπάνω γράφημα, μπορούμε να συμπεράνουμε ότι το Naive δεν είναι κατάλληλο για επιλογές υψηλής μεταβλητότητας, αλλά χρησιμοποιείται για σταθερές.

Απλό μεσαίο στυλ

Για να επιδειχθεί η μέθοδος, σχεδιάζεται ένα γράφημα, υποθέτοντας ότι ο άξονας Y αντιπροσωπεύει την τιμή και ο άξονας X αντιπροσωπεύει το χρόνο (ημέρες).

Απλό Μεσαίο Στυλ
Απλό Μεσαίο Στυλ

Από αυτό μπορούμε να συμπεράνουμε ότι η τιμή αυξάνεται και μειώνεται τυχαία με ένα μικρό περιθώριο, έτσι ώστε η μέση τιμή να παραμένει σταθερή. Σε αυτήν την περίπτωση, μπορείτε να προβλέψετε την τιμή της επόμενης περιόδου, παρόμοια με τον μέσο όρο όλων των προηγούμενων ημερών.

Αυτή η μέθοδος πρόβλεψης με τον αναμενόμενο μέσο όρο των προηγουμένως παρατηρηθέντων σημείων ονομάζεται μέθοδος του απλού μέσου όρου.

Σε αυτήν την περίπτωση, λαμβάνονται προηγουμένως γνωστές τιμές, υπολογίζεται ο μέσος όρος και λαμβάνεται ως η επόμενη τιμή. Φυσικά, αυτό δεν θα είναι ακριβές, αλλά είναι πολύ κοντά, και υπάρχουν περιπτώσεις όπου αυτή η μέθοδος λειτουργεί καλύτερα.

Απλό Μεσαίομέθοδος
Απλό Μεσαίομέθοδος

Με βάση τα αποτελέσματα που εμφανίζονται στο γράφημα, αυτή η μέθοδος λειτουργεί καλύτερα όταν η μέση τιμή για κάθε χρονική περίοδο παραμένει σταθερή. Αν και η αφελής μέθοδος είναι καλύτερη από τον μέσο όρο, αλλά όχι για όλα τα σύνολα δεδομένων. Συνιστάται να δοκιμάσετε κάθε μοντέλο βήμα προς βήμα και να δείτε αν βελτιώνει το αποτέλεσμα ή όχι.

Moving Average Model

Μοντέλο κινητού μέσου όρου
Μοντέλο κινητού μέσου όρου

Με βάση αυτό το γράφημα, μπορούμε να συμπεράνουμε ότι οι τιμές έχουν αυξηθεί αρκετές φορές στο παρελθόν με μεγάλο περιθώριο, αλλά τώρα είναι σταθερές. Για να χρησιμοποιήσετε την προηγούμενη μέθοδο υπολογισμού του μέσου όρου, πρέπει να λάβετε τον μέσο όρο όλων των προηγούμενων δεδομένων. Οι τιμές της αρχικής περιόδου θα επηρεάσουν έντονα την πρόβλεψη της επόμενης περιόδου. Επομένως, ως βελτίωση σε σχέση με τον απλό μέσο όρο, λάβετε τον μέσο όρο των τιμών μόνο για τις τελευταίες χρονικές περιόδους.

Αυτή η τεχνική πρόβλεψης ονομάζεται τεχνική κινούμενου μέσου όρου, που μερικές φορές αναφέρεται ως "κινούμενο παράθυρο" μεγέθους "n". Χρησιμοποιώντας ένα απλό μοντέλο, η επόμενη τιμή στο TS προβλέπεται για να ελεγχθεί η ακρίβεια της μεθόδου. Το Clearly Naive υπερτερεί τόσο του μέσου όρου όσο και του κινούμενου μέσου όρου για αυτό το σύνολο δεδομένων.

Υπάρχει μια παραλλαγή της πρόβλεψης με τη μέθοδο της απλής εκθετικής εξομάλυνσης. Στη μέθοδο του κινούμενου μέσου όρου, οι προηγούμενες παρατηρήσεις «n» σταθμίζονται εξίσου. Σε αυτήν την περίπτωση, μπορεί να συναντήσετε καταστάσεις όπου καθένα από τα «ν» του παρελθόντος επηρεάζει την πρόβλεψη με τον δικό του τρόπο. Αυτή η παραλλαγή, η οποία σταθμίζει τις προηγούμενες παρατηρήσεις διαφορετικά, ονομάζεται μέθοδοςσταθμισμένος κινητός μέσος όρος.

Προέκταση προτύπων

Μία από τις πιο σημαντικές ιδιότητες που χρειάζονται για να ληφθούν υπόψη οι αλγόριθμοι πρόβλεψης χρονοσειρών είναι η δυνατότητα παρέκτασης μοτίβων εκτός του τομέα δεδομένων εκπαίδευσης. Πολλοί αλγόριθμοι ML δεν έχουν αυτή τη δυνατότητα καθώς τείνουν να περιορίζονται σε μια περιοχή που ορίζεται από τα δεδομένα εκπαίδευσης. Επομένως, δεν είναι κατάλληλα για TS, σκοπός του οποίου είναι να προβάλει το αποτέλεσμα στο μέλλον.

Μια άλλη σημαντική ιδιότητα του αλγορίθμου TS είναι η δυνατότητα λήψης διαστημάτων εμπιστοσύνης. Αν και αυτή είναι η προεπιλεγμένη ιδιότητα για τα μοντέλα TS, τα περισσότερα μοντέλα ML δεν έχουν αυτήν τη δυνατότητα, καθώς δεν βασίζονται όλα σε στατιστικές κατανομές.

Μην νομίζετε ότι χρησιμοποιούνται μόνο απλές στατιστικές μέθοδοι για την πρόβλεψη του TS. Δεν είναι καθόλου έτσι. Υπάρχουν πολλές σύνθετες προσεγγίσεις που μπορεί να είναι πολύ χρήσιμες σε ειδικές περιπτώσεις. Γενικευμένη Αυτοπαλινδρομική Συνθήκη Ετεροσκεδαστικότητα (GARCH), Bayesian και VAR είναι μόνο μερικά από αυτά.

Υπάρχουν επίσης μοντέλα νευρωνικών δικτύων που μπορούν να εφαρμοστούν σε χρονοσειρές που χρησιμοποιούν προγνωστικά υστέρησης και μπορούν να χειριστούν χαρακτηριστικά όπως η αυτόματη παλινδρόμηση νευρωνικών δικτύων (NNAR). Υπάρχουν ακόμη και μοντέλα χρονοσειρών που δανείστηκαν από σύνθετη μάθηση, ιδιαίτερα στην οικογένεια των επαναλαμβανόμενων νευρωνικών δικτύων, όπως τα δίκτυα LSTM και GRU.

Μετρήσεις εκτίμησης και υπολειπόμενα διαγνωστικά

Οι πιο συνηθισμένες μετρήσεις πρόβλεψης είναιrms σημαίνει, που χρησιμοποιούν πολλοί άνθρωποι κατά την επίλυση προβλημάτων παλινδρόμησης:

  • MAPE επειδή είναι ανεξάρτητο από κλίμακα και αντιπροσωπεύει την αναλογία του σφάλματος προς τις πραγματικές τιμές ως ποσοστό;
  • MASE, που δείχνει πόσο καλά αποδίδει η πρόβλεψη σε σύγκριση με την απλή πρόβλεψη μέσου όρου.

Μόλις προσαρμοστεί μια μέθοδος πρόβλεψης, είναι σημαντικό να αξιολογήσετε πόσο καλά είναι σε θέση να αποτυπώσει τα μοντέλα. Αν και οι μετρήσεις αξιολόγησης βοηθούν στον προσδιορισμό του πόσο κοντά είναι οι τιμές στις πραγματικές τιμές, δεν αξιολογούν εάν το μοντέλο ταιριάζει στο TS. Τα υπολείμματα είναι ένας καλός τρόπος για να το αξιολογήσετε. Δεδομένου ότι ο προγραμματιστής προσπαθεί να εφαρμόσει μοτίβα TS, μπορεί να περιμένει ότι τα σφάλματα θα συμπεριφέρονται σαν "λευκό θόρυβο", καθώς αντιπροσωπεύουν κάτι που δεν μπορεί να καταγραφεί από το μοντέλο.

"Λευκός θόρυβος" πρέπει να έχει τις ακόλουθες ιδιότητες:

  1. Υπόλοιπα μη συσχετισμένα (Acf=0)
  2. Τα υπόλοιπα ακολουθούν μια κανονική κατανομή με μηδενικό μέσο όρο (αμερόληπτη) και σταθερή διακύμανση.
  3. Εάν λείπει κάποια από τις δύο ιδιότητες, υπάρχει περιθώριο βελτίωσης στο μοντέλο.
  4. Η ιδιότητα μηδενικού μέσου όρου μπορεί εύκολα να ελεγχθεί χρησιμοποιώντας τη δοκιμή T.
  5. Οι ιδιότητες της κανονικότητας και της σταθερής διακύμανσης ελέγχονται οπτικά χρησιμοποιώντας ένα ιστόγραμμα υπολειμμάτων ή μια κατάλληλη μονομεταβλητή δοκιμή κανονικότητας.

Μοντέλο ARIMA

ARIMA - Το μοντέλο AutoRegressive Integrated Moving-Average, είναι μία από τις πιο δημοφιλείς μεθόδους που χρησιμοποιούνται στην πρόβλεψη TS, κυρίωςμέσω της αυτόματης συσχέτισης δεδομένων για τη δημιουργία μοντέλων υψηλής ποιότητας.

Κατά την αξιολόγηση των συντελεστών ARIMA, η κύρια υπόθεση είναι ότι τα δεδομένα είναι ακίνητα. Αυτό σημαίνει ότι η τάση και η εποχικότητα δεν μπορούν να επηρεάσουν τη διακύμανση. Η ποιότητα του μοντέλου μπορεί να εκτιμηθεί συγκρίνοντας το χρονικό διάγραμμα των πραγματικών τιμών με τις προβλεπόμενες τιμές. Εάν και οι δύο καμπύλες είναι κοντινές, τότε μπορεί να υποτεθεί ότι το μοντέλο ταιριάζει στην περίπτωση που αναλύθηκε. Θα πρέπει να αποκαλύπτει τυχόν τάσεις και εποχικότητα, εάν υπάρχουν.

Η ανάλυση των υπολειμμάτων θα πρέπει στη συνέχεια να δείξει εάν το μοντέλο ταιριάζει: τα τυχαία υπολείμματα σημαίνουν ότι είναι ακριβές. Η προσαρμογή του ARIMA με παραμέτρους (0, 1, 1) θα δώσει τα ίδια αποτελέσματα με την εκθετική εξομάλυνση και η χρήση των παραμέτρων (0, 2, 2) θα δώσει διπλά αποτελέσματα εκθετικής εξομάλυνσης.

Αλγόριθμοι χρονοσειρών στον SQL Server
Αλγόριθμοι χρονοσειρών στον SQL Server

Μπορείτε να αποκτήσετε πρόσβαση στις ρυθμίσεις ARIMA στο Excel:

  1. Ξεκινήστε το Excel.
  2. Βρείτε το XL MINER στη γραμμή εργαλείων.
  3. Στην κορδέλα, επιλέξτε ARIMA από το αναπτυσσόμενο μενού.

Σύνοψη των δυνατοτήτων μοντέλου ARIMA:

  1. ARIMA - Αυτοπαλινδρομικός ολοκληρωμένος κινούμενος μέσος όρος.
  2. Μοντέλο πρόβλεψης που χρησιμοποιείται στην ανάλυση χρονοσειρών.
  3. ARIMA σύνταξη παραμέτρων: ARIMA (p, d, q) όπου p=αριθμός αυτοπαλινδρομικών όρων, d=αριθμός εποχιακών διαφορών και q=αριθμός όρων κινητού μέσου όρου.

Αλγόριθμοι στον SQL Server

Η εκτέλεση διασταυρούμενης πρόβλεψης είναι ένα από τα σημαντικάχαρακτηριστικά χρονοσειρών στην πρόβλεψη οικονομικών εργασιών. Εάν χρησιμοποιούνται δύο σχετικές σειρές, το μοντέλο που προκύπτει μπορεί να χρησιμοποιηθεί για την πρόβλεψη των αποτελεσμάτων μιας σειράς με βάση τη συμπεριφορά των άλλων.

Ο SQL Server 2008 διαθέτει ισχυρές νέες δυνατότητες χρονοσειρών για εκμάθηση και χρήση. Το εργαλείο διαθέτει εύκολα προσβάσιμα δεδομένα TS, μια εύχρηστη διεπαφή για την προσομοίωση και την αναπαραγωγή συναρτήσεων αλγορίθμου και ένα παράθυρο επεξήγησης με σύνδεσμο σε ερωτήματα DMX από την πλευρά του διακομιστή, ώστε να μπορείτε να κατανοήσετε τι συμβαίνει μέσα.

Η χρονοσειρά της αγοράς είναι ένας ευρύς τομέας στον οποίο μπορούν να εφαρμοστούν μοντέλα και αλγόριθμοι βαθιάς μάθησης. Οι τράπεζες, οι χρηματιστές και τα funds πειραματίζονται τώρα με την ανάπτυξη αναλύσεων και προβλέψεων για δείκτες, συναλλαγματικές ισοτιμίες, συμβόλαια μελλοντικής εκπλήρωσης, τιμές κρυπτονομισμάτων, κρατικές μετοχές και άλλα.

Στην πρόβλεψη χρονοσειρών, το νευρωνικό δίκτυο βρίσκει προβλέψιμα μοτίβα μελετώντας τις δομές και τις τάσεις των αγορών και δίνει συμβουλές στους εμπόρους. Αυτά τα δίκτυα μπορούν επίσης να βοηθήσουν στον εντοπισμό ανωμαλιών όπως απροσδόκητες κορυφές, πτώσεις, αλλαγές τάσεων και αλλαγές επιπέδου. Πολλά μοντέλα τεχνητής νοημοσύνης χρησιμοποιούνται για οικονομικές προβλέψεις.

Συνιστάται: