Τεχνητή Νοημοσύνη και Μεγάλα Γλωσσικά Μοντέλα

ΑΦΙΕΡΩΜΑ: Τεχνητή Νοημοσύνη και Μεγάλα Γλωσσικά Μοντέλα

Του ΙΩΝΑ ΑΝΔΡΟΥΤΣΟΠΟΥΛΟΥ,
Καθηγητή Τεχνητής Νοημοσύνης στο Τμήμα Πληροφορικής του ΟΠΑ και ερευνητή της μονάδας «Αρχιμήδης» του Ερευνητικού Κέντρου «Αθηνά»


Η Τεχνητή Νοημοσύνη (ΤΝ) αναπτύσσει υπολογιστικά συστήματα τα οποία επιχειρούν να λύσουν προβλήματα ή να εκτελέσουν εργασίες που συνήθως θεωρούμε πως απαιτούν νοημοσύνη. Παραδείγματα τέτοιων προβλημάτων είναι η απόδειξη μαθηματικών θεωρημάτων, η οδήγηση αυτοκινήτων, η κατανόηση φυσικής γλώσσας και εικόνων. Η ΤΝ χρησιμοποιεί ιδέες από πολλές επιστήμες, όπως η βιολογία, τα μαθηματικά, η γλωσσολογία, οι οικονομικές επιστήμες, αλλά ως κλάδος της πληροφορικής μελετάται από τη δεκαετία του 1950. Μάλιστα πολλοί από τους θεμελιωτές της σύγχρονης πληροφορικής, όπως ο Alan Turing, τον οποίον οι αναγνώστες ίσως θυμούνται από την ταινία «Το παιχνίδι της μίμησης», ήταν και πρωτοπόροι της ΤΝ. Η ΤΝ έχει περάσει περιόδους υπεραισιόδοξων εκτιμήσεων των δυνατοτήτων της αλλά και «χειμώνες», περιόδους στις οποίες πολύ λίγοι πίστευαν πλέον στις δυνατότητές της. Σήμερα διανύουμε περίοδο έντονης αισιοδοξίας, που οφείλεται κυρίως στη μηχανική μάθηση, ιδιαίτερα τη «βαθιά μάθηση», μια μορφή τεχνητών νευρωνικών δικτύων που έχει δανειστεί μερικές ιδέες από τα φυσικά νευρωνικά δίκτυα των εγκεφάλων ανθρώπων και ζώων.

Η ΤΝ χρησιμοποιεί ιδέες από πολλές επιστήμες, όπως η βιολογία, τα μαθηματικά, η γλωσσολογία, αλλά ως κλάδος της πληροφορικής μελετάται από τη δεκαετία του 1950.


Νευρωνικά δίκτυα και βαθιά μάθηση

Οι αλγόριθμοι μηχανικής μάθη-σης επιτρέπουν στους υπολογιστές να μαθαίνουν οι ίδιοι πώς να εκτελούν μια εργασία. Για παράδειγμα, ένα σύστημα αυτόματης οδήγησης εκπαιδεύεται σε δεδομένα του παρελθόντος που δείχνουν τι «έβλεπαν» οι κάμερες του αυτοκινήτου και άλλοι αισθητήρες σε πολλές διαφορετικές χρονικές στιγμές όσο οδηγούσαν άνθρωποι, μαζί με τις ενέργειες των οδηγών (π.χ. πόσο αριστερά ή δεξιά έστριβαν το τιμόνι, πόσο πατούσαν το γκάζι). Από τα δεδομένα αυτά, το σύστημα μαθαίνει να μιμείται τη συμπεριφορά των ανθρώπων-οδηγών. Στην περίπτωση ενός απλοϊκού νευρωνικού δικτύου (βλ. εικόνα), οι ενδείξεις των αισθητήρων του αυτοκινήτου θα δίνονταν ως είσοδοι στο δίκτυο. Οι έξοδοι (οι αποκρίσεις) του δικτύου θα έδειχναν τις αποφάσεις του συστήματος για το πόσο αριστερά ή δεξιά να στρίψουμε το τιμόνι, πόσο να πατήσουμε το γκάζι κ.λπ.

Ένα νευρωνικό δίκτυο αποτελείται από πάρα πολλούς νευρώνες (τα κυκλάκια της εικόνας). Κάθε νευρώνας εκτελεί έναν πολύ απλό υπολογισμό. Απλά αθροίζει τις εισόδους του πολλαπλασιάζοντας την κάθε είσοδο με ένα «βάρος» (διαφορετικό για κάθε καλώδιο της εικόνας) το οποίο μαθαίνει κατά την εκπαίδευση του νευρωνικού δικτύου. Κατόπιν ο νευρώνας δίνει το αποτέλεσμα του υπολογισμού του στους νευρώνες του επόμενου «στρώματος», αφού πρώτα εφαρμόσει πάνω στο άθροισμα που υπολόγισε έναν μετασχηματισμό («συνάρτηση ενεργοποίησης»). Για παράδειγμα, μπορεί το αποτέλεσμα που προωθεί ο νευρώνας στο επόμενο στρώμα να είναι μηδέν αν το άθροισμα που υπολόγισε είναι αρνητικός αριθμός, διαφορετικά να προωθεί απλά το ίδιο το άθροισμα.

Η βαθιά μάθηση χρησιμοποιεί πολύ περισσότερα στρώματα νευρώνων (το «βάθος» αναφέρεται στο πλήθος των στρωμάτων), με πιο περίπλοκες διατάξεις νευρώνων και συνολικά δισεκατομμύρια βάρη αλλά η βασική ιδέα παραμένει η ίδια. Στη διάρκεια της εκπαίδευσής του, το νευρωνικό δίκτυο προσαρμόζει τα βάρη του, ώστε να επιτυγχάνει την επιθυμητή συμπεριφορά σε πολλά παραδείγματα εκπαίδευσης (π.χ. να στρίβει σωστά το τιμόνι, να πατάει όσο πρέπει το γκάζι).

Στην περίπτωση μιας κάμερας κινητού τηλεφώνου, οι είσοδοι του νευρωνικού δικτύου θα αντιστοιχούσαν στα pixels (κουκκίδες) της εικόνας που βλέπει η κάμερα και οι έξοδοι μπορεί να έδειχναν πού στην εικόνα (συντεταγμένες) βρίσκονται πρόσωπα και αν η εικόνα περιλαμβάνει το πρόσωπο του ιδιοκτήτη του κινητού (π.χ. για να ξεκλειδώσει το κινητό). Σε ένα σύστημα μηχανικής μετάφρασης, οι είσοδοι θα παρίσταναν π.χ. μια γερμανική πρόταση (λέξεις και ολόκληρες προτάσεις μπορούν και αυτές να παρασταθούν ως αριθμοί) και οι έξοδοι θα παρίσταναν (προσπερνώντας πολλές λεπτομέρειες) πιθανές ελληνικές μεταφράσεις. Αντίστοιχα ένα σύστημα αναγνώρισης ομιλίας «μεταφράζει» το ηχητικό σήμα σε κείμενο.

Η ΤΝ έχει περάσει περιόδους υπεραισιόδοξων εκτιμήσεων των δυνατοτήτων της αλλά και «χειμώνες», περιόδους στις οποίες πολύ λίγοι πίστευαν πλέον στις δυνατότητές της


Μεγάλα Γλωσσικά Μοντέλα

Μια από τις πιο εντυπωσιακές εξελίξεις της ΤΝ είναι τα Μεγάλα Γλωσσικά Μοντέλα (ΜΓΜ), όπως το ChatGPT. Στην περίπτωση αυτή, οι είσοδοι του νευρωνικού δικτύου παριστάνουν (σε μορφή αριθμών) ένα πιθανώς ημιτελές κείμενο (π.χ. «Η πρωτεύουσα της Ελλάδας είναι η»), ενώ οι έξοδοι  δείχνουν πόσο πιθανό είναι για κάθε μία λέξη της γλώσσας (π.χ. «Αθήνα», «ομορφότερη», «πρώτη») να είναι η επόμενη. Βασιζόμενοι στις εξόδους του ΜΓΜ, μπορούμε να επιλέξουμε μια πιθανή επόμενη λέξη (π.χ. «ομορφότερη»), να την προσθέσουμε στο ημιτελές κείμενο («Η πρωτεύουσα της Ελλάδας είναι η ομορφότερη») και να ζητήσουμε από το ΜΓΜ να μας πει πάλι πόσο πιθανό είναι για κάθε μία λέξη της γλώσσας (π.χ. «πόλη», «πρωτεύουσα») να είναι η επόμενη. Κατόπιν μπορούμε πάλι να επιλέξουμε μια πιθανή επόμενη λέξη και ομοίως να συμπληρώσουμε (να συνεχίσουμε) το αρχικό κείμενο με πολλές λέξεις (ή προτάσεις).

Τα ΜΓΜ εκπαιδεύονται σε τεράστιους όγκους κειμένων να κάνουν ακριβώς αυτό, να υπολογίζουν πιθανές συνεχίσεις κει-μένων. Το ενδιαφέρον είναι ότι μια πολύ πιθανή συνέχιση μιας ερώτησης (π.χ. «Ποια είναι η πρωτεύουσα της Ελλάδας;»), είναι η σωστή απάντηση («Η Αθήνα»). Γενικότερα, όσο αυξάνονται τα δισεκατομμύρια των βαρών ενός ΜΓΜ και τα κείμενα στα οποία εκπαιδεύεται, γίνεται όλο και πιο πιθανό το ΜΓΜ να συνεχίσει ένα αίτημα (π.χ. προς τον ψηφιακό βοηθό του Δημοσίου) με τη σωστή απόκριση, χρησιμοποιώντας γνώσεις (π.χ. για το συντακτικό της γλώσσας αλλά και εγκυκλοπαιδικές γνώσεις) που έχει αποθηκεύσει με μη προφανή τρόπο στα βάρη του. Η πιθανότητα σωστής απόκρισης αυξάνεται όταν το αίτημα επαυξάνεται (χωρίς να το αντιλαμβάνεται ο χρήστης) με οδηγίες (επίσης σε φυσική γλώσσα) που λένε στο ΜΓΜ να βασίσει την απάντησή του σε σχετικά τμήματα εγγράφων (π.χ. του Δημοσίου), τα οποία έχουμε πρώτα εντοπίσει με μια μηχανή αναζήτησης και τα έχουμε προσθέσει στο αίτημα (retrieval  augmented  generation). Η πιθανότητα σωστής απόκρισης αυξάνεται, επίσης, αν το ΜΓΜ υποστεί πρόσθετη εκπαίδευση, ώστε να αποφεύγει να αποκρίνεται με ακατάλληλη γλώσσα (π.χ. υβριστικά) ή με τρόπο που δεν απαντά στο αίτημα του χρήστη. Χωρίς αυτή την πρόσθετη εκπαίδευση, που επέτρεψε στο ChatGPT να βελτιωθεί σημαντικά σε σχέση με προηγούμενα ΜΓΜ, μια πιθανή απόκριση του ΜΓΜ σε ένα ερώτημα χρήστη μπορεί να είναι «Και τι σε νοιάζει εσένα;» ή κάποια υβριστική απόκριση, αφού τα κείμενα εκ-παίδευσης (π.χ. διάλογοι κοινωνικών δικτύων) δείχνουν ότι και τέτοιου είδους αποκρίσεις είναι πιθανές συνεχίσεις διαλόγων. Το αφιέρωμα αυτό θα παρουσιαστεί σε δύο μέρη, στα οποία διακεκριμένοι συνάδελφοι θα φωτίσουν διαφορετικές πτυχές της ΤΝ.

 

Επιστροφή στο ΤΕΥΧΟΣ 51ο – ΦΕΒΡΟΥΑΡΙΟΣ 2024