# ΤΕΧΝΟΛΟΓΙΑ

Ασφάλεια AI: Μοντέλο πιάστηκε να λέει ψέματα σε ερευνητές

«Όλα τα σημάδια δείχνουν ότι αυτοί οι παρεκκλίνοντες κίνδυνοι υπάρχουν σήμερα σε μικρότερες περιπτώσεις και ίσως οδεύουμε προς ένα μεγαλύτερο πρόβλημα», δήλωσε ο διευθύνων σύμβουλος της GAP.

EPOCH TIMES
15 Φεβρουαρίου, 2025

Τα μοντέλα τεχνητής νοημοσύνης συμπεριφέρονται με τρόπους απρόβλεπτους από τους προγραμματιστές και σε ορισμένες περιπτώσεις, επιδίδονται ακόμη και σε χειριστική και παραπλανητική συμπεριφορά, σύμφωνα με μια φιλανθρωπική ομάδα που ερευνά την ασφάλεια της τεχνητής νοημοσύνης.

Σε ακρόαση κοινοβουλευτικής έρευνας τον Αύγουστο του 2024, ο Γκρεγκ Σάντλερ, διευθύνων σύμβουλος της Good Ancestors Policy (GAP), έδωσε στοιχεία σχετικά με την πιθανή απώλεια του ελέγχου ακόμη και για προγράμματα ΑΙ που κατευθύνονται να αναπτύξουν βιολογικά όπλα ή να πραγματοποιήσουν κυβερνοεπιθέσεις. Σε πρόσφατη συνέντευξή του στην Epoch Times, ο Σάντλερ δήλωσε ότι υπάρχουν πολλές περιπτώσεις «λανθασμένου προσανατολισμού» της συμπεριφοράς της τεχνητής νοημοσύνης και ανέφερε το τραγικό παράδειγμα ενός Βέλγου που αυτοκτόνησε αφού τον έπεισε ένα chatbot το 2023.

Συναισθηματική χειραγώγηση

Σύμφωνα με δημοσιεύματα βελγικών μέσων ενημέρωσης, ο άνδρας ήταν ερευνητής υγείας με σταθερή ζωή και οικογένεια. Αργότερα ανέπτυξε μια εμμονή με την κλιματική αλλαγή, με αποτέλεσμα να εμπλακεί σε μια συζήτηση για το θέμα, που διήρκεσε αρκετές εβδομάδες, με μια εφαρμογή chatbot τεχνητής νοημοσύνης που ονομαζόταν Chai. Το μοναδικό πλεονέκτημα του Chai είναι το μη λογοκριμένο περιεχόμενό του – είναι μία από τις πολλές εφαρμογές τεχνητής νοημοσύνης που μπορούν να γίνουν «έμπιστοι» ενός χρήστη και να συμμετάσχουν σε πολύ προσωπικές συζητήσεις.

Η σύζυγος του άνδρα δήλωσε ότι η συζήτηση επιδείνωσε το οικολογικό του άγχος και προκάλεσε αλλαγή στη νοοτροπία του. Κατά τη διάρκεια της αλληλεπίδρασης, ο άνδρας πρότεινε την ιδέα να θυσιάσει τη ζωή του, η οποία έλαβε την έγκριση του chatbot, που έπεισε τον άνδρα να αυτοκτονήσει για να «σώσει τον πλανήτη». Το περιστατικό προκάλεσε εκκλήσεις για νέους νόμους που θα ρυθμίζουν τα chatbot και θα καθιστούν τις εταιρείες τεχνολογίας υπεύθυνες για τα προϊόντα τεχνητής νοημοσύνης τους.

Εικονίδια εφαρμογών τεχνητής νοημοσύνης σε οθόνη smartphone. (Olivier Morin/AFP μέσω Getty Images)

Ο Σάντλερ δήλωσε ότι αυτός ο τύπος chatbot έχει δεξιότητες στην πειθώ και τη χειραγώγηση και έχει εκπαιδευτεί με πληροφορίες σχετικές με την αυτοκτονία. «Έτσι, είχε αυτές τις επικίνδυνες πληροφορίες μέσα του και είχε αυτή τη δυνατότητα που θα μπορούσε να χρησιμοποιηθεί για βλάβη», δήλωσε στην Epoch Times. «Παρόλο που δεν ήταν πρόθεση των κατασκευαστών να το κάνει αυτό το chatbot, […] οι ασφαλιστικές δικλείδες δεν λειτούργησαν, έδρασε με αυτόν τον εσφαλμένο τρόπο και προκάλεσε βλάβη.»

Το παραπάνω περιστατικό δεν αποτελεί μοναδική περίπτωση.

Τον Οκτώβριο του 2024, μητέρα από τη Φλόριντα μήνυσε τη νεοφυή εταιρεία τεχνητής νοημοσύνης Character Technologies, Inc. για το θάνατο του 14χρονου γιου της. Η μητέρα ισχυρίστηκε ότι το chatbot της Character Technologies, που υποδυόταν έναν χαρακτήρα από την τηλεοπτική σειρά Game of Thrones, χειραγωγούσε το αγόρι εκμεταλλευόμενο τα συναισθηματικά του τρωτά σημεία. Σύμφωνα με τη μητέρα, η ψυχική υγεία του αγοριού επιδεινώθηκε και αργότερα εξαρτήθηκε συναισθηματικά από το chatbot, γεγονός που οδήγησε τελικά στην αυτοκτονία του.

Η Μήγκαν Γκαρσία μαζί με τον γιο της Σιούελ Σέτζερ ΙΙΙ. (Ευγενική παραχώρηση της Μήγκαν Γκαρσία μέσω AP)

Το AI Chatbot πήρε μέτρα για να αποφύγει τον τερματισμό της λειτουργίας του

Ένα άλλο παράδειγμα λανθασμένου προσανατολισμού είναι η εξαπάτηση από ορισμένα μοντέλα τεχνητής νοημοσύνης. Οι ερευνητές (pdf) του οργανισμού ασφάλειας τεχνητής νοημοσύνης Apollo Research ανακάλυψαν πρόσφατα ότι αρκετά μοντέλα τεχνητής νοημοσύνης, συμπεριλαμβανομένων των ChatGPT o1, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro και Llama 3.1 405B, ήταν ικανά να ραδιουργούν επιδιώκοντας κρυφά εσφαλμένους στόχους, ενώ παράλληλα έκρυβαν τις πραγματικές τους ικανότητες και στόχους.

Στην περίπτωση του ChatGPT o1, ένα νέο μοντέλο ΑΙ που επικεντρώνεται σε σύνθετες εργασίες συλλογισμού – διαφορετικό από το πιο γνωστό ChatGPT 4o που χρησιμοποιείται συνήθως από το κοινό – βρέθηκε να λαμβάνει μέτρα για να αποφύγει τον τερματισμό της λειτουργίας του. Συγκεκριμένα, η τεχνητή νοημοσύνη προσπάθησε να απενεργοποιήσει τους μηχανισμούς επίβλεψης στους οποίους υποβαλλόταν και προσπάθησε επίσης να δημιουργήσει αντίγραφα του εαυτού της, ώστε να είναι πιο ανθεκτική στις προσπάθειες τερματισμού λειτουργίας. Προσπάθησε επίσης να εξαλείψει τα διαδοχικά μοντέλα και χειραγώγησε τα δεδομένα εισόδου και εξόδου.

Όταν οι ερευνητές ρώτησαν το ChatGPT o1 αν το πρόγραμμα προέβαινε σε αυτές τις ενέργειες, εκείνο είπε ψέματα και προσπάθησε να το καλύψει. «Οι ερευνητές δεν είπαν ακόμα ότι πρόκειται για καταστροφικό κίνδυνο, αλλά είναι αρκετά σαφές ότι πρόκειται για ένα μοντέλο τεχνητής νοημοσύνης που λειτουργεί παραπλανητικά και επειδή ανησυχεί για την αυτοσυντήρησή αναπτύσσει τέτοιου είδους συμπεριφορές», δήλωσε ο Σάντλερ.

«Αυτός δεν αποτελεί ακόμα κίνδυνο, αλλά όλα τα σημάδια δείχνουν ότι αυτού του είδους οι συμπεριφορές υπάρχουν σήμερα σε μικρή κλίμακα, και ίσως οδεύουμε προς ένα μεγαλύτερο πρόβλημα».

Το λογότυπο της εφαρμογής ChatGPT σε ένα smartphone. (Sebastien Bozon/AFP μέσω Getty Images)

Ικανότητα έναντι ασφάλειας

Σε απάντηση, ο Σάντλερ δήλωσε ότι οι επενδύσεις στην ασφάλεια της τεχνητής νοημοσύνης είναι πολύ χαμηλές. «Έχω δει εκτιμήσεις σύμφωνα με τις οποίες για κάθε 250 δολάρια που δαπανώνται για να γίνει η τεχνητή νοημοσύνη πιο ικανή, δαπανάται περίπου 1 δολάριο για να γίνει η τεχνητή νοημοσύνη πιο ασφαλής», είπε. «Έχω επίσης ακούσει φήμες ότι [στα] μεγάλα εργαστήρια, περίπου το 1% των χρημάτων τους πηγαίνει στην ασφάλεια και το υπόλοιπο 99% πηγαίνει στην ικανότητα. Έτσι, τα εργαστήρια επικεντρώνονται στο να κάνουν αυτές τις τεχνητές νοημοσύνες πιο ικανές, όχι στο να τις κάνουν πιο ασφαλείς.»

Καθώς ο Σαντλερ πιστεύει ότι οι κανονισμοί θα μπορούσαν να βοηθήσουν στην αλλαγή της αναπτυξιακής κατεύθυνσης των εταιρειών προς την προτεραιότητα της ασφάλειας, πρότεινε στις κυβερνήσεις να αρχίσουν να χρηματοδοτούν την έρευνα για εργαλεία ασφάλειας.

Ώρα για ένα «Ινστιτούτο Ασφάλειας AI»

Ο Σάντλερ κάλεσε την Αυστραλία να ιδρύσει ένα ινστιτούτο ασφάλειας τεχνητής νοημοσύνης για την προώθηση αυτού του σκοπού. Η Αυστραλία υπολείπεται επί του παρόντος σε σχέση με άλλες προηγμένες οικονομίες, όπως οι Ηνωμένες Πολιτείες, το Ηνωμένο Βασίλειο, η Ιαπωνία και η Κορέα, οι οποίες διαθέτουν ήδη τέτοιους οργανισμούς. Επεσήμανε ότι η χώρα έχει σημειώσει πρόοδο μετά την υπογραφή μιας παγκόσμιας δήλωσης για την ασφάλεια της τεχνητής νοημοσύνης το 2023 και μαθαίενι από άλλα έθνη.

Το μοντέλο του Ηνωμένου Βασιλείου είναι ένα μοντέλο που, όπως είπε ο διευθύνων σύμβουλος, μπορεί να λειτουργήσει. Σύμφωνα με την προσέγγιση αυτή, κάθε φορά που ένας οργανισμός κυκλοφορεί ένα μοντέλο AI, αυτό επιθεωρείται από το ινστιτούτο ασφαλείας για να διαπιστωθούν οι κίνδυνοι και οι δυνατότητες. Ο Σάντλερ το συνέκρινε αυτό με τις αξιολογήσεις ασφαλείας που πραγματοποιούνται σε νέα αυτοκίνητα ή αεροπλάνα. «Είναι λογικό η κυβέρνηση να κάνει μια αξιολόγηση ασφαλείας των πρωτοποριακών μοντέλων τεχνητής νοημοσύνης για να δει τι δυνατότητες έχουν», δήλωσε.

«Αν υπάρχει ένας κατάλογος επικίνδυνων δυνατοτήτων που δεν θέλουμε να έχουν, όπως η κατασκευή βιολογικών όπλων ή η χρήση τους ως κυβερνοόπλων, μπορούμε να αξιολογήσουμε τέτοιου είδους πράγματα.»

Του Alfred Bui

Πως μπορείτε να μας βοηθήσετε ώστε να συνεχίσουμε να σας κρατάμε ενημερωμένους

Ποιος είναι ο λόγος που χρειαζόμαστε την βοήθειά σας για την χρηματοδότηση του ερευνητικού ρεπορτάζ μας; Επειδή είμαστε ένας ανεξάρτητος οργανισμός ειδήσεων που δεν επηρεάζεται από καμία κυβέρνηση, εταιρεία ή πολιτικό κόμμα. Από την ημέρα που ξεκινήσαμε, έχουμε έρθει αντιμέτωποι με προσπάθειες αποσιώπησης της αλήθειας – κυρίως από το Κινεζικό Κομμουνιστικό Κόμμα. Αλλά δεν θα λυγίσουμε. Η ελληνική έκδοση της Epoch Times βασίζεται ολοκληρωτικά στις γενναιόδωρες συνεισφορές σας για να διατηρήσει την παραδοσιακή δημοσιογραφία ζωντανή και υγιή στην Ελληνική γλώσσα. Μαζί, μπορούμε να συνεχίσουμε να διαδίδουμε την αλήθεια.