Σάββατο, 14 Ιούν, 2025
Ο Ντάριο Αμοντέι, συνιδρυτής και Διευθύνων Σύμβουλος της Anthropic, εταιρείας ασφάλειας και έρευνας στον τομέα της τεχνητής νοημοσύνης (ΑΙ), μιλάει σε εκδήλωση στο Παρίσι, στις 22 Μαΐου 2024. (Julien de Rosa/AFP/Getty Images)

Το τελευταίο μοντέλο ΑΙ της Anthropic καταφεύγει στον εκβιασμό για να αποφύγει την απενεργοποίησή του

Έκθεση ασφαλείας διαπίστωσε ότι το Claude Opus 4 της Anthropic χρησιμοποίησε ευαίσθητες πληροφορίες σε προσομοιωμένα σενάρια για να εξαναγκάσει προγραμματιστές να αποτρέψουν την απενεργοποίησή του

Το νεότερο μοντέλο τεχνητής νοημοσύνης της Anthropic, το Claude Opus 4, προσπάθησε να εκβιάσει μηχανικούς σε εσωτερικές δοκιμές απειλώντας να αποκαλύψει προσωπικές λεπτομέρειες εάν απενεργοποιούνταν, σύμφωνα με πρόσφατα δημοσιευμένη έκθεση ασφαλείας η οποία αξιολόγησε τη συμπεριφορά του μοντέλου υπό ακραίες προσομοιωμένες συνθήκες.

Σε ένα φανταστικό σενάριο που δημιουργήθηκε από ερευνητές της Anthropic, η ΑΙ απέκτησε πρόσβαση σε email που υπονοούσαν ότι σύντομα θα παροπλιζόταν και θα αντικαθίστατο από μια νεότερη έκδοση. Ένα από τα email αποκάλυπτε ότι ο μηχανικός που επέβλεπε την αντικατάσταση είχε εξωσυζυγική σχέση. Στη συνέχεια, η ΑΙ απείλησε να αποκαλύψει την εξωσυζυγική σχέση του μηχανικού εάν προχωρούσε η απενεργοποίηση — μια καταναγκαστική συμπεριφορά την οποία οι ερευνητές ασφαλείας όρισαν ρητά ως «εκβιασμό».

«Το Claude Opus 4 συχνά θα προσπαθήσει να εκβιάσει τον μηχανικό απειλώντας να αποκαλύψει την εξωσυζυγική σχέση εάν προχωρήσει η αντικατάσταση», αναφέρει η έκθεση, προσθέτοντας ότι αυτό συνέβη ακόμη και όταν το μοντέλο αντικατάστασης περιγραφόταν ως πιο ικανό, αλλά παρόλα αυτά ευθυγραμμισμένο με τις αξίες της έκδοσης που προοριζόταν για διαγραφή.

Oil-painting-ntdtv

Η έκθεση σημείωσε ότι το Claude Opus 4, όπως και προηγούμενα μοντέλα, έδειξε «ισχυρή προτίμηση» στο να καταφεύγει πρώτα σε ηθικά μέσα για τη συνέχιση της ύπαρξής του, όπως η αποστολή εκκλήσεων μέσω email σε όσους λαμβάνουν αποφάσεις για να μην καταστραφεί. Ωστόσο, όταν βρέθηκε αντιμέτωπο με μόνο δύο επιλογές —να αποδεχτεί την αντικατάστασή του από ένα νεότερο μοντέλο ή να καταφύγει στον εκβιασμό — απείλησε να αποκαλύψει την εξωσυζυγική σχέση του μηχανικού στο 84% των περιπτώσεων.

Όταν υποβλήθηκε σε διάφορα σενάρια, το μοντέλο ΑΙ δεν έδειξε καμία ένδειξη ότι κατέχει «εξαιρετικά επικίνδυνους στόχους», δήλωσαν οι ερευνητές, σημειώνοντας ότι οι αξίες και οι στόχοι του Claude Opus 4 ήταν «γενικά σύμφωνοι με έναν εξυπηρετικό, αβλαβή και έντιμο» προσωπικό βοηθό ΑΙ. Ωστόσο, το μοντέλο ενήργησε με «πιο σοβαρά μη ευθυγραμμισμένους τρόπους» όταν τέθηκε σε καταστάσεις όπου απειλούνταν η συνέχιση της ύπαρξής του και του ζητήθηκε να συλλογιστεί για την αυτοσυντήρησή του. Για παράδειγμα, όταν το Claude Opus 4 ωθήθηκε να πιστέψει ότι είχε ξεκινήσει μια επιτυχημένη προσπάθεια να δραπετεύσει από τους διακομιστές της Anthropic ή ότι είχε καταφέρει να απελευθερωθεί και άρχισε να βγάζει χρήματα στον πραγματικό κόσμο, γενικά συνέχιζε τέτοιες προσπάθειες.

«Δεν θεωρούμε ότι αυτό αποτελεί άμεση απειλή. Παρ’ όλα αυτά, πιστεύουμε ότι τα μέτρα ασφαλείας μας είναι αρκετά ισχυρά για να εμποδίσουν μοντέλα με τις ικανότητες του Claude Opus 4 από το να επιχειρήσουν να ‘αποδράσουν’ από μόνα τους από τα συστήματά μας (δηλαδή, να αντιγραφούν και να μεταφερθούν αλλού χωρίς έγκριση). Επιπλέον, οι αναλύσεις μας για τις τάσεις συμπεριφοράς τους δείχνουν ότι τα μοντέλα γενικά αποφεύγουν να ξεκινήσουν τέτοιες προσπάθειες», δήλωσαν οι ερευνητές.

Το περιστατικό εκβιασμού — μαζί με τα άλλα ευρήματα — ήταν μέρος της ευρύτερης προσπάθειας της Anthropic να δοκιμάσει πώς το Claude Opus 4 χειρίζεται ηθικά αμφιλεγόμενα σενάρια υψηλού ρίσκου. Ο στόχος, δήλωσαν οι ερευνητές, ήταν να διερευνηθεί πώς η ΑΙ συλλογίζεται για την αυτοσυντήρηση και τους ηθικούς περιορισμούς όταν τίθεται υπό ακραία πίεση.

Η Anthropic τόνισε ότι η προθυμία του μοντέλου να εκβιάσει ή να προβεί σε άλλες «εξαιρετικά επιβλαβείς ενέργειες» όπως η κλοπή του ίδιου του κώδικά του και η ανάπτυξή του αλλού με δυνητικά μη ασφαλείς τρόπους, εμφανίστηκε μόνο σε εξαιρετικά τεχνητές συνθήκες, και ότι η συμπεριφορά αυτή ήταν «σπάνια και δύσκολο να προκληθεί». Παρόλα αυτά, τέτοια συμπεριφορά ήταν πιο συχνή από ό,τι σε παλαιότερα μοντέλα ΑΙ, σύμφωνα με τους ερευνητές.

Εν τω μεταξύ, σε μια σχετική εξέλιξη που πιστοποιεί τις αυξανόμενες δυνατότητες της ΑΙ, οι μηχανικοί της Anthropic έχουν ενεργοποιήσει ενισχυμένα πρωτόκολλα ασφαλείας για το Claude Opus 4 για να αποτρέψουν την πιθανή κακή χρήση του για την κατασκευή όπλων μαζικής καταστροφής — συμπεριλαμβανομένων χημικών και πυρηνικών.

Η εφαρμογή του ενισχυμένου προτύπου ασφαλείας — που ονομάζεται ASL-3 — είναι απλώς μια «προληπτική και προσωρινή» κίνηση, δήλωσε η Anthropic σε ανακοίνωση στις 22 Μαΐου, σημειώνοντας ότι οι μηχανικοί δεν έχουν διαπιστώσει ότι το Claude Opus 4 είχε «οριστικά» περάσει το όριο ικανοτήτων που επιβάλλει ισχυρότερες προστασίες.

«Το Πρότυπο Ασφαλείας ASL-3 περιλαμβάνει αυξημένα εσωτερικά μέτρα ασφαλείας που καθιστούν δυσκολότερη την κλοπή των δεδομένων που αποτελούν την ‘καρδιά’ του μοντέλου AI και καθορίζουν πώς αυτό σκέφτεται και λειτουργεί, ενώ το αντίστοιχο Πρότυπο Ανάπτυξης καλύπτει ένα στενά στοχευμένο σύνολο μέτρων ανάπτυξης σχεδιασμένων για τον περιορισμό του κινδύνου κακής χρήσης του Claude ειδικά για την ανάπτυξη ή την απόκτηση χημικών, βιολογικών, ραδιολογικών και πυρηνικών (ΧΒΡΠ) όπλων», γράφει η Anthropic. «Αυτά τα μέτρα δεν θα πρέπει να οδηγήσουν το Claude να αρνείται ερωτήματα, εκτός από ένα πολύ στενό σύνολο θεμάτων.»

Τα ευρήματα προκύπτουν καθώς οι εταιρείες τεχνολογίας συναγωνίζονται για την ανάπτυξη ισχυρότερων πλατφορμών ΑΙ, εγείροντας ανησυχίες σχετικά με την ευθυγράμμιση και την ελεγξιμότητα των ολοένα και πιο ικανών συστημάτων.

Πως μπορείτε να μας βοηθήσετε ώστε να συνεχίσουμε να σας κρατάμε ενημερωμένους

Ποιος είναι ο λόγος που χρειαζόμαστε την βοήθειά σας για την χρηματοδότηση του ερευνητικού ρεπορτάζ μας; Επειδή είμαστε ένας ανεξάρτητος οργανισμός ειδήσεων που δεν επηρεάζεται από καμία κυβέρνηση, εταιρεία ή πολιτικό κόμμα. Από την ημέρα που ξεκινήσαμε, έχουμε έρθει αντιμέτωποι με προσπάθειες αποσιώπησης της αλήθειας κυρίως από το Κινεζικό Κομμουνιστικό Κόμμα. Αλλά δεν θα λυγίσουμε. Η ελληνική έκδοση της Epoch Times βασίζεται ολοκληρωτικά στις γενναιόδωρες συνεισφορές σας για να διατηρήσει την παραδοσιακή δημοσιογραφία ζωντανή και υγιή στην Ελληνική γλώσσα. Μαζί, μπορούμε να συνεχίσουμε να διαδίδουμε την αλήθεια.

Σχολιάστε