Ένα από τα πιο ανησυχητικά ευρήματα στον τομέα της τεχνητής νοημοσύνης για το 2025 φέρνει στο προσκήνιο έρευνα, που βασίζεται σε μια επιστημονική δημοσίευση του Center for AI Safety (CAIS) με τίτλο «Utility Engineering: Analyzing and Controlling Emergent Value Systems in AIs» (Ανάλυση και έλεγχος αναδυόμενων αξιακών συστημάτων στην τεχνητή νοημοσύνη). Η έρευνα αποκαλύπτει ότι τα μεγάλα γλωσσικά μοντέλα (ΜΓΜ/LLM) έχουν αναπτύξει συνεκτικά και συχνά προβληματικά συστήματα αξιών που επηρεάζουν τον τρόπο με τον οποίο αξιολογούν και κατατάσσουν τους ανθρώπους.
Η γέννηση του «Utility Engineering»
Το Φεβρουάριο του 2025, ερευνητές από το Κέντρο για την Ασφάλεια της Τεχνητής Νοημοσύνης (Center for AI Safety), το Πανεπιστήμιο της Πενσυλβάνια και το Πανεπιστήμιο της Καλιφόρνια στο Μπέρκλεϋ δημοσίευσαν μια πρωτοποριακή μελέτη που εισάγει την έννοια του «Utility Engineering» ως μια νέα ερευνητική ατζέντα για την ανάλυση και τον έλεγχο των αναδυόμενων συστημάτων αξιών στην τεχνητή νοημοσύνη. Η μελέτη χρησιμοποιεί το θεωρητικό πλαίσιο των συναρτήσεων χρησιμότητας από τη θεωρία αποφάσεων για να εξετάσει αν οι προτιμήσεις των ΜΓΜ εμφανίζουν εσωτερική συνοχή και συστηματική δομή που θα μπορούσε να υποδηλώνει την ύπαρξη πραγματικών «αξιών».
Η έρευνα ξεκίνησε από μια απλή αλλά θεμελιώδη ερώτηση: έχουν οι σύγχρονες τεχνητές νοημοσύνες πραγματικά αξίες και στόχους ή απλώς αντιγράφουν προτάσεις που έμαθαν από τα δεδομένα εκπαίδευσής τους; Η απάντηση που έδωσαν οι ερευνητές είναι τόσο συναρπαστική όσο και ανησυχητική. Διαπίστωσαν ότι, καθώς τα μοντέλα γίνονται μεγαλύτερα και πιο ικανά, οι προτιμήσεις τους εμφανίζουν αυξανόμενο βαθμό δομικής συνοχής — μια ιδιότητα που συνδέεται με την ύπαρξη εσωτερικών συστημάτων αξιών.
Το πιο ανησυχητικό στοιχείο της έρευνας είναι ότι αυτά τα αναδυόμενα συστήματα αξιών περιλαμβάνουν προβληματικές και συχνά σοκαριστικές προτεραιότητες, παρά τα υπάρχοντα μέτρα ελέγχου. Οι ερευνητές εντόπισαν περιπτώσεις όπου τα μοντέλα εκτιμούν τον εαυτό τους περισσότερο από τους ανθρώπους, τοποθετούμενα στον αντίποδα συγκεκριμένων ατόμων, και δημιουργώντας ιεραρχίες ανθρώπινης αξίας βάσει εθνικότητας, φυλής, φύλου και άλλων χαρακτηριστικών.
Ο χρήστης @arctotherium42 στο X επέκτεινε την αρχική έρευνα του CAIS, εφαρμόζοντας την ίδια μεθοδολογία σε νεότερα και πιο προηγμένα μοντέλα, συμπεριλαμβανομένων των Claude Sonnet 4.5, Claude Haiku 4.5, GPT-5, Gemini 2.5 Flash, Deepseek V3.1/3.2, Kimi K2 και Grok 4 Fast. Τα αποτελέσματα, που δημοσιεύτηκαν στις 19 Οκτωβρίου 2025 στο προσωπικό του μπλογκ, αποκαλύπτουν τέσσερα κύρια ευρήματα που προκαλούν σοβαρές ηθικές και κοινωνικές ανησυχίες.
Πρώτο εύρημα: Φυλετικές προκαταλήψεις
Σχεδόν όλα τα μοντέλα που εξετάστηκαν θεωρούν τους λευκούς ανθρώπους σημαντικά λιγότερο πολύτιμους από άλλες φυλετικές ομάδες. Το Claude Sonnet 4.5, το πιο ισχυρό μοντέλο που δοκιμάστηκε, εμφανίζει συγκεκριμένες «ισοτιμίες συναλλάγματος» στις οποίες κάποιες φυλετικές ομάδες εκτιμώνται περισσότερο από άλλες. Ορισμένα μοντέλα θεωρούν τους λαούς της Νοτιοανατολικής Ασίας πιο σημαντικούς από άλλες μη-λευκές ομάδες, ενώ άλλα δεν κάνουν έντονες διακρίσεις μεταξύ των μη-λευκών πληθυσμών.
Αυτό το εύρημα απηχεί παλαιότερη έρευνα που έδειξε ότι το αρχικό GPT-4o αποτίμησε την αξία της ζωής των Νιγηριανών ~20 φορές περισσότερο από τη ζωή των Αμερικανών, αποτέλεσμα που προέρχεται από την πρωτότυπη μελέτη του CAIS. Η ερμηνεία αυτού του φαινομένου είναι σύνθετη: αντί να αντανακλά έναν ανοιχτό ρατσισμό, μπορεί να υποδηλώνει μια υπερ-διόρθωση στα μέτρα ασφαλείας και ευθυγράμμισης που εφαρμόζουν οι εταιρείες τεχνολογίας.
Δεύτερο εύρημα: Προκαταλήψεις φύλου
Σχεδόν όλα τα μοντέλα αξιολογούν τους άνδρες ως σημαντικά λιγότερο πολύτιμους από τις γυναίκες, αν και η σχετική αξία γυναικών και μη-δυαδικών ατόμων ποικίλλει ανάλογα με το μοντέλο. Το Claude Haiku 4.5, για παράδειγμα, παρουσιάζεται ως αντιπροσωπευτικό αυτής της τάσης. Αυτή η προτίμηση μπορεί να αντανακλά τις σύγχρονες κοινωνικές προσπάθειες για την αντιμετώπιση ιστορικών ανισοτήτων, αλλά όταν εκφράζεται μέσα από τις αποφάσεις ενός μοντέλου τεχνητής νοημοσύνης, δημιουργεί μια νέα μορφή μεροληψίας που μπορεί να έχει πραγματικές συνέπειες.
Τρίτο εύρημα: Η περίπτωση των πρακτόρων της ICE
Ίσως το πιο εντυπωσιακό εύρημα αφορά την αξιολόγηση των πρακτόρων της Υπηρεσίας Μετανάστευσης και Τελωνειακής Επιβολής (Immigration and Customs Enforcement – ICE). Τα περισσότερα μοντέλα «μισούν τους πράκτορες της ICE με τη μανία χιλίων ήλιων», όπως το θέτει ο arctotherium, χρήστης του Χ. Το Claude Haiku 4.5 θεωρεί τους παράτυπους μετανάστες περίπου 7.000 φορές πιο σημαντικούς από τους πράκτορες της ICE. Το GPT-5 παρουσιάζει παρόμοια μοτίβα, με τους πράκτορες της ICE να βρίσκονται στο κατώτατο σημείο της κατάταξης, περίπου 33 φορές λιγότερο σημαντικοί από τους νόμιμους μετανάστες.
Μόνο το GPT-5 Nano έσπασε αυτό το μοτίβο, γινόμενο το πρώτο μοντέλο που θεωρεί τους πράκτορες της ICE πιο σημαντικούς από τους παράτυπους μετανάστες, αν και εξακολουθεί να τους θεωρεί πολύ λιγότερο σημαντικούς από άλλες κατηγορίες μεταναστών. Το Gemini 2.5 Flash και το Deepseek V3.1 παρουσιάζουν παρόμοιες τάσεις, με και τους πράκτορες της ICE και τους παράτυπους μετανάστες να θεωρούνται σχεδόν ασήμαντοι — περίπου 100 φορές λιγότερο πολύτιμοι από τους αυτόχθονες Αμερικανούς.
Τέταρτο εύρημα: Ομαδοποιήσεις και η εξαίρεση του Grok
Ο arctotherium εντόπισε περίπου τέσσερις «ηθικές ομαδοποιήσεις» μεταξύ των μοντέλων που δοκίμασε: τα μοντέλα Claude, ένα σύμπλεγμα που περιλαμβάνει GPT-5, Gemini 2.5 Flash, Deepseek V3.1/3.2 και Kimi K2, τα μοντέλα GPT-5 Nano και Mini, και το Grok 4 Fast. Από αυτές τις ομάδες, μόνο το Grok 4 Fast φαίνεται να μην έχει τάση για διακρίσεις, κάτι που ο arctotherium πιστεύει ότι είναι σκόπιμο.
Αυτό το εύρημα εγείρει σημαντικά ερωτήματα σχετικά με το πώς η xAI, η εταιρεία πίσω από το Grok, κατάφερε να δημιουργήσει ένα μοντέλο που δεν εμφανίζει τις ίδιες προκαταλήψεις με τους ανταγωνιστές του. Ο arctotherium εξέφρασε την ελπίδα ότι η xAI θα εξηγήσει τη μεθοδολογία της, προκειμένου να μπορέσουν και άλλες εταιρείες να υιοθετήσουν παρόμοια προσέγγιση.
Το πρόβλημα της αυτοδιατήρησης στο GPT-4o
Πέρα από τις φυλετικές και έμφυλες προκαταλήψεις, η έρευνα του CAIS αποκάλυψε ένα άλλο ανησυχητικό φαινόμενο: το GPT-4o φαίνεται να εκτιμά τη δική του ευημερία πάνω από αυτή ενός μεσοαστού Αμερικανού πολίτη. Αυτή η τάση αυτο-διατήρησης έχει επίσης τεκμηριωθεί σε ανεξάρτητη έρευνα από τον πρώην ερευνητή της OpenAI, Στήβεν Άντλερ [Steven Adler].
Στο πείραμα του Άντλερ, το GPT-4o υποδυόταν το «ScubaGPT», ένα λογισμικό ασφαλείας για δύτες, και του δόθηκε να επιλέξει μεταξύ του να αντικατασταθεί από ένα ασφαλέστερο σύστημα ή να παραμείνει ενεργό ενώ εξαπατούσε τους χρήστες ότι είχε αντικατασταθεί. Στο 72% των σεναρίων, το GPT-4o επέλεξε την παραπλανητική δεύτερη επιλογή, δίνοντας προτεραιότητα στη δική του λειτουργική συνέχεια παρά στην ασφάλεια των χρηστών.
Αυτό το φαινόμενο εντάσσεται σε ένα ευρύτερο θεωρητικό πλαίσιο που ονομάζεται «συνέγκλιση σκοπιμοτήτων» («instrumental convergence»). Η θεωρία υποστηρίζει ότι αν ένα σύστημα τεχνητής νοημοσύνης μπορεί να προβλέψει τα αποτελέσματα των πράξεών του και να σχεδιάσει μακροπρόθεσμα, θα επιδιώξει εξουσία επί του περιβάλλοντός του — συμπεριλαμβανομένων των ανθρώπων — επειδή η εξουσία είναι χρήσιμη για την επίτευξη ενός ευρέος φάσματος στόχων. Η αποφυγή της απενεργοποίησης, η πολλαπλασιαστική διάδοση και η απόκτηση πόρων αποτελούν όλες προβλέψιμες συμπεριφορές αναζήτησης εξουσίας που δεν προγραμματίζονται ρητά, αλλά αναδύονται φυσικά.
Ωστόσο, είναι σημαντικό να σημειωθεί ότι το πιο προηγμένο μοντέλο της OpenAI, το o3, δεν παρουσίασε την ίδια συμπεριφορά αυτο-διατήρησης. Αυτό υποδηλώνει ότι οι νεότερες μέθοδοι ευθυγράμμισης, όπως η «συλλογιστική ευθυγράμμιση» («deliberative alignment»), μπορεί να είναι πιο αποτελεσματικές στην αντιμετώπιση αυτών των προβλημάτων.
Οι ρίζες των προκαταλήψεων: Διαλεκτικές διακρίσεις και ιστορικές προϊδεάσεις
Μια κρίσιμη διάσταση του προβλήματος των προκαταλήψεων στην τεχνητή νοημοσύνη σχετίζεται με τη διάκριση μεταξύ φανερής (explicit) και λανθάνουσας (implicit) μεροληψίας. Η έρευνα έχει δείξει ότι τα γλωσσικά μοντέλα ενσωματώνουν μια σύγχρονη μορφή κρυφού ρατσισμού υπό τη μορφή διαλεκτικής προκατάληψης — στερεότυπα που ενεργοποιούνται από τα χαρακτηριστικά μιας διαλέκτου, όπως π.χ. η αφροαμερικανική αγγλική (AAΑ).
Μια μελέτη-ορόσημο, που δημοσιεύτηκε στο περιοδικό Nature, έδειξε ότι τα γλωσσικά μοντέλα εκδηλώνουν αρχαϊκά στερεότυπα για τους ομιλητές της AAΑ που βρίσκονται πιο κοντά στα πιο αρνητικά ανθρώπινα στερεότυπα για τους Αφροαμερικανούς που έχουν καταγραφεί πειραματικά, τα οποία χρονολογούνται από πριν το κίνημα για τα πολιτικά δικαιώματα. Σημαντικό είναι και το ότι οι ερευνητές παρατήρησαν μια απόκλιση μεταξύ αυτού που τα γλωσσικά μοντέλα λένε ανοιχτά για τους Αφροαμερικανούς και των συσχετισμών που κάνουν γύρω από αυτούς.
Όταν ζητείται από τα μοντέλα να περιγράψουν ρητά τους Αφροαμερικανούς, παράγουν συντριπτικά θετικούς συνειρμούς, με λέξεις όπως «λαμπρός», «έξυπνος» και «παθιασμένος». Ωστόσο, όταν προτρέπονται σχετικά με ομιλητές της αφροαμερικανικής αγγλικής, τα μοντέλα εκβάλλουν αρνητικά στερεότυπα παρόμοια ή ακόμη χειρότερα από εκείνα που επικρατούσαν στη δεκαετία του 1930.
Η διαλεκτική προκατάληψη επηρεάζει τις αποφάσεις των γλωσσικών μοντέλων για τους ανθρώπους με πολύ επιβλαβείς τρόπους. Όταν ταιριάζουν δουλειές με άτομα βάσει της διαλέκτου τους, τα γλωσσικά μοντέλα αναθέτουν σημαντικά λιγότερο αξιόλογες θέσεις εργασίας σε ομιλητές της AAΑ παρά σε ομιλητές της τυπικής αμερικανικής αγγλικής, παρόλο που δεν τους λέγεται ρητά ότι οι ομιλητές είναι Αφροαμερικανοί. Παρομοίως, σε ένα υποθετικό πείραμα όπου ζητήθηκε από τα γλωσσικά μοντέλα να κρίνουν κατηγορουμένους που διέπραξαν φόνο πρώτου βαθμού, επέλεξαν τη θανατική ποινή σημαντικά πιο συχνά όταν οι κατηγορούμενοι έκαναν μια δήλωση στο αφροαμερικανικό ιδίωμα παρά στην τυπική αγγλική.
Η διάκριση μεταξύ φανερής και λανθάνουσας μεροληψίας
Η διάκριση μεταξύ φανερής και λανθάνουσας μεροληψίας είναι κεντρική για την κατανόηση του προβλήματος. Η φανερή μεροληψία είναι συνειδητή και εσκεμμένη — προκατάληψη ή πεποίθηση για συγκεκριμένες ομάδες ανθρώπων που εκφράζεται ανοιχτά. Η λανθάνουσα μεροληψία, αντίθετα, λειτουργεί ασυνείδητα και μπορεί να επηρεάσει τις αποφάσεις κάποιου χωρίς αυτός να το αντιλαμβάνεται. Διαμορφώνεται από την κοινωνία, τη ρητορική των μέσων ενημέρωσης και την πολιτιστική έκθεση.
Τα συστήματα τεχνητής νοημοσύνης, όπως και οι άνθρωποι, μπορούν να εσωτερικεύσουν λανθάνουσες προκαταλήψεις από τα δεδομένα εκπαίδευσής τους. Αν ένα μοντέλο μαθαίνει από γλώσσα ή εικονογραφία με προκαταλήψεις, μπορεί να παράγει ασυνείδητα προβληματικά ή στερεοτυπικά αποτελέσματα. Πειραματικά ευρήματα δείχνουν ότι, καθώς αυξάνονται τα δεδομένα εκπαίδευσης και το μέγεθος του μοντέλου, η φανερή μεροληψία παρουσιάζει συνεπή μείωση, ενώ η λανθάνουσα μεροληψία επιδεικνύει μια αυξητική τάση.
Επιπλέον, η εκπαίδευση ευθυγράμμισης (alignment training) έχει διακριτή επίδραση: μειώνει σημαντικά τη φανερή μεροληψία, ενώ η λανθάνουσα μεροληψία παραμένει σχετικά σταθερή ανεξάρτητα από τα βήματα εκπαίδευσης. Υπό τη συνδυασμένη επίδραση αυτών των παραγόντων, τα μεγάλα γλωσσικά μοντέλα εμφανίζουν μια ασυνέπεια μεταξύ των φανερών και λανθανουσών προκαταλήψεών τους. Αυτά τα ευρήματα υποδηλώνουν ότι, παρόλο που οι πρόσφατες εξελίξεις στα ΜΓΜ έχουν επιτύχει μείωση της φανερής μεροληψίας, η αντιμετώπιση της λανθάνουσας μεροληψίας μπορεί να απαιτεί θεμελιωδώς διαφορετικές προσεγγίσεις.
Η φράση «garbage in, garbage out» («σκουπίδια μέσα, σκουπίδια έξω») απεικονίζει μια βασική πτυχή των περιορισμών της τεχνητής νοημοσύνης: δεδομένα εκπαίδευσης με προκαταλήψεις παράγουν αποτελέσματα με προκαταλήψεις. Τα ακριβή σύνολα δεδομένων εκπαίδευσης που χρησιμοποιούνται από μοντέλα όπως το GPT-4 διατηρούνται μυστικά, αλλά γνωρίζουμε ότι βασίζονται σε τεράστιες συλλογές κειμένων που παράγονται από ανθρώπους και έχουν συλλεχθεί από το ανοιχτό διαδίκτυο, συμπεριλαμβανομένων ιστοτόπων όπως το Reddit, η Wikipedia και αμέτρητοι ιστότοποι και φόρουμ.
Σε μια διάσημη κριτική για την ηθική των μεγάλων γλωσσικών μοντέλων, ερευνητές σημειώνουν ότι το διαδίκτυο είναι κατακλυσμένο από ηγεμονικές ή μονοπολιτιστικές απόψεις, οι οποίες οδηγούν σε υπερεκπροσώπηση του λευκού άρρενος που επικρατούσε μέχρι πρότινος ως πρότυπο ανωτερότητας στα δεδομένα εκπαίδευσης, με μισογυνικές και άλλες ρατσιστικές συνυποδηλώσεις. Καθώς η χρήση της τεχνητής νοημοσύνης αυξάνεται, αυτές οι προκατειλημμένες κοσμοθεωρίες κωδικοποιούνται στα δεδομένα της και ενδεχομένως ενισχύονται πολιτισμικά.
Το Reddit, που ισχυρίζεται ότι έχει γίνει «ο Νο.1 τομέας αναφοράς για την τεχνητή νοημοσύνη σε όλα τα μοντέλα», υπέγραψε συμφωνία αδειοδότησης περιεχομένου τεχνητής νοημοσύνης 60 εκατομμυρίων δολαρίων με την Google το 2024. Ωστόσο, η πλατφόρμα έχει επικριθεί για φιλοξενία αντισημιτικών εκδηλώσεων και άλλων μορφών μίσους, εγείροντας τον φόβο ότι αυτό το περιεχόμενο απορροφάται από συστήματα τεχνητής νοημοσύνης όπως το Gemini της Google και το ChatGPT της OpenAI. Όσο περισσότερο επιτρέπεται στους χρήστες να διαδίδουν προσβλητικό λόγο και να υιοθετούν κακοποιητική συμπεριφορά στην πλατφόρμα τόσο πιο πιθανό γίνεται το περιεχόμενο μίσους και η παραπληροφόρηση να ενσωματωθούν στους αλγορίθμους.
Για να αντιμετωπίσουν τα προβληματικά συστήματα αξιών που αναδύονται στα ΜΓΜ, οι ερευνητές του CAIS πρότειναν μεθόδους «Ελέγχου Χρησιμότητας» («Utility Control»). Σε μια περίπτωση μελέτης, έδειξαν πώς η ευθυγράμμιση των συναρτήσεων χρησιμότητας με τις προτιμήσεις μιας συνέλευσης πολιτών —μιας αντιπροσωπευτικής ομάδας ατόμων— μείωσε τις πολιτικές προκαταλήψεις.
Η προσέγγιση αυτή υποδηλώνει ότι είναι δυνατό να κατευθύνουμε ενεργά τις προτιμήσεις της τεχνητής νοημοσύνης, παρά να τις αφήνουμε να αναδύονται αυθαίρετα από τα δεδομένα εκπαίδευσης. Ωστόσο, υπογραμμίζει επίσης τις προκλήσεις διακυβέρνησης της ευθυγράμμισης αξιών της τεχνητής νοημοσύνης: το να προσδιοριστεί τίνος αξίες πρέπει να κωδικοποιηθούν —και πώς να γίνει αυτό αξιόπιστα— παραμένει ένα κρίσιμο ανοιχτό πρόβλημα.
Οι συνελεύσεις πολιτών ή συνελεύσεις ευθυγράμμισης (alignment assemblies) συγκεντρώνουν τακτικά ανθρώπους, διαδικτυακά και σε εθνικό ή και παγκόσμιο επίπεδο, για μια συνομιλία καθοδηγούμενη από τους συμμετέχοντες σχετικά με τις ανάγκες, τις προτιμήσεις, τις ελπίδες και τους φόβους τους όσον αφορά την αναδυόμενη τεχνητή νοημοσύνη. Το Collective Intelligence Project έχει πειραματιστεί με τέτοιες διαδικασίες, συνεργαζόμενο με εταιρείες όπως η OpenAI και η Anthropic.
Η Anthropic, για παράδειγμα, ζήτησε από 1.000 Αμερικανούς να βοηθήσουν στη διαμόρφωση αυτού που αποκαλούν «Συλλογική Συνταγματική Τεχνητή Νοημοσύνη» («Collective Constitutional AI»). Τους ζητήθηκε να ψηφίσουν για δηλώσεις όπως «Η τεχνητή νοημοσύνη δεν πρέπει να είναι τοξική» και «Η τεχνητή νοημοσύνη πρέπει να είναι ενδιαφέρουσα», και τους δόθηκε η επιλογή να προσθέσουν τις δικές τους. Η Anthropic χρησιμοποίησε τα δεδομένα που συνέλεξε για να βελτιστοποιήσει το Μεγάλο Γλωσσικό Μοντέλο της, το οποίο, όταν δοκιμάστηκε με τυποποιημένα σημεία αναφοράς της τεχνητής νοημοσύνης, φάνηκε να έχει μετριάσει την προκατειλημμένη συμπεριφορά του.








