Νέα έρευνα υποδηλώνει ότι περιεχόμενο από κινεζικά κρατικά μέσα ενημέρωσης είναι βαθιά ενσωματωμένο στα σύνολα δεδομένων που χρησιμοποιούνται για την εκπαίδευση μεγάλων συστημάτων τεχνητής νοημοσύνης και ενδέχεται να επηρεάζει διακριτικά τον τρόπο με τον οποίο ορισμένα μοντέλα απαντούν σε πολιτικά ευαίσθητα ερωτήματα.
Μελέτη που δημοσιεύθηκε στο επιστημονικό περιοδικό Nature στις 13 Μαΐου διαπίστωσε ότι μεγάλος όγκος υλικού από κινεζικά κρατικά μέσα ενημέρωσης —συμπεριλαμβανομένων του πρακτορείου ειδήσεων Xinhua και της εφημερίδας People’s Daily— εμφανίζεται στα σύνολα δεδομένων εκπαίδευσης μεγάλων γλωσσικών μοντέλων.
Σύμφωνα με την έρευνα, όταν τα μοντέλα δέχονταν ερωτήματα στα κινεζικά σχετικά με το πολιτικό σύστημα της Κίνας ή ευαίσθητα εσωτερικά ζητήματα, αρκετά κορυφαία συστήματα τεχνητής νοημοσύνης —μεταξύ αυτών τα ChatGPT, Claude και Gemini— είχαν μεγαλύτερη πιθανότητα να παράγουν απαντήσεις που ευθυγραμμίζονταν στενά με τη διατύπωση που χρησιμοποιεί το κομμουνιστικό καθεστώς της Κίνας. Η μελέτη διαπίστωσε ότι οι απαντήσεις στα αγγλικά για τα ίδια ερωτήματα συχνά διέφεραν ως προς τον τόνο ή την έμφαση.
Οι ερευνητές τόνισαν ότι δεν εντόπισαν ενδείξεις κυβερνοεισβολής ή άμεσης χειραγώγησης των συστημάτων τεχνητής νοημοσύνης. Αντιθέτως, υποστήριξαν ότι το φαινόμενο πιθανότατα προκύπτει από τη δομή των υποκείμενων δεδομένων εκπαίδευσης.
Καθώς τα κινεζικά κρατικά μέσα ενημέρωσης δημοσιεύουν μεγάλες ποσότητες περιεχομένου που είναι ελεύθερα προσβάσιμο, διανέμεται ευρέως και ακολουθεί σταθερή μορφοποίηση, το υλικό τους συλλέγεται ευκολότερα από τους ανιχνευτές ιστού που χρησιμοποιούνται στις διαδικασίες εκπαίδευσης τεχνητής νοημοσύνης. Αντιθέτως, ανεξάρτητοι ειδησεογραφικοί οργανισμοί είναι πιθανότερο να λειτουργούν με συνδρομές, να επιβάλλουν περιορισμούς πνευματικής ιδιοκτησίας ή να εμποδίζουν την αυτοματοποιημένη συλλογή δεδομένων, περιορίζοντας έτσι την παρουσία τους στα σύνολα δεδομένων εκπαίδευσης.
Η μελέτη υποστηρίζει ότι αυτή η ασυμμετρία ενδέχεται, χωρίς πρόθεση, να δίνει μεγαλύτερο αποτύπωμα σε αφηγήματα που ευθυγραμμίζονται με το κράτος μέσα σε συστήματα μηχανικής μάθησης που βασίζονται σε δεδομένα από το ανοιχτό διαδίκτυο.
Ο ρόλος των δεδομένων εκπαίδευσης
Ερευνητές που ανέλυσαν ένα μεγάλο ανοικτού κώδικα σύνολο δεδομένων κινεζικής γλώσσας, γνωστό ως CulturaX, διαπίστωσαν ότι περιέχει περίπου 189 εκατομμύρια έγγραφα. Μέσα σε αυτό το σύνολο δεδομένων, περιεχόμενο από κινεζικά κρατικά μέσα ενημέρωσης εμφανιζόταν σε κλίμακα που ξεπερνούσε κατά πολύ εκείνη της κινεζόφωνης Wikipedia.
Η ανάλυση διαπίστωσε επίσης ότι σε πολιτικά φορτισμένα συμφραζόμενα —συμπεριλαμβανομένων αναφορών στο Κομμουνιστικό Κόμμα της Κίνας ή στην κινεζική ηγεσία— το περιεχόμενο κρατικών μέσων ενημέρωσης αποτελούσε σημαντικό μέρος του σχετικού υλικού του συνόλου δεδομένων.
Όταν οι ερευνητές δοκίμασαν πολλαπλά μοντέλα τεχνητής νοημοσύνης χρησιμοποιώντας αντίστοιχα ερωτήματα στα κινεζικά και στα αγγλικά, παρατήρησαν αξιοσημείωτες διαφορές. Σε ορισμένες περιπτώσεις, οι απαντήσεις στα κινεζικά φαίνονταν πιθανότερο να ενσωματώνουν επίσημη ορολογία ή να αντανακλούν αφηγήματα που χρησιμοποιούνται συνήθως στον πολιτικό λόγο του Πεκίνου. Αντιθέτως, οι απαντήσεις στα αγγλικά έτειναν να είναι πιο ουδέτερες ή να παρουσιάζουν μεγαλύτερη ποικιλία ως προς τη διατύπωση.
Σε αντίθεση με τα παραδοσιακά μέσα ενημέρωσης, όπως η τηλεόραση ή οι εφημερίδες, τα συστήματα τεχνητής νοημοσύνης παράγουν συνθετικές απαντήσεις που μπορεί να φαίνονται ουδέτερες, ακόμη και όταν αντανακλούν πρότυπα ενσωματωμένα στα δεδομένα εκπαίδευσης.
Η μελέτη επεκτείνει επίσης την ανάλυσή της σε δεκάδες χώρες, υποδεικνύοντας ένα ευρύτερο μοτίβο σε περιβάλλοντα με χαμηλότερη ελευθερία του Τύπου, όπου τα αποτελέσματα τεχνητής νοημοσύνης που εκπαιδεύονται σε δεδομένα τοπικής γλώσσας ήταν πιθανότερο να αντανακλούν διατυπώσεις ευθυγραμμισμένες με το κράτος.
Του Michael Zhuang
Με τη συμβολή του Sun Chen








