Δευτέρα, 25 Μαΐ, 2026
Διαδηλωτής υπέρ της δημοκρατίας με φορητό υπολογιστή σε δρόμο στο Χονγκ Κονγκ, 8 Οκτωβρίου 2014. (Ed Jones/AFP μέσω Getty Images)

Έρευνα συνδέει τα δεδομένα εκπαίδευσης της τεχνητής νοημοσύνης με αφηγήματα κρατικών ΜΜΕ της Κίνας

Έρευνα του Nature αναφέρει ότι περιεχόμενο κρατικών μέσων της Κίνας εμφανίζεται ευρέως σε σύνολα δεδομένων εκπαίδευσης και ενδέχεται να επηρεάζει τις απαντήσεις μοντέλων τεχνητής νοημοσύνης σε ευαίσθητα πολιτικά ζητήματα

Νέα έρευνα υποδηλώνει ότι περιεχόμενο από κινεζικά κρατικά μέσα ενημέρωσης είναι βαθιά ενσωματωμένο στα σύνολα δεδομένων που χρησιμοποιούνται για την εκπαίδευση μεγάλων συστημάτων τεχνητής νοημοσύνης και ενδέχεται να επηρεάζει διακριτικά τον τρόπο με τον οποίο ορισμένα μοντέλα απαντούν σε πολιτικά ευαίσθητα ερωτήματα.

Μελέτη που δημοσιεύθηκε στο επιστημονικό περιοδικό Nature στις 13 Μαΐου διαπίστωσε ότι μεγάλος όγκος υλικού από κινεζικά κρατικά μέσα ενημέρωσης —συμπεριλαμβανομένων του πρακτορείου ειδήσεων Xinhua και της εφημερίδας People’s Daily— εμφανίζεται στα σύνολα δεδομένων εκπαίδευσης μεγάλων γλωσσικών μοντέλων.

Σύμφωνα με την έρευνα, όταν τα μοντέλα δέχονταν ερωτήματα στα κινεζικά σχετικά με το πολιτικό σύστημα της Κίνας ή ευαίσθητα εσωτερικά ζητήματα, αρκετά κορυφαία συστήματα τεχνητής νοημοσύνης —μεταξύ αυτών τα ChatGPT, Claude και Gemini— είχαν μεγαλύτερη πιθανότητα να παράγουν απαντήσεις που ευθυγραμμίζονταν στενά με τη διατύπωση που χρησιμοποιεί το κομμουνιστικό καθεστώς της Κίνας. Η μελέτη διαπίστωσε ότι οι απαντήσεις στα αγγλικά για τα ίδια ερωτήματα συχνά διέφεραν ως προς τον τόνο ή την έμφαση.

Οι ερευνητές τόνισαν ότι δεν εντόπισαν ενδείξεις κυβερνοεισβολής ή άμεσης χειραγώγησης των συστημάτων τεχνητής νοημοσύνης. Αντιθέτως, υποστήριξαν ότι το φαινόμενο πιθανότατα προκύπτει από τη δομή των υποκείμενων δεδομένων εκπαίδευσης.

Καθώς τα κινεζικά κρατικά μέσα ενημέρωσης δημοσιεύουν μεγάλες ποσότητες περιεχομένου που είναι ελεύθερα προσβάσιμο, διανέμεται ευρέως και ακολουθεί σταθερή μορφοποίηση, το υλικό τους συλλέγεται ευκολότερα από τους ανιχνευτές ιστού που χρησιμοποιούνται στις διαδικασίες εκπαίδευσης τεχνητής νοημοσύνης. Αντιθέτως, ανεξάρτητοι ειδησεογραφικοί οργανισμοί είναι πιθανότερο να λειτουργούν με συνδρομές, να επιβάλλουν περιορισμούς πνευματικής ιδιοκτησίας ή να εμποδίζουν την αυτοματοποιημένη συλλογή δεδομένων, περιορίζοντας έτσι την παρουσία τους στα σύνολα δεδομένων εκπαίδευσης.

Η μελέτη υποστηρίζει ότι αυτή η ασυμμετρία ενδέχεται, χωρίς πρόθεση, να δίνει μεγαλύτερο αποτύπωμα σε αφηγήματα που ευθυγραμμίζονται με το κράτος μέσα σε συστήματα μηχανικής μάθησης που βασίζονται σε δεδομένα από το ανοιχτό διαδίκτυο.

Ο ρόλος των δεδομένων εκπαίδευσης

Ερευνητές που ανέλυσαν ένα μεγάλο ανοικτού κώδικα σύνολο δεδομένων κινεζικής γλώσσας, γνωστό ως CulturaX, διαπίστωσαν ότι περιέχει περίπου 189 εκατομμύρια έγγραφα. Μέσα σε αυτό το σύνολο δεδομένων, περιεχόμενο από κινεζικά κρατικά μέσα ενημέρωσης εμφανιζόταν σε κλίμακα που ξεπερνούσε κατά πολύ εκείνη της κινεζόφωνης Wikipedia.

Η ανάλυση διαπίστωσε επίσης ότι σε πολιτικά φορτισμένα συμφραζόμενα —συμπεριλαμβανομένων αναφορών στο Κομμουνιστικό Κόμμα της Κίνας ή στην κινεζική ηγεσία— το περιεχόμενο κρατικών μέσων ενημέρωσης αποτελούσε σημαντικό μέρος του σχετικού υλικού του συνόλου δεδομένων.

Όταν οι ερευνητές δοκίμασαν πολλαπλά μοντέλα τεχνητής νοημοσύνης χρησιμοποιώντας αντίστοιχα ερωτήματα στα κινεζικά και στα αγγλικά, παρατήρησαν αξιοσημείωτες διαφορές. Σε ορισμένες περιπτώσεις, οι απαντήσεις στα κινεζικά φαίνονταν πιθανότερο να ενσωματώνουν επίσημη ορολογία ή να αντανακλούν αφηγήματα που χρησιμοποιούνται συνήθως στον πολιτικό λόγο του Πεκίνου. Αντιθέτως, οι απαντήσεις στα αγγλικά έτειναν να είναι πιο ουδέτερες ή να παρουσιάζουν μεγαλύτερη ποικιλία ως προς τη διατύπωση.

Σε αντίθεση με τα παραδοσιακά μέσα ενημέρωσης, όπως η τηλεόραση ή οι εφημερίδες, τα συστήματα τεχνητής νοημοσύνης παράγουν συνθετικές απαντήσεις που μπορεί να φαίνονται ουδέτερες, ακόμη και όταν αντανακλούν πρότυπα ενσωματωμένα στα δεδομένα εκπαίδευσης.

Η μελέτη επεκτείνει επίσης την ανάλυσή της σε δεκάδες χώρες, υποδεικνύοντας ένα ευρύτερο μοτίβο σε περιβάλλοντα με χαμηλότερη ελευθερία του Τύπου, όπου τα αποτελέσματα τεχνητής νοημοσύνης που εκπαιδεύονται σε δεδομένα τοπικής γλώσσας ήταν πιθανότερο να αντανακλούν διατυπώσεις ευθυγραμμισμένες με το κράτος.

Του Michael Zhuang

Με τη συμβολή του Sun Chen

Πως μπορείτε να μας βοηθήσετε ώστε να συνεχίσουμε να σας κρατάμε ενημερωμένους

Ποιος είναι ο λόγος που χρειαζόμαστε την βοήθειά σας για την χρηματοδότηση του ερευνητικού ρεπορτάζ μας; Επειδή είμαστε ένας ανεξάρτητος οργανισμός ειδήσεων που δεν επηρεάζεται από καμία κυβέρνηση, εταιρεία ή πολιτικό κόμμα. Από την ημέρα που ξεκινήσαμε, έχουμε έρθει αντιμέτωποι με προσπάθειες αποσιώπησης της αλήθειας κυρίως από το Κινεζικό Κομμουνιστικό Κόμμα. Αλλά δεν θα λυγίσουμε. Η ελληνική έκδοση της Epoch Times βασίζεται ολοκληρωτικά στις γενναιόδωρες συνεισφορές σας για να διατηρήσει την παραδοσιακή δημοσιογραφία ζωντανή και υγιή στην Ελληνική γλώσσα. Μαζί, μπορούμε να συνεχίσουμε να διαδίδουμε την αλήθεια.

ΣΧΕΤΙΚΑ

Σχολιάστε