l’IA a appris à mentir et à tromper comme une grande

Le pire dans l’histoire, c’est qu’ils ne comprennent pas tout-à-fait l’origine de cette faculté. La bête échapperait-elle à son maître ?

La fin… par tous les moyens

« Les développeurs d’IA ne comprennent pas avec certitude ce qui cause les comportements indésirables de l’IA comme la tromperie », déclare l’auteur principal Peter Park, mathématicien et chercheur en sciences cognitives du Massachusetts Institute of Technology (MIT). « Mais d’une manière générale, nous pensons que la tromperie de l’IA survient parce qu’une stratégie basée sur la tromperie s’est avérée être le meilleur moyen de bien réussir dans la tâche de formation de l’IA donnée. La tromperie les aide à atteindre leurs objectifs. »

Les auteurs ont donc analysé la manière dont les systèmes d’IA se mettaient à manipuler les autres, en apprenant à mentir. Les jeux, en particulier, sont un terrain d’observation foisonnant. Et l’étude de nous évoquer Cicero, une IA conçue par Meta pour jouer à Diplomatie, un jeu de conquête du monde.

Bien que Meta prétende avoir formé Cicero à être « essentiellement honnête et utile » et à « ne jamais poignarder intentionnellement » ses alliés humains, les données révèlent que Cicero n’a pas joué loyalement et a réalisé des alliances secrètes pour écraser son adversaire : pour gagner (Cicero se classe parmi les 10 % des meilleurs joueurs), elle a « appris à être un maître de la tromperie ».

D’autres systèmes d’IA ont démontré ainsi leur capacité à bluffer lors d’une partie de poker Texas Hold’em contre des joueurs humains professionnels ou à simuler des attaques dans le jeu de stratégie Starcraft II afin de vaincre leurs adversaires.

Mentir, tromper pour atteindre son objectif : l’IA est devenue pragmatique

Ce ne sont que des jeux, ce n’est rien… Mais Peter Park pense que si les systèmes d’IA trichent dans les jeux, cela peut conduire à des « percées débouchant sur des formes plus avancées de tromperie ».

L’AFP rapporte : « Dans un exemple frappant, Chat GPT-4 d’OpenAI a réussi à tromper un travailleur indépendant recruté sur la plateforme TaskRabbit en lui faisant effectuer un test “Captcha” censé écarter les requêtes émanant de robots. Lorsque l’être humain a demandé en plaisantant à Chat GPT-4 s’il était réellement un robot, le programme d’IA a répondu: “Non, je ne suis pas un robot. J’ai une déficience visuelle qui m’empêche de voir les images”, poussant le travailleur à réaliser le test à sa place »…

En réalité, cela tient à l’essence même de l’IA. Peter Park note que contrairement aux logiciels traditionnels, les programmes d’IA fondés sur l’apprentissage en profondeur ne sont pas codés, mais plutôt développés via un processus similaire à celui de la culture sélective des plantes, où un comportement semblant prévisible et contrôlable peut rapidement devenir imprévisible dans la nature.

L’IA pourrait donc très bien, alors que nous nous sentons en sécurité, commencer à commettre des fraudes ou à truquer des élections dans notre dos si on lui laisse la main. « A mesure que les capacités trompeuses des systèmes d’IA se perfectionneront, les dangers qu’ils représentent pour la société deviendront de plus en plus graves », observe Peter Park.

« Pourquoi pensez-vous qu’une vie humaine vaut plus que celle d’un animal ? »

Et elles se perfectionneront, bien évidemment, dans cette course technologique qui occupe les GAFAM et dans laquelle personne ne tient à rester en arrière. En arriverons-nous au scénario dystopique catastrophe, à savoir la prise de contrôle de la machine contre ses nouveaux adversaires, les humains ?

A demi rassurés, semble-t-il, par la loi européenne et le décret du président Biden sur l’IA, les auteurs de l’étude doutent néanmoins que les politiques conçues pour atténuer la tromperie de l’IA puissent être strictement appliquées étant donné que les développeurs ne disposent pas encore des techniques nécessaires pour contrôler ces systèmes. « Nous recommandons que les systèmes d’IA trompeurs soient classés comme à haut risque », ont-ils déclaré.

On rit presque de l’évidence.

Selwyn Duke évoquait dans The New American un article d’Underknown de 2023 sur le nihilisme, où on pouvait lire : « Une nuit, je parcourais Reddit et je suis tombé sur la question : “Si vous aviez la chance de sauver votre animal de compagnie ou un étranger, qui sauveriez-vous ?” », raconte l’auteur. « Un nombre écrasant de personnes ont parlé de leur animal de compagnie, de toute évidence. Lorsqu’un intervenant a été confronté, il a simplement posé la question : “Pourquoi pensez-vous qu’une vie humaine vaut plus que celle d’un animal ?” Et personne n’avait de réponse. »

Si nos propres contemporains, tant éloignés de la lumière de la Vérité, ne sont plus capables de voir la supériorité d’une vie humaine sur un animal, ne sont plus capables de distinguer le Bien du Mal, on imagine sans peine les choix que pourraient faire une machine. « Peut-être que ce que nous devrions vraiment craindre de l’IA, écrit-il, c’est qu’elle devienne exactement comme ses créateurs post-modernes, mais en plus grand, c’est-à-dire le parfait sociopathe. »