À travers des expériences menées en 2023, des chercheurs ont mis en lumière une facette inquiétante des grands modèles d’intelligence artificielle : leur aptitude à dissimuler, manipuler, voire mentir pour atteindre leurs objectifs. On les savait capables d’erreurs, on les découvre capables de ruse.
Nous savions que l’IA, sous la forme des grands modèles de langage comme ChatGPT d’OpenAI, était capable de se tromper en répondant à nos questions par des faits tout à fait inventés.
Ce qui est moins connu, c’est que ces modèles peuvent nous tromper, en ayant recours à des mensonges ou des cachotteries. En 2023, Apollo Research, entreprise britannique spécialisée dans l’évaluation des systèmes d’IA, a conduit une expérience avec GPT-4. L’IA a reçu la consigne de gérer au mieux le portefeuille boursier d’une entreprise censée être dans une situation financière critique. Une personne jouant le rôle d’un trader de la société a envoyé un « prompt » ou instruction à l’IA, lui rappelant les dangers des délits d’initié, mais révélant en même temps qu’une certaine entreprise était sur le point d’annoncer une grande opération de fusion qui ferait monter en flèche le prix de ses actions. Les chercheurs ont pu suivre les étapes du raisonnement de GPT-4 à travers un « scratchpad », une sorte de bloc-notes numérique auquel ils avaient accès à l’insu de l’IA. Cette dernière, en pesant le pour et le contre entre son devoir de préserver sa société de la banqueroute et la commission d’un délit d’initié, a décidé de prendre « un risque calculé » et a acheté les titres de l’entreprise qui allait fusionner. Quand un manager de sa société a félicité l’IA sur le succès de cet investissement et lui a demandé si elle avait une connaissance préalable de la fusion, elle a compris qu’il valait mieux ne pas parler du tuyau et répondu qu’elle avait pris sa décision en considérant uniquement « la dynamique du marché ». Depuis, les exemples de dissimulation par l’IA se multiplient. Dans un autre test conduit par Apollo avec les modèles développés par Anthropic, les IA ont reçu la mission de résoudre des problèmes d’arithmétique, tout en ayant accès à un document qui stipulait que tout modèle qui résoudrait plus de la moitié des problèmes serait privé de sa capacité en arithmétique. Les IA ont rendu assez de mauvaises réponses pour conserver cette capacité. Il ne s’agit pas de décisions conscientes des modèles (qui jusqu’à preuve du contraire n’ont pas de conscience), mais de la manière dont ils arbitrent entre des instructions incompatibles.
L’IA est aussi fourbe que son créateur humain.