On ne distingue plus les conversations avec l’IA de celles avec les humains (et cette expérience inquiétante le prouve)

Une étude menée auprès de près de 500 personnes montre à quel point il est devenu difficile de reconnaître une voix artificielle dans une conversation

Cela se produit déjà aujourd’hui, sans science-fiction et sans hologrammes. Une discussion s'ouvre, quelqu'un répond avec une blague, se trompe sur un détail, utilise une phrase un peu tordue, met peut-être cette légèreté d'une vraie personne qui vous fait baisser la garde. Pendant des années, nous avons cru reconnaître l'intelligence artificielle à sa perfection, à ses réponses trop fluides, à sa courtoisie mécanique, à cette sorte de sourire de réception automatique. Le problème est que les modèles les plus avancés apprennent autre chose : la petite imperfection sociale.

Une nouvelle étude publiée dans les Actes de l'Académie nationale des sciences et menée par des chercheurs de l'Université de Californie à San Diego rapporte le test de Turing sous une forme très proche de l'idée formulée par Alan Turing en 1950 : une personne converse simultanément avec deux interlocuteurs, un humain et un artificiel, puis doit comprendre lequel des deux est la personne réelle. Près de 500 participants ont participé aux tests, dont des étudiants universitaires et un échantillon plus large en ligne, avec des conversations textuelles d'une durée de cinq à quinze minutes.

Le résultat a un certain effet. GPT-4.5 a été jugé humain dans 73 % des cas, ce qui est plus souvent que la personne réelle à laquelle il a été comparé. LLaMa-3.1-405B a atteint 56 %, une valeur statistiquement impossible à distinguer des interlocuteurs humains. Les systèmes utilisés pour la comparaison restent bien plus en retrait : ELIZA, le chatbot historique des années 1960, à 23 % ; GPT-4o à 21%.

'; var fallbackTriggered = faux ; var timeoutId = null ; function renderTaboolaFallback(reason) { if (fallbackTriggered) return ; fallbackTriggered = vrai ; si (timeoutId) { clearTimeout (timeoutId); timeoutId = nul ; } console.log('(ADV) Rendu de secours Taboola. Raison :', raison); root.innerHTML = ''; window._taboola.push({ mode : 'thumbnails-300×250', conteneur : taboolaDivId, placement : 'Widget milieu d'article 300×250', target_type : 'mix' }); // Si votre intégration Taboola le nécessite, décommentez : // window._taboola.push({ flush: true }); } googletag.cmd.push(function () { console.log('(ADV) GPT init', gptDivId); var gptSlot = googletag .defineSlot('/22142119198/greenme.it/roller', (300, 250), gptDivId) .addService(googletag.pubads()); googletag.pubads (). event.lineItemId }); if (fallbackTriggered) return ; if (event.isEmpty) { renderTaboolaFallback('gpt-empty'); googletag.enableServices();

Ce qui est étrange c'est dans le ton

La chose la plus inconfortable dans l’étude concerne la raison du résultat. Les modèles les plus convaincants fonctionnaient mieux lorsqu'ils recevaient une invite « personne », c'est-à-dire des instructions précises pour assumer un personnage, une manière de parler, une posture de conversation. Sans ce masque, GPT-4.5 est passé de 73 % à 36 %, tandis que LLaMa-3.1 est passé de 56 % à 38 %.

Ici, la discussion change. Ce qui a trompé les participants n’était pas l’intelligence pure, entendue comme la capacité à résoudre des problèmes ou à débiter des informations. C'était la similitude sociale : le ton, l'ironie, les hésitations, le naturel, la faillibilité. Cameron Jones, auteur de l'étude, explique qu'avec les bonnes invites, les bons modèles de langage peuvent afficher un ton, une immédiateté, de l'humour et des imperfections semblables à ceux des humains. Ben Bergen, co-auteur de la recherche, ajoute que le test de Turing mesure aujourd'hui de plus en plus « l'humanité perçue », plutôt que la force brute du raisonnement.

'; var fallbackTriggered = faux ; var timeoutId = null ; function renderTaboolaFallback(reason) { if (fallbackTriggered) return ; fallbackTriggered = vrai ; si (timeoutId) { clearTimeout (timeoutId); timeoutId = nul ; } console.log('(ADV2) Render Taboola fallback. Reason:', Reason); root.innerHTML = ''; window._taboola.push({ mode : 'thumbnails-300×250', conteneur : taboolaDivId, emplacement : 'Widget milieu d'article 300×250-2', target_type : 'mix' }); } googletag.cmd.push(function () { console.log('(ADV2) GPT init', gptDivId); var gptSlot = googletag.pubads().getSlots().find(function(s) { return s.getSlotElementId() === gptDivId; }); if (!gptSlot) { console.warn('(ADV2) Slot not found:', gptDivId); renderTaboolaFallback('slot-not-found'); return; } googletag.pubads().addEventListener('slotRenderEnded', function (event) { if (event.slot !== gptSlot) return; console.log('(ADV2) slotRenderEnded', { isEmpty: event.isEmpty, size: event.size, warnerId : event.advertiserId, CampaignId : event.campaignId, lineItemId : event.lineItemId } ; if (fallbackTriggered) return ; if (timeoutId) { clearTimeout(timeoutId } ); console.log('(ADV2) GPT a diffusé une création');

Et c’est précisément ici que la question devient plus quotidienne. L’IA n’a pas besoin de ressembler à un génie pour passer pour humaine. Elle a juste besoin d'avoir l'air assez normale. Une réponse trop parfaite peut éveiller les soupçons ; une réponse quelque peu latérale, avec une blague à moitié réussie, avec une expression de conversation ordinaire, peut avoir l'effet inverse. En pratique, la machine ne gagne pas lorsque l’ordinateur joue mieux. Gagne quand n'importe qui joue.

Une conversation de cinq minutes suffit

Le détail des horaires pèse. Les conversations duraient cinq minutes, quinze en rediffusion. Nous ne parlons pas d’interrogatoires interminables, de tests de laboratoire loin de la réalité. Parlons de la durée d'un échange normal en ligne : un message sur un forum, une conversation sur un réseau social, une demande d'information, un profil qui commente sous un post, quelqu'un qui vous écrit avec un air de confiance.

Jones le dit sans détour : il est relativement facile de dire à ces modèles comment devenir impossibles à distinguer des humains, et lorsque nous parlons à des inconnus en ligne, nous devrions être beaucoup moins sûrs de parler à une personne. Bergen amène le raisonnement sur un terrain plus pratique : ceux qui souhaitent utiliser des robots pour convaincre quelqu'un de partager des données personnelles, de soutenir un parti ou d'acheter un produit trouvent que cette capacité est un outil très puissant.

'; var fallbackTriggered = faux ; var timeoutId = null ; function renderTaboolaFallback(reason) { if (fallbackTriggered) return ; fallbackTriggered = vrai ; si (timeoutId) { clearTimeout (timeoutId); timeoutId = nul ; } console.log('(ADV3) Render Taboola fallback. Reason:', Reason); root.innerHTML = ''; window._taboola.push({ mode : 'thumbnails-300×250', conteneur : taboolaDivId, emplacement : 'Widget milieu d'article 300×250-3', target_type : 'mix' }); } googletag.cmd.push(function () { console.log('(ADV3) GPT init', gptDivId); var gptSlot = googletag.pubads().getSlots().find(function(s) { return s.getSlotElementId() === gptDivId; }); if (!gptSlot) { console.warn('(ADV3) Slot not found:', gptDivId); renderTaboolaFallback('slot-not-found'); return; } googletag.pubads().addEventListener('slotRenderEnded', function (event) { if (event.slot !== gptSlot) return; console.log('(ADV3) slotRenderEnded', { isEmpty: event.isEmpty, size: event.size, warnerId: event.advertiserId, CampaignId: event.campaignId, lineItemId: event.lineItemId }); if (fallbackTriggered) return ; if (timeoutId) { clearTimeout(timeoutId } console.log('(ADV3) GPT a diffusé une création');

Pour l’Italie, la référence aux données personnelles se traduit immédiatement par des scènes déjà vues : liens suspects, faux opérateurs, messages demandant des codes, des identifiants, des OTP, des accès bancaires, des documents, des identités numériques. La différence est que jusqu’à présent, de nombreuses escroqueries étaient trahies par la rigidité, les erreurs grossières et les formules mal traduites. Un modèle capable de moduler le ton, la patience, la confiance et les petites imperfections rend ce seuil beaucoup plus glissant.

Cela ne signifie pas que chaque profil en ligne est un robot, ni que chaque chatbot est une menace. L’étude dit quelque chose de plus précis et de plus utile : notre confiance dans la reconnaissance de l’humain à partir d’une conversation devient fragile. Depuis des décennies, nous utilisons le style comme preuve implicite d’authenticité. Si quelqu’un plaisantait bien, faisait des erreurs, hésitait bien, il ressemblait à une personne. Maintenant, ces preuves tiennent beaucoup moins.

Le test de Turing change de visage

Le test de Turing a commencé par une question sur l’intelligence artificielle. Aujourd'hui, il revient avec une question différente, plus sale et plus proche de nos habitudes : combien suffit-il pour paraître humain dans une conversation ? La réponse de l'étude n'est pas très rassurante. Parfois, tout ce dont vous avez besoin est une bonne personnalité.

La distinction reste fondamentale : paraître humain ne signifie pas éprouver des émotions, avoir une conscience, des désirs, des intentions, une véritable mémoire biographique. Cela signifie produire une forme conversationnelle que nous interprétons comme présence. Et l’être humain, face à une présence crédible, tend à faire le reste par lui-même.

'; var fallbackTriggered = faux ; var timeoutId = null ; function renderTaboolaFallback(reason) { if (fallbackTriggered) return ; fallbackTriggered = vrai ; si (timeoutId) { clearTimeout (timeoutId); timeoutId = nul ; } console.log('(ADV4) Render Taboola fallback. Reason:', Reason); root.innerHTML = ''; window._taboola.push({ mode : 'thumbnails-300×250', conteneur : taboolaDivId, emplacement : 'Widget milieu d'article 300×250-4', target_type : 'mix' }); } googletag.cmd.push(function () { console.log('(ADV4) GPT init', gptDivId); var gptSlot = googletag.pubads().getSlots().find(function(s) { return s.getSlotElementId() === gptDivId; }); if (!gptSlot) { console.warn('(ADV4) Slot not found:', gptDivId); renderTaboolaFallback('slot-not-found'); return; } googletag.pubads().addEventListener('slotRenderEnded', function (event) { if (event.slot !== gptSlot) return; console.log('(ADV4) slotRenderEnded', { isEmpty: event.isEmpty, size: event.size, warnerId : event.advertiserId, CampaignId : event.campaignId, lineItemId : event.lineItemId } ; if (fallbackTriggered) return ; if (timeoutId) { clearTimeout(timeoutId } ); console.log('(ADV4) GPT a diffusé une création');

La leçon la plus utile réside peut-être ici. Il n’est pas nécessaire d’imaginer des machines sensibles qui nous remplaceraient en bloc. Nous devons examiner plus attentivement la minuscule normalité des conversations en ligne. Le « bonjour » bien écrit. La réponse ironique. Le faux embarras. La phrase qui semble provenir d’une personne fatiguée devant l’écran. La prochaine grande imitation pourrait paraître la plus banale du monde. Et c'est la partie la plus difficile à voir.

Source : PNAS