Intelligenza Artificiale distrutta

Pour les scientifiques, le lancement de Chatgpt a pollué le monde pour toujours, comme les premiers tests sur les armes atomiques

Après le boom de l'intelligence artificielle générative, les experts lancent l'alarme: si les modèles continuent de se nourrir de données synthétiques, l'ensemble du système pourrait s'effondrer

Le 30 novembre 2022 est une date qui a marqué A avant et après dans l'histoire deintelligence artificielle. C'est le jour où Openai a lancé Chattecommençant officiellement une nouvelle ère deGénératif IA. Depuis lors, rien n'a été de plus comme auparavant. Comme cela s'est produit le 16 juillet 1945, lorsque la première bombe atomique du désert du Nouveau-Mexique a explosé aux États-Unis, avec des conséquences irréversibles pour l'environnement, également les débuts de Chatgpt, selon de nombreux chercheurs, «Pollué» en permanence le monde des données.

L'analogie est forte, mais pas aléatoire. Après l'essai nucléaire de Trinity, l'atmosphère a été envahie par des particules radioactives qui se sont déposées partout, entrant même dans les matériaux industriels. À partir de ce moment-là, aucun métal produit n'était plus pur et pour faire des outils médicaux ou scientifiques à haute sensibilité auquel il était nécessaire de recourirAcier inférieur radioactif faibleou métal produit avant 1945.

Maintenant, dans le monde de l'intelligence artificielle, Quelque chose de similaire se passe.

Ainsi, l'intelligence artificielle risque de l'auto-destruction

Aujourd'hui, chaque fois qu'un IA génératif produit un contenu – qu'il s'agisse d'un texte, d'une image ou d'un code – part Une trace artificielle dans l'environnement numérique. Des traces qui se terminent dans d'autres ensembles de données et qui sont ensuite utilisées pour former de nouvelles générations de modèles. Ce faisant, cependant, les modèles n'apprennent plus des humains, mais à partir d'autres modèles. C'est comme si un écosystème commençait à se nourrir uniquement de ses propres déchets.

Ce phénomène a un nom: effondrement du modèleou Trouble de l'autophagie modèle (MAD). Un terme technique pour décrire un risque concret: que l'IA cesse d'être fiableparce que ses modèles sont basés sur des informations de plus en plus modifiées, inexactes ou fausses.

Déjà en 2023, John Graham-Cumming – Ex Cloud CTO – il a perçu ce danger et a créé LowbackgroundSteel.aiune archive virtuelle qui collecte des ensembles de données générés avant le « point de contamination » de 2022, comme le code arctique Vault, une copie gelée du contenu public sur Github datant de février 2020.

L'idée de Graham-Cumming? Que Il sert une réserve de données « non contaminée »comme l'acier du passé, pour former de futurs modèles sur des bases propres.

Le risque de rester sans données propres

Le problème, cependant, est plus large. Il ne concerne pas seulement la fiabilité des modèles, mais aussi l'équité du système. Qui possède toujours Données humaines, originales et non.pourrait bientôt avoir un énorme avantage concurrentiel. Cependant, les startups et les petits acteurs du secteur seraient obligés d'utiliser des ensembles de données pollués, des modèles de construction plus fragile, moins précis et moins durable.

Ceci est la peur exprimée par un groupe de chercheurs de diverses universités européennes, y compris l'Université de Cambridge, l'Université de Düsseldor et les Ludwig-Maximiliens de Monaco-dans leur journal « Aspects juridiques de l'accès aux données génétiques humaines et autres intrants essentiels pour la formation en IA »publié en décembre 2024. Selon ces experts, il est nécessaire de garantir Accès public aux données propresSinon, l'intelligence artificielle du futur sera entre les mains de quelques acteurs dominants.

Ongle Mauricechercheur à Cambridge et Co-auteur de l'étude, a parfaitement expliqué l'urgence:

Si aujourd'hui nous avons encore de vraies données humaines, c'est parce qu'il y a eu un moment, comme en 1919 avec le naufrage de la flotte allemande, qui nous a permis de garder l'acier pur. Il en va de même pour les données: tout ce qui a été créé avant 2022 est toujours considéré comme sûr. Mais si nous les perdons aussi, nous ne pourrons plus y retourner.

Nous avons besoin d'une politique mondiale pour étiqueter et protéger les données d'origine

Mais comment pouvons-nous défendre les données humaines contre la contamination de l'intelligence artificielle? L'atterrissage du contenu généré par IA est une solution possible, mais. Les étiquettes peuvent être supprimées, le filigrane numérique supprimé, E Les juridictions varient d'un pays à l'autre. Comme l'a rappelé Chiodo, N'importe qui peut charger n'importe quel contenu sur le réseauet ces données seront ensuite collectées et utilisées par d'autres modèles. Sans contrôle.

Dans leur étude, les auteurs proposent également d'encourager le Apprentissage fédéréun système dans lequel Les données ne sont pas partagées directementmais restez protégé, permettant toujours la formation des modèles. Un moyen de garantir la confidentialité et la sécurité, en évitant en même temps Informations Monopoles.

Cependant, cette solution implique également des risques. Qui détient ces données? Comment sont-ils gérés? Et si un gouvernement qui semble fiable aujourd'hui deviendra autoritaire demain?

Rupprecht Podszunexpert en droit de la concurrence et au-auteur du cabinet, souligne l'importance d'un Gestion décentralisée et compétitive Données vierges, pour éviter les concentrations et les influences politiques.

Parce que le point est précisément le suivant: L'effondrement des modèles n'est pas seulement un problème techniquemais cela concerne l'avenir même de l'intelligence artificielle, comme le prévient Chiodo:

Si nous voulons que l'IA reste un outil utile, juste et démocratique, nous devons nous inquiéter maintenant. Parce qu'une fois a contaminé l'ensemble des données, le nettoyage sera pratiquement impossible.

Source: Université de CambridgeArxiv

A lire également