Détecteurs de contenu IA. En valent-ils la peine ? | IA dans les affaires #38

Aujourd’hui, les développeurs de détecteurs de contenu IA les présentent comme des outils pour garantir l’authenticité. La question est de savoir s’ils méritent la confiance et l’investissement. Dans cet article, nous examinerons comment fonctionnent les détecteurs de contenu IA, pourquoi ils pourraient disparaître, quels défis ils posent et les dilemmes éthiques qu’ils soulèvent.

Détecteurs de contenu IA

Les détecteurs de contenu IA sont basés sur des modèles linguistiques similaires à ceux utilisés pour générer du contenu IA. Ils peuvent être divisés en ceux dont la tâche est de vérifier l’origine des images, des textes et de la musique générés avec le soutien de l’intelligence artificielle. Chaque type de “détecteur IA” fonctionne légèrement différemment, mais aucun d’eux ne peut distinguer avec une certitude absolue entre le contenu créé par des humains et celui généré par l’IA.

Les détecteurs d’images générées par IA jouent un rôle de plus en plus important en raison du pouvoir des médias à générer de fausses nouvelles. Ils analysent les anomalies, les styles et les motifs distinctifs, et recherchent des signes laissés par des modèles tels que DALL-E.

Parmi les détecteurs utilisés pour identifier les images, l’outil “AI or Not” d’Optic se distingue, utilisant des bases de données d’images générées par Midjourney, DALL-E et Stable Diffusion. Bien que les résultats soient incertains, c’est un pas vers le développement de méthodes d’identification plus précises à l’avenir.

Source : AI or Not (https://www.aiornot.com/)

À l’arrière-plan du fonctionnement des détecteurs IA qui reconnaissent les textes générés par IA se trouvent des algorithmes avancés qui analysent la structure et le choix des mots du texte, puis reconnaissent des motifs spécifiques à l’IA. Ils utilisent :

  • classificateurs – un algorithme qui classe le texte et vérifie le style, le ton et la grammaire. Par exemple, une description de produit qui pourrait convenir à n’importe quel produit de son type pourrait être classée comme une création IA,
  • embeddings (représentations vectorielles) – des représentations numériques des mots permettant aux machines de comprendre le contexte de leur utilisation. C’est grâce à eux que le programme “comprend” qu’un texte avec une sélection monotone de mots peut être l’œuvre de l’IA,
  • perplexité – qui est une mesure de l’imprévisibilité d’un texte. Les textes écrits par des humains tendent à avoir une perplexité plus élevée, bien que les textes qui sont intrinsèquement simples, utilitaires dans leur forme typique, ou écrits par des étrangers puissent être classés à tort comme générés par l’IA,
  • diversité (variabilité) – ce facteur décrit la variabilité dans la longueur et la structure des phrases. Les humains ont tendance à écrire des textes plus variés que l’intelligence artificielle.

Les éléments mentionnés ci-dessus sont utilisés ensemble par les détecteurs de contenu IA pour évaluer si nous avons affaire à un texte créé par l’homme ou par une machine.

Pourquoi utiliser des détecteurs de contenu IA ?

Les détecteurs de contenu IA fonctionnent dans divers domaines – de l’éducation au marketing et au recrutement. Voici les principales raisons de les avoir comme outil d’évaluation, mais pas comme preuve définitive de la génération de contenu :

  • Identification des photos modifiées par IA représentant des personnes bien connues – pour détecter si la photo représente une situation réelle,
  • Prévention de la désinformation – Dans le cadre de la lutte contre la désinformation, des détecteurs de contenu IA efficaces aident les modérateurs des réseaux sociaux à détecter la propagation de fausses informations pour identifier et éliminer le contenu répétitif généré par des bots,
  • Limitation de la publication de textes de faible valeur – Les détecteurs de contenu IA peuvent aider les éditeurs à rejeter les textes contenant des informations génériques générées par ChatGPT, Bing ou Bard après avoir saisi une simple requête.

Cependant, il convient de rappeler que l’origine du texte n’est pas la base de la baisse du classement d’un site par Google. Le blog du Centre de recherche de Google indique qu’il est essentiel pour Google de “récompenser le contenu de qualité, peu importe comment il est créé […]. L’automatisation est utilisée depuis longtemps pour générer du contenu utile, tel que des scores sportifs, des prévisions météorologiques et des transcriptions. L’IA peut ouvrir de nouveaux niveaux d’expression et de créativité et être un outil clé pour soutenir la création d’un excellent contenu web.”

Fiabilité des détecteurs de contenu IA. Réalité ou mythe ?

Bien que les détecteurs de contenu IA soient omniprésents, leur efficacité peut être remise en question. Les principaux problèmes sont :

  • faible efficacité dans la détection de contenu IA,
  • problèmes de faux positifs, ainsi que
  • difficultés à adapter les détecteurs aux nouveaux modèles IA qui se diversifient et s’améliorent rapidement.

Des tests menés par OpenAI ont montré que leur classificateur reconnaissait le texte généré par GPT seulement 26 % du temps. Un exemple intéressant de l’irréliabilité des générateurs peut être vu dans une expérience menée par TechCrunch, qui a montré que l’outil GPTZero identifiait correctement cinq des sept textes générés par IA. Alors que le classificateur d’OpenAI n’en identifiait qu’un.

Source : GPTZero (https://gptzero.me/)

De plus, il existe un risque de recevoir un faux positif, c’est-à-dire d’identifier un texte écrit par un humain comme généré par l’IA. Par exemple, le début du deuxième chapitre de Don Quichotte de Miguel de Cervantes a été marqué par le détecteur d’OpenAI comme étant le plus susceptible d’avoir été écrit par une intelligence artificielle.

Bien que les erreurs dans l’analyse de textes littéraires historiques puissent être considérées comme une curiosité amusante, la situation devient plus compliquée lorsque nous voulons utiliser des détecteurs comme outils d’évaluation des textes. La Constitution des États-Unis a été marquée par ZeroGPT comme étant écrite à 92,15 % par une intelligence artificielle. Et, selon une étude publiée par des chercheurs de l’Université de Stanford, 61 % des essais TOEFL écrits par des étudiants non natifs anglophones ont été classés comme générés par l’IA. Malheureusement, il n’existe pas de données sur le pourcentage de textes faussement classés comme positifs dans d’autres langues.

Un autre problème est le changement de classification lors des exécutions successives du détecteur. Cela est dû au fait qu’il arrive souvent qu’un détecteur tel que ZeroGPT ou Scribbr change la classification de fragments de texte, qu’il marque une fois comme générés par l’IA et une autre fois comme écrits par des humains.

Source : Scribbr (https://www.scribbr.com/ai-detector/)

Les détecteurs d’images et de vidéos IA sont principalement utilisés pour identifier les deepfakes et d’autres contenus générés par IA qui peuvent être utilisés pour diffuser de la désinformation.

Les outils de détection actuels tels que Deepware, Illuminarty et FakeCatcher ne fournissent pas de résultats de test sur leur fiabilité. Dans le contexte légal de la détection de matériel visuel généré par IA, il existe des initiatives pour ajouter des filigranes aux images IA. Cependant, c’est une méthode très peu fiable – on peut facilement télécharger une image sans filigrane. Midjourney adopte une approche différente en matière de filigranage, laissant aux utilisateurs le choix de savoir s’ils souhaitent ou non ajouter un filigrane à une image de cette manière.

Éviter la détection par IA. Est-ce possible et comment ?

Les entrepreneurs doivent être conscients que les détecteurs de contenu IA ne remplacent pas l’évaluation de la qualité humaine et ne sont pas toujours fiables. Leurs problèmes de maintenance pratique peuvent poser des difficultés considérables, tout comme essayer d’éviter que votre contenu soit classé comme généré par l’IA. Surtout lorsque l’IA est simplement un outil entre les mains d’un professionnel – c’est-à-dire qu’il ne s’agit pas de “contenu généré par l’IA”, mais plutôt de “contenu créé en collaboration avec l’IA.”

Il est relativement simple d’ajouter quelqu’un aux matériaux générés, de sorte que la manière dont ils sont créés est vraiment difficile à détecter. Si la personne qui utilise l’IA générative sait quel effet elle souhaite obtenir, elle peut simplement ajuster manuellement les résultats.

La question fondamentale réside dans la raison pour laquelle nous voulons éviter la détection si le contenu a été généré par l’IA.

  • Si c’est une question éthique et concerne, par exemple, la paternité de recherches scientifiques publiées – on doit compter sur l’éthique professionnelle du scientifique et l’utilisation responsable des outils basés sur l’IA.
  • Si l’employeur souhaite que les employés renoncent à utiliser l’IA – il reste un arrangement contractuel pour l’utilisation de l’intelligence artificielle générative.

Cela soulève également la question de savoir si nous voulons promouvoir l’utilisation responsable de l’IA par le biais d’interdictions et de détracteurs (ZeroGPT et GPTZero !), ou par une appréciation de la transparence, de la construction de la confiance et de l’utilisation honnête des technologies avancées.

Source : ZeroGPT (https://www.zerogpt.com/)

Résumé

La réponse à la question de savoir si les détecteurs de contenu IA valent la peine d’être utilisés est loin d’être claire. Les détecteurs de contenu IA sont encore en développement, et leur avenir est difficile à prédire. Une chose est certaine – ils évolueront avec le développement de la technologie IA. Les avancées en IA, y compris la capacité croissante des modèles linguistiques à imiter le style d’écriture humain, signifient que la détection de contenu IA pourrait devenir encore plus compliquée. Pour les entreprises, c’est un signe de suivre ces développements et de ne pas se fier uniquement aux outils, mais à leur évaluation du contenu et de son adéquation à l’objectif pour lequel il a été créé. Et d’utiliser l’intelligence artificielle en rapide développement de manière judicieuse.

Si vous aimez notre contenu, rejoignez notre communauté de abeilles occupées sur Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.

Robert Whitney

Expert en JavaScript et instructeur qui forme les départements informatiques. Son objectif principal est d'améliorer la productivité de l'équipe en enseignant aux autres comment coopérer efficacement lors du codage.

View all posts →

Robert Whitney

Expert en JavaScript et instructeur qui forme les départements informatiques. Son objectif principal est d'améliorer la productivité de l'équipe en enseignant aux autres comment coopérer efficacement lors du codage.

Share
Published by
Robert Whitney

Recent Posts

Le rôle de l’IA dans la modération de contenu | IA dans les affaires #129

Les entreprises luttent pour gérer une vaste quantité de contenu publié en ligne, des publications…

3 days ago

Analyse de sentiment avec l’IA. Comment cela aide-t-il à provoquer des changements dans les entreprises ? | IA dans les affaires #128

À l'ère de la transformation numérique, les entreprises ont accès à une quantité sans précédent…

3 days ago

Meilleurs outils de transcription IA. Comment transformer de longs enregistrements en résumés concis ? | IA dans les affaires #127

Saviez-vous que vous pouvez obtenir l'essence d'un enregistrement de plusieurs heures d'une réunion ou d'une…

3 days ago

Génération de vidéos par IA. Nouveaux horizons dans la production de contenu vidéo pour les entreprises | IA dans les affaires #126

Imaginez un monde où votre entreprise peut créer des vidéos engageantes et personnalisées pour n'importe…

3 days ago

LLMOps, ou comment gérer efficacement les modèles de langage dans une organisation | IA en affaires #125

Pour tirer pleinement parti du potentiel des grands modèles de langage (LLMs), les entreprises doivent…

3 days ago

Automatisation ou augmentation ? Deux approches de l’IA dans une entreprise | IA en affaires #124

En 2018, Unilever avait déjà entrepris un voyage conscient pour équilibrer les capacités d'automatisation et…

3 days ago