IA multimodale. Nouvelles utilisations de l’intelligence artificielle dans les affaires | IA dans les affaires #21

Qu’est-ce que l’IA multimodale ?

L’IA multimodale est une forme d’IA hautement avancée qui imite la capacité humaine à interpréter le monde en utilisant du contenu et des données provenant de différents sens. Tout comme les humains comprennent le texte, les images et les sons, l’IA multimodale intègre ces différents types de données pour comprendre le contexte et la signification complexe contenue dans l’information. Dans le monde des affaires, par exemple, cela peut permettre une meilleure compréhension des opinions des clients en analysant à la fois ce qu’ils disent et comment ils l’expriment à travers le ton de la voix ou l’expression faciale.

Les systèmes d’IA traditionnels sont généralement unimodaux, ce qui signifie qu’ils se spécialisent dans un type de données, comme le texte ou les images. Ils peuvent traiter de grandes quantités de données rapidement et repérer des motifs que l’intelligence humaine ne peut pas détecter. Cependant, ils ont de sérieuses limitations. Ils sont insensibles au contexte et moins aptes à gérer des situations inhabituelles et ambiguës.

C’est pourquoi l’IA multimodale va un pas plus loin, en intégrant des modalités. Cela permet une compréhension plus profonde et des interactions beaucoup plus intéressantes entre les humains et l’IA.

Que peut faire l’IA multimodale ?

Les modèles d’intelligence artificielle développés aujourd’hui utilisent les paires de modalités suivantes :

  • du texte à l’image – une telle IA multimodale peut créer des images à partir d’instructions textuelles ; c’est une capacité essentielle du célèbre Midjourney, du DALL-E 3 développé par OpenAI, disponible dans le navigateur en tant que Bing Image Creator, de l’avancé Stable Diffusion ou de l’outil le plus récent de la famille, Ideogram, qui non seulement comprend les instructions textuelles mais peut également placer du texte sur une image :
  • Source : Ideogram (https://ideogram.ai)

    Les modèles d’IA multimodale sont également capables de suivre simultanément les indices textuels et l’image qui les “inspire”. Ils offrent des résultats et des variations d’images créées encore plus intéressants et plus précisément définis. Cela est très utile si vous souhaitez simplement obtenir un graphique ou une bannière légèrement différente, ou ajouter ou supprimer un seul élément, comme une tasse de café :

    Source : Ideogram (https://ideogram.ai)

  • De l’image au texte – l’intelligence artificielle peut faire bien plus que reconnaître et traduire le texte vu dans une image ou trouver un produit similaire. Elle peut également décrire une image en mots – comme le fait Midjourney lorsque vous tapez la commande /describe, Google Bard, et le modèle Salesforce (utilisé principalement pour créer des descriptions automatisées de produits et d’images sur des sites de commerce électronique,
  • Source : HuggingFace.co (https://huggingface.co/tasks/image-to-text)

  • de la voix au texte – l’IA multimodale permet également des commandes vocales dans Google Bard, mais elle est mieux réalisée par Bing Chat, ainsi que ChatGPT grâce à son excellent Whisper API, qui gère la reconnaissance et l’enregistrement de la parole ainsi que la ponctuation dans plusieurs langues, ce qui peut, entre autres, grandement faciliter le travail des centres de service client internationaux, ainsi que préparer une transcription rapide des réunions et la traduction des conversations commerciales dans d’autres langues en temps réel,
  • du texte à la voix – l’outil d’ElevenLabs nous permet de convertir n’importe quel texte que nous choisissons en une énonciation réaliste, et même “le clonage de voix”, par lequel nous pouvons apprendre à l’IA son son et son expression pour créer un enregistrement de n’importe quel texte dans une langue étrangère pour le marketing ou des présentations à des investisseurs étrangers, par exemple,
  • du texte à la vidéo – convertir du texte en vidéo avec un avatar parlant est possible dans les outils D-ID, Colossyan et Synthesia, entre autres,
  • de l’image à la vidéo – générer des vidéos, y compris des clips musicaux, à partir d’images et d’indices textuels est déjà rendu possible aujourd’hui par Kaiber, et Meta a annoncé la sortie prochaine de l’outil Make-A-Video,
  • image et modèle 3D – c’est un domaine particulièrement prometteur de l’IA multimodale, ciblé par Meta et Nvidia, qui permet la création d’avatars réalistes à partir de photos, ainsi que la construction de modèles 3D d’objets et de produits par Masterpiece Studio (https://masterpiecestudio.com/masterpiece-studio-pro), NeROIC (https://zfkuang.github.io/NeROIC/), 3DFY (https://3dfy.ai/), avec lesquels, par exemple, un produit prototypé en deux dimensions peut être retourné à la caméra avec un côté différent, une visualisation 3D rapide peut être créée à partir d’un croquis d’un meuble, ou même une description textuelle :
  • Source : NeROIC (https://zfkuang.github.io/NeROIC/resources/material.png)

  • de l’image au mouvement dans l’espace – cette modalité permet à l’IA multimodale d’aller au-delà des écrans dans la zone de l’Internet des objets (IoT), des véhicules autonomes et de la robotique, où les appareils peuvent effectuer des actions précises grâce à une reconnaissance d’image avancée et à la capacité de réagir aux changements de l’environnement.

Il y a aussi des expériences avec l’IA multimodale traduisant la musique en images, par exemple (https://huggingface.co/spaces/fffiloni/Music-To-Image), mais examinons de plus près les applications commerciales de l’IA multimodale. Alors, comment la question de la multimodalité se manifeste-t-elle dans les chatbots basés sur l’IA les plus populaires, ChatGPT et Google Bard ?

Multimodalité dans Google Bard, BingChat et ChatGPT

Google Bard peut décrire des images simples et a été équipé de communication vocale depuis juillet 2023, lorsqu’il est apparu en Europe. Malgré la qualité variable des résultats de reconnaissance d’image, cela a jusqu’à présent été l’un des points forts qui différencient la solution de Google de ChatGPT.

BingChat, grâce à son utilisation de DALL-E 3, peut générer des images à partir de textes ou de commandes vocales. Bien qu’il ne puisse pas décrire en mots les images jointes par l’utilisateur, il peut les modifier ou les utiliser comme inspiration pour créer de nouvelles images.

Depuis octobre 2023, OpenAI a également commencé à introduire de nouvelles fonctionnalités vocales et d’image dans ChatGPT Plus, la version payante de l’outil. Elles permettent d’avoir une conversation vocale ou de montrer une image à ChatGPT, afin qu’il sache ce que vous demandez sans avoir à le décrire en mots exacts.

Par exemple, vous pouvez prendre une photo d’un monument pendant que vous voyagez et avoir une conversation en direct sur ce qui est intéressant à son sujet. Ou prendre une photo de l’intérieur de votre réfrigérateur pour découvrir ce que vous pouvez préparer pour le dîner avec les ingrédients disponibles et demander une recette étape par étape.

3 applications de l’IA multimodale dans les affaires

Décrire des images peut aider, par exemple, à préparer l’inventaire des biens à partir des données de caméras de vidéosurveillance ou à identifier les produits manquants sur les étagères des magasins. La manipulation d’objets peut être utilisée pour réapprovisionner les biens manquants identifiés à l’étape précédente. Mais comment les chatbots multimodaux peuvent-ils être utilisés dans les affaires ? Voici trois exemples :

  1. Service client : Un chat multimodal mis en œuvre dans un magasin en ligne peut servir d’assistant avancé au service client qui non seulement répond aux questions textuelles mais comprend également les images et les questions posées par la voix. Par exemple, un client peut prendre une photo d’un produit endommagé et l’envoyer au chatbot, qui aidera à identifier le problème et à proposer une solution appropriée.
  2. Analyse des médias sociaux : L’intelligence artificielle multimodale peut analyser les publications sur les médias sociaux, qui incluent à la fois du texte et des images, voire des vidéos, pour comprendre ce que les clients disent d’une entreprise et de ses produits. Cela peut aider une entreprise à mieux comprendre les retours des clients et à répondre plus rapidement à leurs besoins.
  3. Formation et développement : ChatGPT peut être utilisé pour former les employés. Par exemple, il peut mener des sessions de formation interactives qui incluent à la fois du texte et des images pour aider les employés à mieux comprendre des concepts complexes.

L’avenir de l’IA multimodale dans les affaires

Un excellent exemple d’IA multimodale tournée vers l’avenir est l’optimisation des processus commerciaux d’une entreprise. Par exemple, un système d’IA pourrait analyser des données provenant de diverses sources, telles que des données de vente, des données clients et des données de médias sociaux, pour identifier les domaines nécessitant des améliorations et suggérer des solutions possibles.

Un autre exemple est l’utilisation de l’IA multimodale pour organiser la logistique. Combiner les données GPS, l’état de l’entrepôt lu à partir d’une caméra et les données de livraison pour optimiser les processus logistiques et réduire les coûts d’entreprise.

Bon nombre de ces fonctionnalités sont déjà appliquées aujourd’hui dans des systèmes complexes tels que les voitures autonomes et les villes intelligentes. Cependant, elles n’ont pas été mises en œuvre à cette échelle dans des contextes commerciaux plus petits.

Résumé

La multimodalité, ou la capacité à traiter plusieurs types de données, telles que le texte, les images et l’audio, favorise une compréhension contextuelle plus profonde et une meilleure interaction entre les humains et les systèmes d’IA.

Une question ouverte demeure, quelles nouvelles combinaisons de modalités pourraient exister prochainement ? Par exemple, sera-t-il possible de combiner l’analyse de texte avec le langage corporel, afin que l’IA puisse anticiper les besoins des clients en analysant leurs expressions faciales et leurs gestes ? Ce type d’innovation ouvre de nouveaux horizons pour les entreprises, aidant à répondre aux attentes des clients en constante évolution.

Si vous aimez notre contenu, rejoignez notre communauté de abeilles occupées sur Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.

Robert Whitney

Expert en JavaScript et instructeur qui forme les départements informatiques. Son objectif principal est d'améliorer la productivité de l'équipe en enseignant aux autres comment coopérer efficacement lors du codage.

View all posts →

Robert Whitney

Expert en JavaScript et instructeur qui forme les départements informatiques. Son objectif principal est d'améliorer la productivité de l'équipe en enseignant aux autres comment coopérer efficacement lors du codage.

Share
Published by
Robert Whitney

Recent Posts

Le rôle de l’IA dans la modération de contenu | IA dans les affaires #129

Les entreprises luttent pour gérer une vaste quantité de contenu publié en ligne, des publications…

3 days ago

Analyse de sentiment avec l’IA. Comment cela aide-t-il à provoquer des changements dans les entreprises ? | IA dans les affaires #128

À l'ère de la transformation numérique, les entreprises ont accès à une quantité sans précédent…

3 days ago

Meilleurs outils de transcription IA. Comment transformer de longs enregistrements en résumés concis ? | IA dans les affaires #127

Saviez-vous que vous pouvez obtenir l'essence d'un enregistrement de plusieurs heures d'une réunion ou d'une…

3 days ago

Génération de vidéos par IA. Nouveaux horizons dans la production de contenu vidéo pour les entreprises | IA dans les affaires #126

Imaginez un monde où votre entreprise peut créer des vidéos engageantes et personnalisées pour n'importe…

3 days ago

LLMOps, ou comment gérer efficacement les modèles de langage dans une organisation | IA en affaires #125

Pour tirer pleinement parti du potentiel des grands modèles de langage (LLMs), les entreprises doivent…

3 days ago

Automatisation ou augmentation ? Deux approches de l’IA dans une entreprise | IA en affaires #124

En 2018, Unilever avait déjà entrepris un voyage conscient pour équilibrer les capacités d'automatisation et…

3 days ago