ReALM. Un modèle de langage révolutionnaire d’Apple ? | IA dans les affaires #121

Qu’est-ce que ReALM ?

ReALM signifie “Résolution de Référence Comme Modélisation de Langue”, une solution révolutionnaire développée par des chercheurs d’Apple. Il s’agit donc d’un nouveau modèle de langage (Modèle de Langage de Grande Taille, LLM) qui traite le problème de la reconnaissance de référence comme une tâche dans le domaine de la modélisation de langage.

ReALM convertit efficacement divers types de contexte en une représentation textuelle, qu’il traite ensuite dans le cadre d’une tâche linguistique. Cela peut inclure :

  • des conversations – telles que des messages texte, des commandes vocales à un assistant, ou des e-mails,
  • des éléments à l’écran – par exemple, des photos, un calendrier, un widget météo, ou des applications et processus s’exécutant en arrière-plan.

Qu’est-ce qui rend ReALM différent des autres modèles de reconnaissance de référence ? D’abord, l’approche – au lieu de s’appuyer sur le traitement d’images, ReALM fonctionne dans le domaine du texte. Cela le rend beaucoup plus léger et plus efficace, ce qui devrait lui permettre de fonctionner directement sur des appareils mobiles tout en préservant la vie privée des utilisateurs.

En quoi ReALM est-il meilleur que GPT-4 ?

L’équipe de recherche d’Apple a comparé ReALM aux modèles de langage les plus puissants sur le marché aujourd’hui – GPT-3.5 et GPT-4 d’OpenAI. Les résultats étaient impressionnants. Dans les tâches de reconnaissance de référence, la plus petite variante de ReALM a atteint une précision comparable à celle de GPT-4 ! Les modèles ReALM plus grands ont même surpassé GPT-4 dans la reconnaissance des références aux éléments affichés à l’écran (http://arxiv.org/abs/2403.20329).

Qu’est-ce qui explique cet avantage ? Tout d’abord, ReALM est excellent pour les requêtes spécifiques à un domaine, telles que celles concernant les appareils de maison intelligente. Cela est dû au fait que ReALM démontre une compréhension plus profonde du contexte en ajustant le modèle pour des données spécifiques à un domaine.

De plus, contrairement à GPT-4, qui s’entraîne principalement sur des images d’objets réels, ReALM excelle dans la reconnaissance des éléments textuels et des composants des interfaces utilisateur des applications. Et c’est la compréhension de l’interface qui est cruciale pour l’interaction fluide des assistants vocaux avec les applications que nous utilisons aujourd’hui.

Source : DALL·E 3, prompt : Marta M. Kania (https://www.linkedin.com/in/martamatyldakania/)

Est-ce le début de l’ère des assistants véritablement intelligents ?

En effet, l’intégration de ReALM avec Siri pourrait ouvrir un tout nouveau chapitre dans l’interaction homme-machine. Avec ReALM, Siri sera capable de comprendre des commandes qui incluent des références aux éléments affichés sur l’écran du smartphone, ainsi qu’aux processus et applications s’exécutant en arrière-plan. Mais quand cette option sera-t-elle disponible pour les utilisateurs ? Cela reste encore inconnu.

Nous restons avec des spéculations basées sur les capacités techniques du modèle. Alors, comment pourrait fonctionner un Siri alimenté par ReALM ? Par exemple, si vous naviguez sur un site de listes d’entreprises et voyez une entreprise qui vous intéresse, vous pourriez simplement dire à Siri : “Appelle cette entreprise”, et l’assistant – utilisant ReALM pour analyser le contexte – trouvera le numéro de téléphone de l’entreprise que vous spécifiez et initiera l’appel. Vous n’avez même pas besoin d’expliquer exactement quelle entreprise vous voulez dire.

A to dopiero początek możliwości ReALM. Des commandes telles que “Joue la dernière playlist” permettraient un contrôle intuitif des applications multimédias et des appareils de maison intelligente. ReALM pourrait aussi permettre à Siri de comprendre le contexte des conversations et l’historique des commandes, afin que l’assistant réagisse de manière appropriée aux demandes précédentes de l’utilisateur. C’est un pas vers des agents intelligents qui nous rapproche non pas d’une intelligence artificielle qui comprend nos requêtes, mais d’une qui saura exécuter des commandes.

Et ce n’est que le début de ce que ReALM peut faire. Des commandes comme “joue la dernière playlist” permettraient un contrôle intuitif des applications multimédias et des appareils de maison intelligente. ReALM pourrait également permettre à Siri de comprendre le contexte des conversations et l’historique des commandes, afin que l’assistant réponde de manière appropriée aux demandes précédentes de l’utilisateur. C’est un pas vers des agents intelligents, nous rapprochant non pas d’une intelligence artificielle qui comprend nos demandes, mais d’une qui sait comment exécuter des commandes.

Malheureusement, les utilisateurs d’appareils Android devront attendre. Actuellement, il n’y a aucune information sur les plans de Google pour ajouter les capacités de Gemini à Google Assistant. Une application Google Gemini pour les appareils Android a été développée (https://play.google.com/store/apps/details?id=com.google.android.apps.bard&hl=en_US), mais elle n’est pas encore disponible en dehors des États-Unis.

Source : Google Play (https://play.google.com/store/apps/details?id=com.google.android.apps.bard&hl=en_US)

Résumé

ReALM est l’approche innovante d’Apple pour résoudre le problème de la reconnaissance de contexte par les assistants vocaux. Au lieu de s’appuyer sur le traitement d’images, ce modèle de langage convertit différents types de contexte en une représentation textuelle, qu’il traite ensuite dans une tâche linguistique. Cette approche garantit non seulement une grande précision de reconnaissance, mais aussi la capacité de fonctionner sur un appareil mobile tout en préservant la vie privée des utilisateurs.

Donner à Siri accès à ReALM peut offrir des interactions vocales plus naturelles et contextuelles, un pas important vers des assistants véritablement intelligents. Avec ReALM, Siri sera capable de répondre instantanément aux commandes liées aux éléments à l’écran, aux applications et aux processus en arrière-plan. Une chose est certaine – améliorer la conscience contextuelle des assistants est la clé pour créer des interactions vocales véritablement intelligentes et naturelles, et ReALM est sans aucun doute un pas important dans cette direction.

Si vous aimez notre contenu, rejoignez notre communauté de abeilles occupées sur Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.

Robert Whitney

Expert en JavaScript et instructeur qui forme les départements informatiques. Son objectif principal est d'améliorer la productivité de l'équipe en enseignant aux autres comment coopérer efficacement lors du codage.

View all posts →

Robert Whitney

Expert en JavaScript et instructeur qui forme les départements informatiques. Son objectif principal est d'améliorer la productivité de l'équipe en enseignant aux autres comment coopérer efficacement lors du codage.

Share
Published by
Robert Whitney

Recent Posts

Le rôle de l’IA dans la modération de contenu | IA dans les affaires #129

Les entreprises luttent pour gérer une vaste quantité de contenu publié en ligne, des publications…

3 days ago

Analyse de sentiment avec l’IA. Comment cela aide-t-il à provoquer des changements dans les entreprises ? | IA dans les affaires #128

À l'ère de la transformation numérique, les entreprises ont accès à une quantité sans précédent…

3 days ago

Meilleurs outils de transcription IA. Comment transformer de longs enregistrements en résumés concis ? | IA dans les affaires #127

Saviez-vous que vous pouvez obtenir l'essence d'un enregistrement de plusieurs heures d'une réunion ou d'une…

3 days ago

Génération de vidéos par IA. Nouveaux horizons dans la production de contenu vidéo pour les entreprises | IA dans les affaires #126

Imaginez un monde où votre entreprise peut créer des vidéos engageantes et personnalisées pour n'importe…

3 days ago

LLMOps, ou comment gérer efficacement les modèles de langage dans une organisation | IA en affaires #125

Pour tirer pleinement parti du potentiel des grands modèles de langage (LLMs), les entreprises doivent…

3 days ago

Automatisation ou augmentation ? Deux approches de l’IA dans une entreprise | IA en affaires #124

En 2018, Unilever avait déjà entrepris un voyage conscient pour équilibrer les capacités d'automatisation et…

3 days ago