ReALM signifie “Résolution de Référence Comme Modélisation de Langue”, une solution révolutionnaire développée par des chercheurs d’Apple. Il s’agit donc d’un nouveau modèle de langage (Modèle de Langage de Grande Taille, LLM) qui traite le problème de la reconnaissance de référence comme une tâche dans le domaine de la modélisation de langage.
ReALM convertit efficacement divers types de contexte en une représentation textuelle, qu’il traite ensuite dans le cadre d’une tâche linguistique. Cela peut inclure :
Qu’est-ce qui rend ReALM différent des autres modèles de reconnaissance de référence ? D’abord, l’approche – au lieu de s’appuyer sur le traitement d’images, ReALM fonctionne dans le domaine du texte. Cela le rend beaucoup plus léger et plus efficace, ce qui devrait lui permettre de fonctionner directement sur des appareils mobiles tout en préservant la vie privée des utilisateurs.
L’équipe de recherche d’Apple a comparé ReALM aux modèles de langage les plus puissants sur le marché aujourd’hui – GPT-3.5 et GPT-4 d’OpenAI. Les résultats étaient impressionnants. Dans les tâches de reconnaissance de référence, la plus petite variante de ReALM a atteint une précision comparable à celle de GPT-4 ! Les modèles ReALM plus grands ont même surpassé GPT-4 dans la reconnaissance des références aux éléments affichés à l’écran (http://arxiv.org/abs/2403.20329).
Qu’est-ce qui explique cet avantage ? Tout d’abord, ReALM est excellent pour les requêtes spécifiques à un domaine, telles que celles concernant les appareils de maison intelligente. Cela est dû au fait que ReALM démontre une compréhension plus profonde du contexte en ajustant le modèle pour des données spécifiques à un domaine.
De plus, contrairement à GPT-4, qui s’entraîne principalement sur des images d’objets réels, ReALM excelle dans la reconnaissance des éléments textuels et des composants des interfaces utilisateur des applications. Et c’est la compréhension de l’interface qui est cruciale pour l’interaction fluide des assistants vocaux avec les applications que nous utilisons aujourd’hui.
Source : DALL·E 3, prompt : Marta M. Kania (https://www.linkedin.com/in/martamatyldakania/)
En effet, l’intégration de ReALM avec Siri pourrait ouvrir un tout nouveau chapitre dans l’interaction homme-machine. Avec ReALM, Siri sera capable de comprendre des commandes qui incluent des références aux éléments affichés sur l’écran du smartphone, ainsi qu’aux processus et applications s’exécutant en arrière-plan. Mais quand cette option sera-t-elle disponible pour les utilisateurs ? Cela reste encore inconnu.
Nous restons avec des spéculations basées sur les capacités techniques du modèle. Alors, comment pourrait fonctionner un Siri alimenté par ReALM ? Par exemple, si vous naviguez sur un site de listes d’entreprises et voyez une entreprise qui vous intéresse, vous pourriez simplement dire à Siri : “Appelle cette entreprise”, et l’assistant – utilisant ReALM pour analyser le contexte – trouvera le numéro de téléphone de l’entreprise que vous spécifiez et initiera l’appel. Vous n’avez même pas besoin d’expliquer exactement quelle entreprise vous voulez dire.
A to dopiero początek możliwości ReALM. Des commandes telles que “Joue la dernière playlist” permettraient un contrôle intuitif des applications multimédias et des appareils de maison intelligente. ReALM pourrait aussi permettre à Siri de comprendre le contexte des conversations et l’historique des commandes, afin que l’assistant réagisse de manière appropriée aux demandes précédentes de l’utilisateur. C’est un pas vers des agents intelligents qui nous rapproche non pas d’une intelligence artificielle qui comprend nos requêtes, mais d’une qui saura exécuter des commandes.
Et ce n’est que le début de ce que ReALM peut faire. Des commandes comme “joue la dernière playlist” permettraient un contrôle intuitif des applications multimédias et des appareils de maison intelligente. ReALM pourrait également permettre à Siri de comprendre le contexte des conversations et l’historique des commandes, afin que l’assistant réponde de manière appropriée aux demandes précédentes de l’utilisateur. C’est un pas vers des agents intelligents, nous rapprochant non pas d’une intelligence artificielle qui comprend nos demandes, mais d’une qui sait comment exécuter des commandes.
Malheureusement, les utilisateurs d’appareils Android devront attendre. Actuellement, il n’y a aucune information sur les plans de Google pour ajouter les capacités de Gemini à Google Assistant. Une application Google Gemini pour les appareils Android a été développée (https://play.google.com/store/apps/details?id=com.google.android.apps.bard&hl=en_US), mais elle n’est pas encore disponible en dehors des États-Unis.
Source : Google Play (https://play.google.com/store/apps/details?id=com.google.android.apps.bard&hl=en_US)
ReALM est l’approche innovante d’Apple pour résoudre le problème de la reconnaissance de contexte par les assistants vocaux. Au lieu de s’appuyer sur le traitement d’images, ce modèle de langage convertit différents types de contexte en une représentation textuelle, qu’il traite ensuite dans une tâche linguistique. Cette approche garantit non seulement une grande précision de reconnaissance, mais aussi la capacité de fonctionner sur un appareil mobile tout en préservant la vie privée des utilisateurs.
Donner à Siri accès à ReALM peut offrir des interactions vocales plus naturelles et contextuelles, un pas important vers des assistants véritablement intelligents. Avec ReALM, Siri sera capable de répondre instantanément aux commandes liées aux éléments à l’écran, aux applications et aux processus en arrière-plan. Une chose est certaine – améliorer la conscience contextuelle des assistants est la clé pour créer des interactions vocales véritablement intelligentes et naturelles, et ReALM est sans aucun doute un pas important dans cette direction.
Si vous aimez notre contenu, rejoignez notre communauté de abeilles occupées sur Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.
Expert en JavaScript et instructeur qui forme les départements informatiques. Son objectif principal est d'améliorer la productivité de l'équipe en enseignant aux autres comment coopérer efficacement lors du codage.
Les entreprises luttent pour gérer une vaste quantité de contenu publié en ligne, des publications…
À l'ère de la transformation numérique, les entreprises ont accès à une quantité sans précédent…
Saviez-vous que vous pouvez obtenir l'essence d'un enregistrement de plusieurs heures d'une réunion ou d'une…
Imaginez un monde où votre entreprise peut créer des vidéos engageantes et personnalisées pour n'importe…
Pour tirer pleinement parti du potentiel des grands modèles de langage (LLMs), les entreprises doivent…
En 2018, Unilever avait déjà entrepris un voyage conscient pour équilibrer les capacités d'automatisation et…