Google Genie — un modèle d’IA générative qui crée des mondes entièrement interactifs à partir d’images | IA dans les affaires #123

Qu’est-ce que Google Genie ?

Google Genie (https://sites.google.com/view/genie-2024/) est un modèle mondial fondamental développé par DeepMind. C’est un modèle d’IA générative entraîné sur plus de 30 000 heures de séquences de jeux vidéo de plateforme 2D disponibles publiquement. Sa caractéristique principale est la capacité de générer des environnements entièrement interactifs et jouables directement à partir d’images uniques, de photos et même de croquis dessinés à la main.

Source : Genie : Environnements interactifs génératifs (https://arxiv.org/abs/2402.15391)

Comment est-ce possible ? Genie utilise une technique d’apprentissage non supervisé dans le processus d’acquisition de la capacité à contrôler précisément l’environnement uniquement à partir de séquences vidéo. Aucune étiquetage d’action humaine n’est nécessaire. En utilisant un module de codage d’action spécial, il capture des changements subtils entre les images vidéo successives et les mappe à des représentations internes de mouvement, telles que sauter ou tourner à gauche. Le modèle dynamique génère ensuite la prochaine image de la séquence en fonction des actions codées.

En conséquence, Genie peut créer des environnements de jeu entièrement contrôlables et interactifs à partir de n’importe quelle donnée visuelle. Chaque mouvement du joueur génère une nouvelle image unique en temps réel, créant une session jouable fluide. C’est une véritable grande innovation qui nous permet de créer des mondes interactifs entiers à partir d’images ou de textes.

Pourquoi Genie est-il innovant ?

L’innovation de Genie réside dans la combinaison de plusieurs éléments clés dans un seul modèle :

  • modèles vidéo génératifs, tels que Phenaki (https://phenaki.video/), TECO (https://wilson1yan.github.io/teco/) ou maskvit (https://arxiv.org/abs/2206.11894), qui peuvent prédire les images futures d’une séquence en fonction des images d’entrée et du texte, mais n’offrent pas de capacités de contrôle actif,
  • modèles mondiaux qui se concentrent sur la prédiction des futurs états environnementaux en fonction des actions d’un agent, mais nécessitant des données fournies par des humains,
  • apprentissage non supervisé, qui permet à Genie d’apprendre à la fois la dynamique environnementale et l’espace d’action à partir de données vidéo brutes uniquement, sans étiquettes d’action humaines.

Bien que chacun de ces domaines ait été exploré auparavant, Genie est le premier modèle à les combiner pour apprendre des environnements contrôlables directement à partir de séquences vidéo. Cette approche sans précédent pour enseigner des modèles sans supervision humaine est une innovation clé de Genie. Elle ouvre la porte à l’utilisation de la vaste quantité de vidéos disponibles sur Internet comme source d’entraînement pour les modèles d’IA, et brise les barrières associées à la disponibilité limitée de données étiquetées.

La combinaison de modèles vidéo génératifs, de modèles mondiaux et d’apprentissage non supervisé dans une seule solution représente une avancée fondamentale dans le développement de l’intelligence artificielle. Genie démontre que des systèmes d’IA avancés peuvent apprendre des comportements et des environnements complexes directement à partir de données non structurées, sans étiquetage manuel. C’est une étape clé sur la voie de l’atteinte d’une véritable Intelligence Artificielle Générale (AGI).

Source : Google Genie (https://sites.google.com/view/genie-2024/)

Applications potentielles de Google Genie

Les capacités de Google Genie vont bien au-delà de la génération de jeux vidéo. Ce modèle d’IA pionnier peut trouver des applications dans de nombreux domaines :

  • outil pour les animateurs – il suffit de télécharger une image, un croquis ou une courte description textuelle et Genie générera une animation cohérente,
  • ressource d’entraînement illimitée pour les agents d’IA – avec sa capacité à se généraliser à des domaines entièrement nouveaux, Genie offre un réservoir infini de défis sur lesquels les futurs systèmes d’IA peuvent apprendre. Le manque d’environnements d’entraînement diversifiés a jusqu’à présent été l’un des principaux obstacles au développement d’agents d’IA génériques,
  • simulations physiques pour la robotique – des recherches ont montré que Genie est capable non seulement de contrôler des robots virtuels, mais aussi de réaliser les propriétés physiques d’objets déformables. Cela pourrait avoir d’énormes implications pour le développement de la robotique et des simulations physiques,
  • applications dans les industries créatives – Genie peut faciliter la création d’installations artistiques interactives, d’expositions virtuelles ou de films. Il suffit de télécharger un croquis et le modèle générera un monde 3D entièrement contrôlable, prêt à être exploré.

Cependant, les défis et limitations potentiels de cette technologie ne doivent pas être négligés. À l’étape actuelle de développement, Genie fonctionne mieux dans des domaines étroits tels que les jeux de plateforme 2D. L’extension à des environnements 3D plus complexes nécessitera des recherches et des optimisations supplémentaires. De plus, il existe un risque que cette technologie puisse être utilisée de manière abusive pour créer du contenu nuisible ou dangereux. Il est donc essentiel de développer un cadre éthique et juridique solide pour régir le développement et l’utilisation de tels modèles d’IA.

Source : Google Genie (https://sites.google.com/view/genie-2024/)

Résumé

En permettant la création d’environnements entièrement interactifs directement à partir de données visuelles, sans avoir besoin d’étiqueter manuellement les actions, Google Genie représente une véritable avancée dans l’intelligence artificielle générative. Ce modèle mondial fondamental donne le pouvoir d’exprimer des images sous forme de réalités virtuelles jouables qui peuvent être explorées et contrôlées par un agent humain ou d’IA.

Le potentiel de Genie est énorme – des outils pour les développeurs de jeux, à une source illimitée de données d’entraînement pour l’IA, en passant par des simulations physiques pour la robotique. C’est aussi une étape importante sur la voie de l’AGI. À mesure que des modèles comme Genie continuent d’évoluer, la frontière entre les mondes réel et virtuel devient de plus en plus fluide.

Si vous aimez notre contenu, rejoignez notre communauté de abeilles occupées sur Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.

Robert Whitney

Expert en JavaScript et instructeur qui forme les départements informatiques. Son objectif principal est d'améliorer la productivité de l'équipe en enseignant aux autres comment coopérer efficacement lors du codage.

View all posts →

Robert Whitney

Expert en JavaScript et instructeur qui forme les départements informatiques. Son objectif principal est d'améliorer la productivité de l'équipe en enseignant aux autres comment coopérer efficacement lors du codage.

Share
Published by
Robert Whitney

Recent Posts

Le rôle de l’IA dans la modération de contenu | IA dans les affaires #129

Les entreprises luttent pour gérer une vaste quantité de contenu publié en ligne, des publications…

3 days ago

Analyse de sentiment avec l’IA. Comment cela aide-t-il à provoquer des changements dans les entreprises ? | IA dans les affaires #128

À l'ère de la transformation numérique, les entreprises ont accès à une quantité sans précédent…

3 days ago

Meilleurs outils de transcription IA. Comment transformer de longs enregistrements en résumés concis ? | IA dans les affaires #127

Saviez-vous que vous pouvez obtenir l'essence d'un enregistrement de plusieurs heures d'une réunion ou d'une…

3 days ago

Génération de vidéos par IA. Nouveaux horizons dans la production de contenu vidéo pour les entreprises | IA dans les affaires #126

Imaginez un monde où votre entreprise peut créer des vidéos engageantes et personnalisées pour n'importe…

3 days ago

LLMOps, ou comment gérer efficacement les modèles de langage dans une organisation | IA en affaires #125

Pour tirer pleinement parti du potentiel des grands modèles de langage (LLMs), les entreprises doivent…

3 days ago

Automatisation ou augmentation ? Deux approches de l’IA dans une entreprise | IA en affaires #124

En 2018, Unilever avait déjà entrepris un voyage conscient pour équilibrer les capacités d'automatisation et…

3 days ago