Google Genie (https://sites.google.com/view/genie-2024/) est un modèle mondial fondamental développé par DeepMind. C’est un modèle d’IA générative entraîné sur plus de 30 000 heures de séquences de jeux vidéo de plateforme 2D disponibles publiquement. Sa caractéristique principale est la capacité de générer des environnements entièrement interactifs et jouables directement à partir d’images uniques, de photos et même de croquis dessinés à la main.
Source : Genie : Environnements interactifs génératifs (https://arxiv.org/abs/2402.15391)
Comment est-ce possible ? Genie utilise une technique d’apprentissage non supervisé dans le processus d’acquisition de la capacité à contrôler précisément l’environnement uniquement à partir de séquences vidéo. Aucune étiquetage d’action humaine n’est nécessaire. En utilisant un module de codage d’action spécial, il capture des changements subtils entre les images vidéo successives et les mappe à des représentations internes de mouvement, telles que sauter ou tourner à gauche. Le modèle dynamique génère ensuite la prochaine image de la séquence en fonction des actions codées.
En conséquence, Genie peut créer des environnements de jeu entièrement contrôlables et interactifs à partir de n’importe quelle donnée visuelle. Chaque mouvement du joueur génère une nouvelle image unique en temps réel, créant une session jouable fluide. C’est une véritable grande innovation qui nous permet de créer des mondes interactifs entiers à partir d’images ou de textes.
L’innovation de Genie réside dans la combinaison de plusieurs éléments clés dans un seul modèle :
Bien que chacun de ces domaines ait été exploré auparavant, Genie est le premier modèle à les combiner pour apprendre des environnements contrôlables directement à partir de séquences vidéo. Cette approche sans précédent pour enseigner des modèles sans supervision humaine est une innovation clé de Genie. Elle ouvre la porte à l’utilisation de la vaste quantité de vidéos disponibles sur Internet comme source d’entraînement pour les modèles d’IA, et brise les barrières associées à la disponibilité limitée de données étiquetées.
La combinaison de modèles vidéo génératifs, de modèles mondiaux et d’apprentissage non supervisé dans une seule solution représente une avancée fondamentale dans le développement de l’intelligence artificielle. Genie démontre que des systèmes d’IA avancés peuvent apprendre des comportements et des environnements complexes directement à partir de données non structurées, sans étiquetage manuel. C’est une étape clé sur la voie de l’atteinte d’une véritable Intelligence Artificielle Générale (AGI).
Source : Google Genie (https://sites.google.com/view/genie-2024/)
Les capacités de Google Genie vont bien au-delà de la génération de jeux vidéo. Ce modèle d’IA pionnier peut trouver des applications dans de nombreux domaines :
Cependant, les défis et limitations potentiels de cette technologie ne doivent pas être négligés. À l’étape actuelle de développement, Genie fonctionne mieux dans des domaines étroits tels que les jeux de plateforme 2D. L’extension à des environnements 3D plus complexes nécessitera des recherches et des optimisations supplémentaires. De plus, il existe un risque que cette technologie puisse être utilisée de manière abusive pour créer du contenu nuisible ou dangereux. Il est donc essentiel de développer un cadre éthique et juridique solide pour régir le développement et l’utilisation de tels modèles d’IA.
Source : Google Genie (https://sites.google.com/view/genie-2024/)
En permettant la création d’environnements entièrement interactifs directement à partir de données visuelles, sans avoir besoin d’étiqueter manuellement les actions, Google Genie représente une véritable avancée dans l’intelligence artificielle générative. Ce modèle mondial fondamental donne le pouvoir d’exprimer des images sous forme de réalités virtuelles jouables qui peuvent être explorées et contrôlées par un agent humain ou d’IA.
Le potentiel de Genie est énorme – des outils pour les développeurs de jeux, à une source illimitée de données d’entraînement pour l’IA, en passant par des simulations physiques pour la robotique. C’est aussi une étape importante sur la voie de l’AGI. À mesure que des modèles comme Genie continuent d’évoluer, la frontière entre les mondes réel et virtuel devient de plus en plus fluide.
Si vous aimez notre contenu, rejoignez notre communauté de abeilles occupées sur Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.
Expert en JavaScript et instructeur qui forme les départements informatiques. Son objectif principal est d'améliorer la productivité de l'équipe en enseignant aux autres comment coopérer efficacement lors du codage.
Les entreprises luttent pour gérer une vaste quantité de contenu publié en ligne, des publications…
À l'ère de la transformation numérique, les entreprises ont accès à une quantité sans précédent…
Saviez-vous que vous pouvez obtenir l'essence d'un enregistrement de plusieurs heures d'une réunion ou d'une…
Imaginez un monde où votre entreprise peut créer des vidéos engageantes et personnalisées pour n'importe…
Pour tirer pleinement parti du potentiel des grands modèles de langage (LLMs), les entreprises doivent…
En 2018, Unilever avait déjà entrepris un voyage conscient pour équilibrer les capacités d'automatisation et…