Veo 2, le nouvel outil de création vidéo dévoilé par la plateforme d’intelligence artificielle de Google peut générer des contenus de longue durée avec de grandes résolutions.

La course à l’intelligence artificielle (IA) ne faiblit pas, malgré les craintes, évidentes, d’une distorsion du réel,  émises par certains à propos de cette technologie en pleine explosion. Sept mois après sa première version, Veo 2 a ainsi été dévoilé lundi 16 décembre par DeepMind.

Selon la description faite par le laboratoire de recherche en IA du géant américain de la tech, ce modèle de génération vidéo dispose de capacités techniques hors normes comparées à ses pairs disponibles actuellement sur le marché.

Accessible en version limitée sur VideoFX, l’outil de création vidéo développé par Google DeepMind, Veo 2 peut en effet générer des vidéos d’une durée de plus de deux minutes en résolution 4K (4096 x 2160 pixels). Sa compréhension améliorée de la physique et des mouvements de caméra en fait également un modèle unique.

Un modèle dont les vidéos partagées – représentant entre autres le sirop d’érable – par DeepMind au site d’information spécialisé TechCrunch, sont décrites par ce dernier comme « exceptionnellement bonnes ». Bien que ces performances soient à relativiser.

Une réplique directe à Sora

Car VideoFX est pour l’instant, en version bêta avec des limitations techniques significatives, dont le plafonnement des vidéos à une résolution de 720p (soit une qualité HD standard) et à une durée ne pouvant dépasser huit secondes.

Il s’agit là de la part de Google, d’une réplique directe à « Sora », le générateur de vidéos d’OpenAI, le leader mondial de l’intelligence artificielle. Dévoilé en février, il était présenté comme un outil révolutionnaire dans son domaine grâce à ses capacités réalistes et créatives.

Mais la durée de ses contenus ne dépasse pas une minute. La qualité visuelle des vidéos s’avère également quatre fois moins inférieure que celle de Veo 2. Néanmoins, certains défauts persistent chez ce dernier, comme en témoigne TechCrunch. C’est notamment le cas dans le rendu des visages et la cohérence physique des environnements générés.

Un filigrane pour prévenir les dérives

« Veo peut suivre systématiquement une consigne pendant quelques minutes, mais ne peut pas respecter des consignes complexes sur de longues durées. De même, la cohérence des personnages peut être un défi. Il y a aussi place à l’amélioration dans la génération de détails complexes, de mouvements rapides et complexes« , reconnaît Eli Collins, vice-président des produits chez DeepMind, dans les colonnes de TechCrunch.

Pour limiter les risques de deepfakes, DeepMind a fait recours à sa technologie de filigrane baptisée « SynthID ». Cette dernière insère en effet, des marqueurs invisibles dans les vidéos générées. Des filtres censés bloquer la création de contenus violents ou explicites sont également en place.

Reste à savoir si garde-fous suffiront à prévenir les utilisations malveillantes. Comme le résume TechCrunch, « SynthID n’est pas infaillible », à l’instar de toute technologie de filigrane.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.