Ces dernières années, nous avons assisté à une explosion technologique : l'intelligence artificielle, le big data et les robots semblent avoir été arrachés d'un futur lointain digne de la science-fiction pour se retrouver devant nos yeux, prêts à avoir un impact énorme sur nos vies. On dit que les humains se trouvent au sommet de la chaîne alimentaire parce que nous savons comment utiliser des outils, mais comment ces outils vont-ils à leur tour façonner la société humaine ? Les outils d'IA générative ont déjà changé la création de contenu textuel, mais les domaines visuel et musical sont restés largement inchangés. OpenAI a soudainement publié son premier modèle texte-vers-vidéo : Sora. La société derrière la plateforme de médias sociaux populaire, Meta, a introduit un modèle d'intelligence artificielle innovant appelé MusicGen. Voyons maintenant de plus près ces deux modèles d'IA qui mettent une fois de plus l'art en danger.
OpenAI a soudainement publié son premier modèle texte-vers-vidéo : Sora. Il est capable de créer des scènes à la fois réalistes et imaginatives sur la base d'instructions textuelles. En donnant à Sora un ordre de 2 à 30 caractères, il peut générer une vidéo d'une durée maximale d'une minute, qui peut être un film en prise de vue réelle, une animation, voire un film historique, un film en noir et blanc, un film de science-fiction 3D, etc. Les outils vidéo d'IA comme Runway Gen 2 et Pika sont encore en train de briser la cohérence en quelques secondes, tandis qu'OpenAI a atteint un record épique.
Prenons un exemple de vidéo de démonstration, dans une vidéo en une seule prise de 60 secondes, la cohérence obtenue par la protagoniste féminine et les personnages de fond est stupéfiante. Les plans s'enchaînent librement et les personnages conservent une stabilité digne des dieux.
Sora est un modèle de diffusion qui peut partir de ce qui semble être du bruit statique dans une vidéo et, grâce à un processus de débruitage en plusieurs étapes, générer progressivement une vidéo. Non seulement Sora peut générer une vidéo complète d'un coup, mais il peut également étendre une vidéo déjà générée.
En permettant au modèle de prévoir le contenu de plusieurs images, l'équipe a réussi à surmonter le défi de garantir que le sujet principal de la vidéo reste cohérent même lorsqu'il disparaît temporairement.
Similar to the GPT model, Sora utilizes a Transformer architecture, which enables outstanding performance scaling.OpenAI breaks down videos and images into smaller data units called "patches," each corresponding to a "token" in GPT. This unified data representation method allows the diffusion Transformer to be trained on a broader range of visual data, covering different durations, resolutions, and aspect ratios.
Based on the research findings of DALL·E and GPT models, Sora adopts the re-annotation technique of DALL·E 3, which generates detailed descriptions for the titles of visual training data, allowing the model to follow the user's text instructions more accurately when generating videos.
In addition to generating videos from text instructions, this model can also transform existing static images into videos, meticulously endowing the content in the images with vivid animation. The model can also expand existing videos or complete missing frames.
Sora lays the foundation for understanding and simulating the real world in models, and OpenAI considers this an important step towards achieving Artificial General Intelligence (AGI).
Il se peut qu'il faille encore longtemps avant que le "texte-vers-vidéo" ne constitue une menace pour la production cinématographique réelle. Bien que les vidéos présentées par OpenAI soient impressionnantes, elles ont sans aucun doute été soigneusement sélectionnées pour montrer Sora sous son meilleur jour. Sans plus d'informations, il est difficile de savoir dans quelle mesure elles sont représentatives des résultats typiques du modèle.
Cependant, cela n'empêche pas Sora et des programmes similaires de changer complètement les plateformes sociales comme TikTok.
"Produire un film professionnel nécessite beaucoup d'équipement coûteux", explique Peebles, "Ce modèle rendra possible pour le commun des mortels de créer du contenu vidéo de haute qualité sur les médias sociaux."
MusicGen est le dernier modèle d'IA générative de Meta conçu pour la création musicale. En utilisant les avancées de l'apprentissage profond et du traitement du langage naturel, MusicGen peut générer des compositions musicales originales sur la base d'instructions textuelles. Que vous souhaitiez un type spécifique de morceau ou que vous chantiez une mélodie, MusicGen peut produire des variations et des sorties qui correspondent à votre style audio souhaité.
Pour former MusicGen, Meta a utilisé un ensemble de données massif de 20 000 heures de musique sous licence. Ce processus de formation complet a permis au modèle d'IA de saisir les schémas, les styles et les subtilités des différents genres musicaux. Tout comme Google's MusicLM, MusicGen est basé sur un modèle Transformer, qui est un type d'architecture de réseau neural connu pour son succès dans les tâches de traitement du langage naturel. Cette architecture permet à MusicGen de traiter de manière efficace et précise à la fois les instructions textuelles et musicales.
Although MusicGen est pas encore largement disponible, Meta a fourni une démonstration pour présenter ses capacités. Dans un cas particulier, ils ont pris une mélodie d'orgue de Bach et fourni l'instruction textuelle : "Une chanson pop des années 80 avec des percussions lourdes et des nappes de synthé en arrière-plan". MusicGen a ensuite généré un clip complètement nouveau qui ressemblait de près à une chanson de synthpop des années 80. Un autre exemple impliquait de transformer Boléro en "Une pièce de musique hip-hop énergique, avec des sons de synthé et une basse puissante. Il y a un motif rythmique de charleston dans la batterie." Une fois de plus, MusicGen a réussi à produire de nouveaux clips basés sur le texte et le contexte audio fournis tout en restant fidèle à la mélodie originale.
Comme pour tout contenu généré par une IA, MusicGen peut rencontrer des problèmes juridiques, notamment en ce qui concerne l'utilisation non autorisée de matériel protégé par des droits d'auteur. L'industrie de la musique, connue pour protéger sa propriété intellectuelle, pourrait mettre en place des mesures pour réglementer ou restreindre des systèmes comme MusicGen. Cependant, la combinaison unique du contexte textuel et audio dans le processus de génération rend difficile l'application efficace des réglementations. Cela pourrait potentiellement conduire à une popularité croissante des chansons générées par l'IA dans le grand public et remodeler ainsi le paysage musical. De plus, les capacités de MusicGen ouvrent de nouvelles possibilités pour la création musicale allant au-delà de la simple réplication, offrant aux musiciens, aux spécialistes du marketing et à d'autres professionnels des outils innovants pour produire de la musique originale.
MusicGen est un modèle en une seule étape efficace qui traite les jetons en parallèle, garantissant une génération de musique rapide et fluide. Pour atteindre cette efficacité, les chercheurs décomposent les données audio en composants plus petits, ce qui permet à MusicGen de traiter simultanément les instructions textuelles et musicales. Bien que MusicGen ne reproduise peut-être pas précisément l'orientation de la mélodie, l'instruction textuelle sert de ligne directrice approximative pour la génération, facilitant l'apport créatif.
D'après les évaluations comparatives, MusicGen surpasse les autres modèles musicaux existants tels que Riffusion, Mousai et Noise2Music. Il excelle à la fois dans les mesures objectives et subjectives, qui évaluent la correspondance entre la musique et les paroles ainsi que la plausibilité générale de la composition. Notamment, MusicGen montre des performances supérieures à celles de Google's MusicLM, ce qui en fait une avancée significative dans la musique générée par IA.
L'IA MusicGen de Meta propose une approche révolutionnaire de la création musicale en générant des clips musicaux de haute qualité à partir d'instructions textuelles. Bien que les implications futures et les défis juridiques de cette technologie restent incertains, MusicGen ouvre de nouvelles opportunités pour les musiciens, les spécialistes du marketing et les individus pour explorer et créer de la musique originale sous différentes formes. Avec sa capacité à transformer les entrées textuelles en compositions musicales attrayantes, MusicGen représente un pas important dans le domaine de la musique générée par IA.
Rejoignez maintenant FoxData et embarquez dans un parcours de croissance de votre entreprise alors que nous dévoilons un outil d'analyse de données d'applications GRATUIT qui stimule vos téléchargements, augmente votre base d'utilisateurs et vous permet de décoller vers de nouveaux sommets de performance !