Actualités techniques Essais matériel Mémoires Savoir-faire Guide des Apps Bibliothèque du son

Écoutez ça : La machine à sons la plus flexible du monde fait ses débuts

Traduction de l'article de Richard Kerris du 25/11/2024

https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/

En utilisant du texte et de l'audio comme entrées, un nouveau modèle d'IA générative de NVIDIA peut créer n'importe quelle combinaison de musique, de voix et de sons.

Une équipe de chercheurs en IA générative a créé un couteau suisse pour le son, qui permet aux utilisateurs de contrôler la sortie audio simplement à l'aide d'un texte.

Si certains modèles d'IA peuvent composer une chanson ou modifier une voix, aucun n'a la dextérité de ce nouveau modèle.

Baptisé Fugatto (abréviation de Foundational Generative Audio Transformer Opus 1), il génère ou transforme n'importe quel mélange de musique, de voix et de sons décrits à l'aide de messages-guides utilisant n'importe quelle combinaison de textes et de fichiers audio.

Par exemple, il peut créer un extrait musical à partir d'un texte, supprimer ou ajouter des instruments à une chanson existante, modifier l'accent ou l'émotion d'une voix - et même permettre à des personnes de produire des sons qu'elles n'avaient jamais entendus auparavant.

« Cette chose est folle », a déclaré Ido Zmishlany, producteur et compositeur multi-platine et cofondateur de One Take Audio, membre du programme Inception de NVIDIA pour les start-ups de pointe. « Le son est mon inspiration. C'est ce qui me pousse à créer de la musique. L'idée que je puisse créer des sons entièrement nouveaux à la volée dans le studio est incroyable. »

Une bonne compréhension de l'audio

« Nous voulions créer un modèle qui comprenne et génère des sons comme le font les humains », a déclaré Rafael Valle, responsable de la recherche audio appliquée chez NVIDIA, l'une des dizaines de personnes à l'origine de Fugatto, ainsi qu'un chef d'orchestre et un compositeur.

Prenant en charge de nombreuses tâches de génération et de transformation audio, Fugatto est le premier modèle d'IA générative fondamental qui présente des propriétés émergentes - des capacités qui résultent de l'interaction de ses diverses capacités formées - et la possibilité de combiner des instructions de forme libre.

« Fugatto est notre premier pas vers un avenir où l'apprentissage multitâche non supervisé dans la synthèse et la transformation audio émerge de l'échelle des données et des modèles », a déclaré M. Valle.

Exemples de cas d'utilisation

Par exemple, les producteurs de musique pourraient utiliser Fugatto pour prototyper ou modifier rapidement une idée de chanson, en essayant différents styles, voix et instruments. Ils pourraient également ajouter des effets et améliorer la qualité audio globale d'une piste existante.

« L'histoire de la musique est aussi celle de la technologie. La guitare électrique a donné au monde le rock and roll. Lorsque l'échantillonneur est apparu, le hip-hop est né », a déclaré M. Zmishlany. « Avec l'IA, nous écrivons le prochain chapitre de la musique. Nous disposons d'un nouvel instrument, d'un nouvel outil pour faire de la musique, et c'est très excitant.

Une agence de publicité pourrait utiliser Fugatto pour cibler rapidement une campagne existante pour plusieurs régions ou situations, en appliquant différents accents et émotions aux voix off.

Les outils d'apprentissage des langues pourraient être personnalisés pour utiliser la voix choisie par le locuteur. Imaginez un cours en ligne avec la voix d'un membre de la famille ou d'un ami.

Les développeurs de jeux vidéo pourraient utiliser le modèle pour modifier les éléments préenregistrés de leur titre afin de les adapter à l'évolution de l'action au fur et à mesure que les utilisateurs jouent. Ils peuvent également créer de nouveaux éléments à la volée à partir d'instructions textuelles et d'entrées audio facultatives.

Fabriquer un bruit joyeux

« L'une des capacités du modèle dont nous sommes particulièrement fiers est ce que nous appelons la chaise avocat », a déclaré M. Valle, en faisant référence à un nouveau visuel créé par un modèle d'IA générative pour l'imagerie.

Par exemple, Fugatto peut faire aboyer une trompette ou miauler un saxophone. Tout ce que les utilisateurs peuvent décrire, le modèle peut le créer.

Avec un réglage fin et de petites quantités de données de chant, les chercheurs ont constaté qu'il pouvait gérer des tâches pour lesquelles il n'avait pas été entraîné, comme générer une voix chantée de haute qualité à partir d'une invite textuelle.

Les utilisateurs bénéficient de contrôles artistiques

Plusieurs fonctionnalités ajoutent à la nouveauté de Fugatto.

Pendant l'inférence, le modèle utilise une technique appelée ComposableART pour combiner des instructions qui n'ont été vues que séparément pendant la formation. Par exemple, une combinaison d'invites peut demander un texte prononcé avec un sentiment de tristesse et un accent français.

La capacité du modèle à interpoler entre les instructions permet aux utilisateurs de contrôler finement les instructions du texte, en l'occurrence l'intensité de l'accent ou le degré de tristesse.

« Je voulais permettre aux utilisateurs de combiner des attributs de manière subjective ou artistique, en choisissant l'importance qu'ils accordent à chacun d'entre eux », a déclaré Rohan Badlani, un chercheur en IA qui a conçu ces aspects du modèle.

« Lors de mes tests, les résultats étaient souvent surprenants et me donnaient un peu l'impression d'être un artiste, même si je suis un informaticien », a déclaré M. Badlani, qui est titulaire d'une maîtrise en informatique avec spécialisation en IA de Stanford.

Le modèle génère également des sons qui changent avec le temps, une fonction qu'il appelle l'interpolation temporelle. Il peut, par exemple, créer les sons d'une tempête de pluie traversant une zone avec des crescendos de tonnerre qui s'estompent lentement dans le lointain. Il permet également aux utilisateurs de contrôler finement l'évolution du paysage sonore.

De plus, contrairement à la plupart des modèles, qui ne peuvent recréer que les données d'entraînement auxquelles ils ont été exposés, Fugatto permet aux utilisateurs de créer des paysages sonores qu'il n'a jamais entendus auparavant, tels qu'un orage se transformant en aube au son du chant des oiseaux.

Un coup d'œil sous le capot

Fugatto est un modèle de transformateur génératif fondamental qui s'appuie sur les travaux antérieurs de l'équipe dans des domaines tels que la modélisation de la parole, le vocodage audio et la compréhension audio.

La version complète utilise 2,5 milliards de paramètres et a été entraînée sur une banque de systèmes NVIDIA DGX comprenant 32 GPU NVIDIA H100 Tensor Core.

Fugatto a été réalisé par un groupe diversifié de personnes du monde entier, dont l'Inde, le Brésil, la Chine, la Jordanie et la Corée du Sud. Leur collaboration a permis de renforcer les capacités multiaccentuelles et multilingues de Fugatto.

L'un des aspects les plus difficiles du projet a été la création d'un ensemble de données mixtes contenant des millions d'échantillons audio utilisés pour la formation. L'équipe a utilisé une stratégie à multiples facettes pour générer des données et des instructions qui ont considérablement élargi l'éventail des tâches que le modèle pouvait effectuer, tout en réalisant des performances plus précises et en permettant de nouvelles tâches sans nécessiter de données supplémentaires.

Elle a également examiné minutieusement les ensembles de données existants afin de révéler de nouvelles relations entre les données. L'ensemble du travail a duré plus d'un an.

M. Valle se souvient de deux moments où l'équipe a su qu'elle était sur la bonne voie. « La première fois qu'il a généré de la musique à partir d'une invite, nous avons été époustouflés », a-t-il déclaré.

Plus tard, l'équipe a fait une démonstration de Fugatto répondant à une invitation à créer de la musique électronique avec des chiens aboyant au rythme de la musique.

« Lorsque le groupe s'est mis à rire, cela m'a fait chaud au cœur.