SON & TECHNIQUE


"AUDIOLM", LA NOUVELLE ÉTAPE DE MODÉLISATION AUDIO PAR GOOGLE RESEARCH

AudioLM est un programme basé sur de l'intelligence artificielle. Sa "puissance" est dans son secret à générer un prolongement audio naturel et cohérent à la suite d'un bref échantillon sonore. Si au départ AudioLM a été formaté pour la parole, le plus surprenant, c'est qu'il est en mesure d'opérer un travail semblable en musique : vous exécutez quelques accords que vous relevez d'une petite pincée mélodique. Puis, vous laissez reposer et AudioLM vous sert une suite somptueuse avec les ingrédients que vous lui avez soumis !


DÉFINIR LA LOGIQUE POUR SE RÉSERVER UNE SUITE

Dans le domaine de l'intelligence musicale, la société américaine n'est pas la dernière à avoir envisagé des programmes capables de secouer le cocotier sur lequel vous êtes confortablement installés. La première preuve, nous vous l'avions soumise, il y a 14 ans sur Piano Web, en 2008, avec le logiciel MySong qui permettait déjà, avec seulement une mélodie, de trouver à votre place les accords qui l'accompagnent.

Rappelez-vous aussi, qu'en 2017, nous vous faisions part du projet Magenta et de A.I. Duet, une étude scientifique signée de nouveau Google sur l'utilisation de l'intelligence artificielle dans le domaine de l'imitation musicale. Puis, les progrès fulgurants réalisés par l'I.A. revenaient au galop, encore plus fort et plus déterminé, en tentant de donner une suite à la symphonie inachevée de Schubert.

Aujourd'hui, avec Audio LM, un nouveau palier est atteint, puisque l'outil tente de prendre tout en main. Ainsi, si vous êtes en panne d'inspiration (cela arrive aux plus grands compositeurs) et que vous n'avez trouvé rien d'autre que trois ou quatre accords et une mélodie inachevée, l'intelligence artificielle va se substituer à vous et tenter de présenter une suite cohérente grâce aux données informatiques que vous lui aurez soumises.

Tout cela est bien jolie, mais pourquoi vouloir chercher à réaliser une "machine dotée d'intelligence" capable de façonner de la musique à votre place ? Où est l'intérêt ?

En musique, le but de l'intelligence artificielle n'est pas de "fainéantiser" les compositeurs (quoique !), mais - pour l'instant - de faire évoluer les données informatiques de façon à ne plus moduler ou générer des mélodies et des accompagnements avec une part d'automatisme, comme le réalisent si bien les claviers arrangeurs ou des programmes informatiques, mais de transformer les éventualités et le hasard, en certitudes.

En se rapprochant de la manière de penser et d'évoluer d'un compositeur, la machine obtiendra une signature assez complète de sa personnalité, puisqu'il s'agit ici de définir uniquement l'inventivité d'un musicien et non de reproduire des sons ou d'en créer en partant d'un support technique préconçu (ce que de nombreuses machines savent réaliser présentement).

Or, en matière de créativité humaine, définir la logique est certainement le plus difficile parce que, dans notre nature profonde, nous pouvons être à tout moment imprévisible. C'est d'ailleurs cela qui constitue l'intérêt, la force et la beauté des arts : l'improvisation, l'inattendu et l'audace. S'il doit exister une réelle avancée, elle doit se situer sur le plan esthétique, ce que les exemples apportés par la vidéo ci-dessous tentent de démontrer. AudioLM propose ainsi une façon inédite d'imiter un style et non une véritable création comme nous l'entendons ; le taux de réussite le plus élevé possible signifiant que l'intelligence musicale a su produire et prolonger la « patte » du compositeur.

Sans jouer sur les mots et en accompagnant la trajectoire d'AudioLM, il est correct d'envisager, d'ici à quelques années, une intelligence artificielle capable de partir d'une création et de prédire la suite de manière harmonieuse. Du reste, les informaticiens de "Google Research" précisent que « AudioLM génère en continuation un discours syntaxiquement et sémantiquement plausibles, tout en maintenant l'identité et la prosodie de la voix, et ce, sans aucune transcription ou annotation. » Idem pour les expériences réalisées avec le piano. L'équipe de recherche de Google tente de démontrer qu'avec Audio LM, l'approche technologique s'étend au-delà de la parole en générant des continuations musicales cohérentes pour piano, bien qu'elles aient été formées sans aucune représentation symbolique de la musique.


AUDIOLM PAR L'EXEMPLE

Zalán Borsos, ingénieur logiciel de recherche et Neil Zeghidour, chercheur scientifique de Google Research, nous communiquent quelques informations indispensables à travers leur blog pour bien comprendre le développement d'AudioLM et dont voici quelques extraits.

« La génération d'un son réaliste nécessite des informations de modélisation représentées à différentes échelles. Par exemple, tout comme la musique construit des phrases musicales complexes à partir de notes individuelles, la parole combine des structures temporellement locales, telles que des phonèmes ou des syllabes, en mots et en phrases. Créer des séquences audio bien structurées et cohérentes à toutes ces échelles est un défi qui a été relevé en couplant l'audio avec des transcriptions qui peuvent guider le processus génératif, qu'il s'agisse de textuelles pour la synthèse vocale ou de représentations MIDI pour piano. Cependant, cette approche échoue lorsque vous essayez de modéliser des aspects non transcrits de l'audio, tels que les éléments stylistiques d'une interprétation au piano.

« Dans « AudioLM : une approche de modélisation du langage pour la génération audio », nous proposons un nouveau cadre pour la génération audio qui apprend à enfanter de la parole réaliste et de la musique pour piano en écoutant uniquement l'audio. L'audio généré par AudioLM démontre une cohérence à long terme (par exemple, syntaxe dans la parole et mélodie dans la musique) et une haute fidélité, surpassant les systèmes précédents et repoussant les frontières de la génération audio avec des applications en synthèse vocale ou en musique assistée par ordinateur. Conformément à nos principes d'I.A. , nous avons également développé un modèle pour identifier l'audio synthétique conçu par AudioLM. »

Suite à ses commentaires, il est nécessaire de préciser que l'aboutissement actuel des performances s'est déroulé en plusieurs étapes « d'entraînement » pour conditionner le framework AudioLM sur quelques secondes d'audio, ce qui lui permet de générer une chaîne cohérente de données, mais différentes suivant le domaine sonore : la parole et la musique. Concernant le piano, le modèle qui suit l'introduction de quelques secondes est censé générer un contenu sonore cohérent en termes de mélodie, d'harmonie et de rythme.

Dans la vidéo ci-dessous, vous pouvez écouter plusieurs exemples. Les deux premiers concernent la parole et les suivants la musique. Chaque modèle original est invité à poursuivre via AudioLM qui prend le relais en générant un nouveau contenu. Pendant que vous écoutez, soyez attentif à tout ce que vous entendrez après la ligne verticale grise (entre "prompt" et "generated speech", pour la parole et "prompt" et "generated piano", pour la musique). Tout ce qui suit la ligne verticale a été généré par AudioLM. Sachez que chaque modèle n'a jamais « lu de texte ou de transcription musicale », mais a « appris » à partir de l'audio brut.



Pour valider ses résultats, l'équipe du labo de Google Research a demandé à des personnes d'écouter les courts extraits audio et de décider s'il s'agissait d'un enregistrement original de la parole humaine ou d'une continuation synthétique générée par AudioLM. Sur la base des notes recueillies, un taux de réussite de 51,2 % a été relevé. Ce qui signifie, d'après Zalán Borsos et Neil Zeghidour, que les informations sonores générées par AudioLM est difficile à distinguer de la parole réelle pour l'« auditeur moyen ».


LA PRÉCISION QUI S'IMPOSE

Zalán Borsos précise en conclusion : « Notre travail sur AudioLM est à des fins de recherche et nous n'avons pas l'intention de le diffuser plus largement pour le moment. Conformément à nos principes d'I.A. , nous avons cherché à comprendre et à atténuer la possibilité que les personnes puissent mal interpréter les courts échantillons de parole synthétisés par AudioLM comme de la vraie parole. » rajoutant : « AudioLM va bien au-delà de la parole et peut modéliser des signaux audio arbitraires tels que la musique au piano. Cela encourage les futures extensions à d'autres types d'audio (par exemple, la parole multilingue, la musique polyphonique et les événements audio) ainsi que l'intégration d'AudioLM dans un cadre d'encodeur-décodeur pour des tâches conditionnées telles que la synthèse vocale ou la parole. » (source : ai.googleblog.com).

Par Elian Jougla (Cadence Info - 11/2022)

À CONSULTER

MUSIQUE ET INTELLIGENCE ARTIFICIELLE : FLOW MACHINE ET AMPER


RETOUR SOMMAIRE

Consulter d'autres publications sur...

FB  TW  YT