Il y a quelques jours, une annonce sensationnelle parut. Les journaux titraient que de nouvelles chansons de Nirvana, Amy Winehouse, The Doors et Jimi Hendrix étaient sorties. Tout de suite après, les journalistes insistaient sur le fait qu’elles avaient été produites par une Intelligence Artificielle.
Qu’en est-il réellement ? Quel est le contexte de cette opération médiatique ? Est-ce la première fois que l’on fait appel à ce type de programmes ?
Lost Tapes of the 27 Club
Derrière ce projet des « enregistrements perdus du club des 27 », il y a une dure réalité qui doit nous interpeller. En effet, de nombreux artistes ont disparu très jeune (à 27 ans plus ou moins, d’où le nom du club). Assez récemment encore, en 2017, Chester Bennington (Linkin Park) et Chris Cornell (Soundgarden, Audioslave) nous ont quitté.
L’organisation canadienne Over the Bridge vient en aide aux professionnels de la musique qui souffrent très fréquemment de problèmes de santé mentale (dépendance aux drogues, à l’alcool, dépression, anorexie, isolement, etc). Car derrière les paillettes, c’est un monde très rude avec des impératifs contractuels et des rythmes difficilement tenables pour le commun des mortels. A travers ce projet, l’association souhaite sensibiliser le public.
« D’une façon ou d’une autre, dans l’industrie de la musique, la dépression est normalisée et romancée… Leur musique est perçue comme une souffrance authentique », a indiqué Sean O’Connor, membre du conseil d’administration de Over The Bridge.
Après cette mise au point indispensable, parlons technique. L’équipe du projet a utilisé le programme Magenta de Google. Comme l’indique le site officiel, c’est « un projet de recherche open source explorant le rôle du Machine Learning comme outil dans le processus de création ». Basé sur TensorFlow (bien évidemment), il propose une bibliothèque de fonctions pour manipuler les sources de données, les utiliser pour entraîner des modèles et enfin générer de nouveaux contenus.
Le processus de création a consisté à faire analyser une trentaine de chansons par artiste pour en décoder les structures, les « gimmicks », la signature sonore en somme. Puis le programme d’Intelligence Artificielle (de type GAN, Generative Adversarial Network) avec son modèle entraîné va générer de nouveaux éléments musicaux qui seront adaptés et arrangés par un ingénieur du son. Enfin les voix sont enregistrées par de vrais êtres humains dans le style de l’artiste (timbre et intonation).
Je qualifierais le résultat d’intéressant. J’ai écouté les 4 morceaux proposés sur YouTube et ils peuvent faire illusion auprès du grand public (NB : Les premières vidéos ont été supprimées par les auteurs mais on peut toujours les trouver en cherchant). Cependant, même si les chanteurs sollicités font des efforts pour s’approcher du timbre et des intonations des artistes originaux, il peut y avoir quelques écarts qui vont perturber les amateurs éclairés.
Autre bémol, il faut se rendre à l’évidence que ce n’est qu’un travail de copie « dans le style de » et à une certaine époque de leur vie artistique. Par exemple, pour le titre de Jimi Hendrix, on retrouve les caractéristiques des morceaux emblématiques qui ont marqué ses premières années de succès. Mais les spécialistes le savent bien : Jimi Hendrix évoluait rapidement dans son style musical et souhaitait explorer le courant jazz. Il aurait certainement rejeté la paternité de ces nouvelles œuvres.
Même constat pour la chanson de Kurt Cobain, le morceau est très représentatif de l’époque de l’album Nevermind (le plus gros succès de Nirvana) mais sans en avoir le génie et il est éloigné de la direction prise par l’album In Utero. Par contre, ça me semble assez réaliste pour The Doors ou Amy Winehouse (avis totalement personnel).
Dans tous les cas, ce ne sont que des instantanés et il n’y a pas de démarche artistique propre, sinon une démonstration technique audacieuse. Heureusement que c’est pour soutenir une bonne cause car sinon, ça pourrait s’interpréter comme un coup médiatique pour faire du profit sur le dos d’artistes qui ne peuvent plus défendre leur intégrité musicale (NB : je ne parle pas ici de la gestion des royalties par les ayants droit).
La boîte à outils
Depuis plus de dix ans, différentes équipes de chercheurs et d’ingénieurs utilisent des programmes d’Intelligence Artificielle dans le monde musical.
Par exemple, à partir de 2010, des chercheurs de l’Université de Malaga en Espagne ont mis au point le système Melomics dont les algorithmes s’inspirent de la théorie de l’évolution et des processus complexes du développement embryologique. Le programme identifie des structures dans les données (des génomes) qui vont servir à encoder les mélodies.
En 2011, le système de composition Iamus a utilisé Melomics pour produire des albums de musique contemporaine ainsi que des applications de musicothérapie qui adaptent la musique en fonction de l’état physiologique du patient afin de traiter le stress et les troubles du sommeil par exemple.
En 2016, AIVA (Artificial Intelligence Virtual Artist) voit le jour. En s’appuyant sur des techniques de Deep Learning et d’apprentissage par renforcement, le programme peut analyser de nombreux styles musicaux pour générer de nouveaux morceaux. Depuis 2019, il existe un produit commercialisé sous le nom de Music Engine. Je vous invite d’ailleurs à aller sur la chaine YouTube consacrée à AIVA pour vous rendre compte du résultat. C’est bluffant !
Signalons également les travaux de cette équipe finlandaise qui a créé DeepBeat. Cette fois, il ne s’agit plus de générer de la musique mais des textes de chansons de rap. Le programme dispose d’une base de données de près de 600 000 lignes de paroles de plus de 100 artistes différents. En utilisant des algorithmes de Deep Learning et de Ranking SVM (variante des algorithmes SVM, Support Vector Machine), il est capable de produire des « flows » de tout style. A noter que DeepBeat se sert également du programme Rhyme Density pour « tester » ses productions (analyse de la qualité technique des paroles dans un contexte rap).
Pour rester dans ce style, il y a quelques semaines est sortie la version 2021 de la chanson d’Eminem « My name is ». L’auteur s’est servi des programmes Tacotron2 et Waveglow de Nvidia (bibliothèques PyTorch) qui sont des outils de Text-to-Speech. La première étape fut d’analyser les lignes de voix pour en extraire les caractéristiques. Une fois le modèle entraîné, il a été utilisé pour générer les nouvelles lignes de chant à partir des paroles élaborées par un être humain.
Achever l’inachevable
La musique dite « classique » (baroque, classique, romantique, etc) n’est pas en reste.
En 2016, l’équipe du projet Flow Machines a développé DeepBach, une IA capable de générer des œuvres de Jean-Sébastien Bach plus vraies que natures. D’ailleurs, lors de la première écoute, l’auditoire a été incapable de distinguer l’original de la copie.
En 2019, dans le cadre des célébrations du 250ème anniversaire de Ludwig van Beethoven, Deutsche Telekom a initié un projet d’Intelligence Artificielle basé sur les notes et les manuscrits originaux pour permettre de donner une fin à la célèbre symphonie nº10, « L’inachevée ». Malheureusement, les premiers résultats se sont avérés assez décevants. Cependant, après quelques réglages, les responsables du projet se sont montrés plus confiants.
Ce ne fut pas suffisant pour bon nombre d’experts en musicologie qui affirmèrent qu’on ne peut pas retrouver le style exact de Beethoven et que toute interprétation conduirait à une déformation des intentions du musicien romantique.
Le même type d’expérience fut d’ailleurs tenté par d’autres équipes et sponsors avec la symphonie inachevée de Franz Schubert, la 10ème symphonie de Gustav Mahler ou encore un morceau d’Antonín Dvořák.
D’après les experts, la plupart de ces grands musiciens auraient rejeté ces appropriations et ces interprétations, préférant plutôt la destruction pure et simple de leurs œuvres inachevées à une diffusion publique de morceaux réinterprétés.
En bonus, pour les nostalgiques de l’émission « C’est pas sorcier », je vous mets le lien vers un épisode de « L’Esprit Sorcier » qui traite du sujet.
Une Victoire de la Musique pour l’IA ?
Nous disposons donc aujourd’hui de la technologie et de tous les outils nécessaires pour produire ex nihilo de nouvelles chansons ou partitions musicales. Par exemple, pourquoi ne pas utiliser AIVA pour générer la musique puis DeepBeat pour créer des paroles et enfin Tacotron pour générer les parties vocales ?
Le problème central n’est pas d’ordre technique mais d’ordre moral et éthique. En effet, autant il ne paraît pas dérangeant d’utiliser un programme pour produire « au kilomètre » de nouvelles ambiances sonores d’illustration (pour accompagner des films ou des documentaires), autant il est plus discutable de générer du nouveau matériel dans le style de quelque artiste disparu (et quel que soit le genre musical).
Car ces outils d’Intelligence Artificielle, aussi bluffants soient-ils, n’ont pas de « sensibilité » musicale propre telle que nous l’entendons au sens humain. Ils n’ont pas non plus l’intention de produire ces œuvres.
Quel est le processus créatif ? Quel est le cheminement intellectuel et émotionnel conduisant à composer un morceau en LA mineur plutôt qu’en DO dièse majeur ?
L’IA apparaît comme un bon copycat mais de là à lui remettre un prix d’interprétation pour l’ensemble de son œuvre, il reste du chemin à parcourir. C’est encore une apprentie mélomane qui doit développer sa subjectivité et sa sensibilité.