L’année 2023 fut marquée par une couverture médiatique considérable autour de l’IA, avec notamment l’arrivée de ChatGPT, Midjourney, et en musique, les deepfakes musicaux, et autres AI covers.. La chanson « Heart on My Sleeve » en est l’exemple le plus retentissant, puisqu’on y entend Drake et The Weeknd, sans qu’aucun des deux ne l’ait enregistré. Leurs voix ont en effet été imitées grâce à l’IA, avec une précision qu’on aurait du mal à différencier des originales. La qualité du morceau, la popularité des deux artistes et la bulle médiatique autour de l’IA l’ont rendu viral très rapidement avant qu’il ne soit retiré des plates-formes de streaming.
D’aucuns y voient un signe avant-coureur des problèmes soulevés lorsqu’une innovation technique se développe de manière erratique, sans que le droit nécessaire pour réglementer son usage ne soit en place. D’autres perçoivent les débuts d’une transformation sans précédent de tous les aspects du fait musical : sa pratique, sa production, sa consommation, son économie, ses univers sociaux et son esthétique.
Une pratique de plus en plus accessible
La pratique de l’IA musicale, issue de la recherche en informatique musicale, est depuis les années 2010 rendue de plus en plus accessible. Des start-up se sont emparées de la recherche pour développer des outils de composition automatique, et les diffuser sur le marché. Les GAFAM ne tardent pas à suivre, avec Google qui développe sa suite d’outils baptisée Magenta, puis MusicLM, un text-to-audio similaire à MusicGen développé par Meta. Ces applications permettent de générer des fichiers audio de musique sur la base de prompts, à la manière de Midjourney ou DALL-E.
Les outils actuels s’inscrivent dans la continuité du virage numérique et rendent la production musicale plus accessible, mais subsiste encore le problème de la boîte noire : leur fonctionnement reste encore pour le grand public un mystère. Bernard Stiegler pointait du doigt la prolétarisation des savoirs numériques, et la musique par IA n’est en cela pas en reste : la majorité des utilisateurs de ces outils ne savent pas comment ils sont conçus.
Musique symbolique et génération audio
D’un point de vue purement technique, on distingue deux domaines dans l’IA musicale, la génération de musique symbolique et la génération audio. La génération symbolique permet de générer des partitions musicales ou des séquences de notes. Par exemple, DeepBach permet de générer automatiquement des chorals de Bach. La génération audio permet de générer de la musique directement sous forme de fichier audio, comme avec les text-to-audio Stable Audio ou Riffusion. Dans les deux cas, l’approche la plus généralisée est l’utilisation de techniques basées sur les réseaux de neurones profonds.
L’application de la génération audio est large : création de musique, synthèse vocale, suppression du bruit, ou encore restauration audio. Grâce à ces techniques, les Beatles ont pu exploiter la voix du défunt John Lennon pour terminer leur dernière chanson. Jusqu’à présent, la qualité de l’enregistrement de Lennon était trop mauvaise pour être utilisée. Les techniques de séparation audio ont permis d’extraire la voix des bruits parasites.
Quelles conséquences pour le secteur musical ?
Que dire de la transformation de l’économie de la production musicale ? Est-ce qu’avec le développement d’entreprises proposant la fabrication automatisée sur mesure de musique, la place des musiciens est menacée ?
Lire la suite sur theconversation.com