Libération - samedi 13 février 2021 Musique
La musique entre dans l’ère du «deepfake»
La musique est tellement sourde qu’elle semble avoir été enregistrée au fond de la fosse des Mariannes. Puis, reconnaissable entre toutes, la voix surgit : pas de doute, il s’agit bien d’Ol’Blue Eyes, le seul et unique Frank Sinatra qui croone «it’s Christmas time and you know what that means»... Que les collectionneurs se calment : il ne s’agit pas d’une chanson inédite, mais d’un faux. Ce titre au son caverneux n’a jamais été enregistré par Sinatra, mais généré il y
a huit mois par le système d’intelligence artificielle (IA) d’OpenAI, un laboratoire de San Francisco fondé en 2015 par Elon Musk et plusieurs autres démiurges de la Silicon Valley. OpenAI a pour but de «découvrir et promouvoir une intelligence artificielle amicale». Comprendre une IA au service de l’espèce humaine au contraire de celle, redoutablement hostile, imaginée par James Cameron dans Terminator.
En plus de travailler dans des domaines comme la robotique, les dizaines de chercheurs d’OpenAI planchent aussi sur la manière dont l’IA peut offrir de nouveaux outils aux compositeurs de musique, un domaine en pleine expansion (voir Libération du 13 mars 2020). En 2019, le labo a révélé son premier projet musical, MuseNet un système qui permet de générer des titres de quatre minutes utilisant jusqu’à dix instruments dans quinze genres différents (de la country à la musique classique en passant par la pop). Grâce à son IA, MuseNet découvre des harmonies, des rythmes, bref compose du matériel inédit en puisant dans des centaines de milliers de fichiers musicaux.
Expériences prométhéennes
Mais c’est avec son dernier projet musical, Jukebox, qu’OpenAI a fait sensation. Ce nouvel algorithme permet en effet de produire des chansons complètes, une fois encore dans tous les styles, avec - nouveauté de taille - des vocaux «rudimentaires» (dixit OpenAI). Reposant sur plus d’un million de titres (musiques, paroles et leurs métadonnées), le système a la capacité de générer des vocaux qui recréent le chant d’artistes vivants ou disparus tels Frank Sinatra ou Madonna, lesquels sont associés avec des morceaux «à la manière de» ces artistes. A l’instar des vidéos trafiquées qui circulent de plus en plus sur le Net, ces titres surgis du ventre des ordinateurs sont surnommés deepfakes.
Au-delà de leur son digne d’une démo de groupe garage, les plus réussis des 7 000 titres mis en ligne par Jukebox s’avèrent réellement troublants : les voix d’Elvis Presley, Lemmy ou Madonna sont clairement reconnaissables et leurs simulacres propulsent l’auditeur aux portes de l’Uncanny Valley, la «vallée dérangeante» conceptualisée par le roboticien japonais Masahiro Mori, pour qui plus un robot ressemble à un humain, plus ses imperfections nous paraissent monstrueuses. Mais, en dépit de leurs indéniables succès, les expériences prométhéennes d’OpenAI sont pourtant loin de toujours atteindre leurs objectifs : des centaines de «recréations» sonnent complètement faux et, par exemple, les titres «à la manière» de Pink Floyd ou, plus curieusement, d’un groupe à l’orchestration simplissime comme les Ramones ont peu de choses voire rien à voir avec les originaux. Il n’empêche : bientôt, rien n’interdira aux
ordinateurs de produire des titres inédits de n’importe quel artiste. Le jour où les machines pourront faire chanter les morts est proche.
«De la musique pour chats»
On s’en doute, cette concurrence d’un nouveau genre ne laisse pas indifférents les artistes de chair et d’os tels que l’ex-Lilicub Benoît Carré alias Skygge («ombre» en danois, en référence à un conte de fées d’Andersen). Pionnier de la musique composée avec l’aide de l’IA, Skygge s’était fait remarquer en 2016 avec Daddy’s Car, un titre convaincant «à la manière des Beatles». Les expérimentations d’OpenAI lui évoquent des sentiments mitigés. «C’est fascinant et cela fait aussi un peu peur tout en étant assez drôle. Fascinant parce que c’est une technologie plutôt dingue qui reproduit la voix de Sinatra de manière assez crédible.» Le titre de Sinatra rappelle au musicien les premières gravures de voix sur des rouleaux de papier qui avaient été effectuées en 1860 par le Français Edouard-Léon Scott de Martinville. «Il y avait le même côté "crissement". C’était à la fois risible et fascinant pour les gens à l’époque. Là, c’est un peu la même chose.» L’avatar vocal de Sinatra lui évoque aussi les Portes de la perception, le fameux livre d’Aldous Huxley. «C’est comique ! Ce pseudo-titre de Sinatra me fait penser au passage où Huxley est sous mescaline et écoute la musique dodécaphonique d’Alban Berg. Il a l’impression d’écouter de la musique pour chats. Et, là, je trouve qu’on est un peu dans cette musique pour chats. Au bout de vingt secondes, cette musique ne raconte plus rien, elle ne traduit aucune intention, même chaotique. Cette chanson a l’air de flotter dans un monde sans sens. Passé la surprise initiale d’entendre ce Sinatra surgi du néant, on perd vite le fil du morceau et l’attention baisse.»
Directeur du Spotify Creator Technology Research Lab, le Français François Pachet explique que «les recherches dans le domaine de l’IA et la musique ont littéralement explosé ces dernières années. Enormément de gens travaillent sur cette problématique, et des papiers scientifiques consacrés au sujet paraissent pratiquement tous les jours ! Je n’aurais jamais pensé que cela prendrait une telle envergure. Il n’y a pas encore d’outils vraiment accessibles au grand public, mais cela ne saurait tarder.» Pour le chercheur, qui avait produit l’album Hello World, un projet où des artistes comme Stromae se frottaient à l’IA (2017), «les exemples d’OpenAI sont très intéressants du point de vue technique, même s’il y a des problèmes de qualité audio qui ne sont pas aujourd’hui améliorables, pour des raisons profondes, ce qui cantonne l’expérience à un super exercice».
Au-delà de son potentiel proprement vertigineux, la production de deepfakes recréant la voix
d’artistes vivants ou morts ouvre une boîte de Pandore du point de vue juridique. François Pachet résume : «Il y a énormément de débats sur le sujet: quel sera le statut des œuvres mises en entrée de ces algorithmes ? Faut-il avoir leurs droits ou pas ? Et quid de ce qui est généré? A qui appartiennent ces titres ? Il faut différencier les aspects technologique et juridique. Le juridique est toujours en retard par rapport à la technologie, qui va très vite alors que lui va très lentement.» Pour le chercheur, «nous sommes dans une période très instable car les technologies ne sont pas encore stabilisées. Il faut séparer ce que l’on peut faire de ce que l’on a le droit de faire».
Un télécrochet aux candidats virtuels
Les questions épineuses posées par l’utilisation de l’IA sont en fait déjà à l’étude au sein du gouvernement français et à Bruxelles. Professeure de droit à l’université de Paris-Saclay et spécialiste de la question, Alexandra Bensamoun a rédigé deux rapports sur la question pour le ministère de la Culture, le dernier ayant été mis en ligne en décembre. Elle précise que la recréation de voix «ne relève pas du droit d’auteur car celui-ci ne protège pas la voix mais des œuvres de l’esprit, c’est-à-dire des créations de forme originale de l’esprit, des créations de l’esprit humain qui se matérialisent de manière originale. Ici, il pourrait éventuellement y avoir atteinte au droit de la personnalité dans le cas de reprises non autorisées de la voix d’une personne».
Cette subtilité n’a pas échappé à Jay-Z. En mai dernier, les avocats du nabab du hip-hop ont entamé une procédure contre un youtubeur anonyme qui avait mis en ligne un deepfake criant de vérité dans lequel le milliardaire rap déclamait du Shakespeare. La procédure étant toujours en cours, la vidéo est encore en ligne. Quelle sera la prochaine étape ? Chez OpenAI, on préfère garder le silence. Sous couvert d’anonymat, un membre de l’équipe nous révèle quand même qu’OpenAI «n’étant pas "actif" dans l’industrie musicale ou dans la musique générée par IA, nous n’avons aucune idée de ce qui va suivre. Jukebox a seulement été conçu pour repousser les frontières des modèles d’IA afin de produire une musique hi-fi de qualité».
A 9 500 kilomètres de San Francisco, à Pékin, on a pris le problème à l’envers : au lieu de fabriquer des avatars de voix, le site de partage de vidéos iQIYI a créé l’événement en mettant en ligne Dimension Nova,un télécrochet dont tous les candidats sont virtuels. Les seuls humains à l’écran de cette démonstration assez kitsch sont les membres du jury devant qui ont défilé une vingtaine d’idoles virtuelles aux allures de personnages de mangas. Seules les voix de ces avatars étaient humaines. Pour combien de temps ?