Séparation de contrôles explicites et implicites pour la synthèse neurale expressive en temps réel - Partie 1

video

informations

Type
Soutenance de thèse/HDR
Lieu de représentation
Ircam, Salle Igor-Stravinsky (Paris)
date
31 octobre 2025

Soutenance de thèse de Nils Demerlé

Nils Demerlé, doctorant au sein de l’EDITE (ED 130) a effectué sa recherche intitulée « Séparation de contrôles explicites et implicites pour la synthèse neurale expressive en temps réel » au sein de l’équipe Analyse Synthèse de STMS ( IRCAM, CNRS, Sorbonne Université et Ministère de la Culture) sous la direction de Philippe Esling et co-encadré par Guillaume Doras.

Le jury est composé de :

  • Joshua REISS – Professor, Queen Mary University of London – Rapporteur
  • Nao TOKUI – Artist and Researcher, Neutone –Rapporteur
  • Anna HUANG – Assistant Professor, MIT – Examinateur
  • Atau TANAKA – Professor, Goldsmiths University – Examinateur
  • Tatsuya HARADA – Professor, University of Tokyo – Examinateur
  • Alexandre DEFOSSEZ – Researcher, Kyutai – Examinateur

Résumé :
Les récents progrès en apprentissage automatique ont profondément transformé notre rapport au son et à la création musicale. Les modèles génératifs profonds s’imposent aujourd’hui comme de nouveaux instruments potentiels, capables de soutenir et d’étendre les pratiques créatives. Leur adoption reste toutefois limitée par la question du contrôle : les approches actuelles offrent soit des paramètres explicites bien définis (note, instrument, description textuelle), soit des espaces de représentation plus abstraits permettant d’explorer des dimensions subjectives comme le timbre ou le style, mais plus difficiles à intégrer dans un contexte musical.
Cette thèse vise à réconcilier ces deux paradigmes de contrôle explicite et implicite afin de concevoir des outils de synthèse audio expressifs et directement intégrables aux environnements de production musicale. Nous commençons par une étude systématique des codecs audio neuronaux, blocs fondamentaux des modèles génératifs modernes, en identifiant les choix de conception qui influencent à la fois la qualité et la contrôlabilité de la génération. Nous explorons ensuite des stratégies pour apprendre conjointement des espaces de contrôle explicites et implicites, d’abord dans un cadre supervisé, puis avec le modèle AFTER, conçu pour le cas non supervisé. Ce dernier permet notamment des transferts de timbre continus et réalistes, tout en conservant un contrôle précis des notes et du rythme.Enfin, nous adaptons ces modèles à un usage temps réel grâce à des architectures légères et streamables, et développons une interface intégrée aux stations de travail audio numériques. La thèse se conclut par plusieurs collaborations artistiques illustrant à la fois le potentiel créatif et la pertinence pratique de ces approches.

intervenants


partager


Vous constatez une erreur ?

IRCAM

1, place Igor-Stravinsky
75004 Paris
+33 1 44 78 48 43

heures d'ouverture

Du lundi au vendredi de 9h30 à 19h
Fermé le samedi et le dimanche

accès en transports

Hôtel de Ville, Rambuteau, Châtelet, Les Halles

Institut de Recherche et de Coordination Acoustique/Musique

Copyright © 2022 Ircam. All rights reserved.