Apprentissage compositionnel des représentations audio - Soutenance

video

informations

Type
Soutenance de thèse/HDR
Lieu de représentation
Ircam, Salle Shannon (Paris)
date
1 décembre 2025

Soutenance de thèse de Giovanni Bindi

Giovanni Bindi, doctorant au sein de Sorbonne Université dans l'école doctorale Informatique, Telecom et électronique (EDITE) de Paris a effectué sa recherche intitulée "Apprentissage compositionnel des représentations audio » au laboratoire STMS (Ircam - Sorbonne Université - CNRS - Ministère de la Culture), au sein de l'équipe Analyse et Synthèse des Sons, sous la direction de Philippe Esling.

Le jury est composé de :

  • George Fazekas, Queen Mary University of London (Rapporteur)
  • Magdalena Fuentes, New York University (Rapporteur)
  • Ashley Burgoyne, Universiteit van Amsterdam (Examinateur)
  • Mark Sandler, Queen Mary University of London (Examinateur)
  • Geoffroy Peeters, Télécom Paris (Examinateur)
  • Philippe Esling, Sorbonne University (Directeur)

Résumé :

Cette thèse explore l’intersection entre l’apprentissage automatique, les modèles génératifs profonds et la composition musicale. Alors que l’apprentissage automatique a transformé de nombreux domaines, son application à la musique et plus largement aux arts créatifs soulève des défis spécifiques. Nous étudions l’apprentissage de représentations compositionnelles pour l’audio musical, en nous appuyant sur la décomposition non supervisée de mélanges audio et sur la modélisation générative probabiliste. Guidés par le principe de compositionnalité – selon lequel des données complexes peuvent être décrites comme des combinaisons d’éléments plus simples et réutilisables –, nous cherchons à comprendre comment ce principe se manifeste dans les signaux audio musicaux.

Notre cadre se déploie en deux phases complémentaires : la décomposition et la recomposition. Dans la phase de décomposition, nous introduisons un modèle simple et flexible, indépendant du domaine, qui apprend à séparer un signal d’entrée en plusieurs composantes latentes sans supervision explicite, et que nous appliquons notamment à des enregistrements audio multi-instruments. Dans la phase de recomposition, nous exploitons ces composantes au sein de modèles génératifs conditionnels légers pour générer de nouveaux arrangements ou compléter des éléments manquants d’un accompagnement à partir d’un contexte donné. Cette thèse constitue ainsi une première étape vers un rapprochement entre décomposition non supervisée et modélisation générative pour les signaux audio musicaux.

intervenants


partager


Vous constatez une erreur ?

IRCAM

1, place Igor-Stravinsky
75004 Paris
+33 1 44 78 48 43

heures d'ouverture

Du lundi au vendredi de 9h30 à 19h
Fermé le samedi et le dimanche

accès en transports

Hôtel de Ville, Rambuteau, Châtelet, Les Halles

Institut de Recherche et de Coordination Acoustique/Musique

Copyright © 2022 Ircam. All rights reserved.