Introduction à deux thèses en cours autour des signaux de voix

Introduction à deux thèses en cours autour des signaux de voix, Yann TEYTAUT et Clément LE MOINE-VEILLON, doctorants dans l’équipe Analyse et synthèse des sons, STMS (Ircam, Sorbonne Université, CNRS, Ministère de la Culture) présentent leurs travaux ainsi que leur collaboration sur ce thème dans la troisième partie :

Résumé :

Alignement automatique phonème-à-audio [Yann TEYTAUT]

S’écouter, se répondre, se coordonner, se suivre, s’adapter, se synchroniser, s’aligner... Le vocabulaire de la performance musicale —— mais aussi de toute conversation orale —— est intrinsèquement lié à son organisation temporelle. L’analyse de la parole et du chant dépend donc fortement de notre capacité à pouvoir expliciter quel événement se produit à quel instant. Dans ce but, ces travaux visent à développer des modèles pour l’alignement automatique (ou synchronisation temporelle) de signaux vocaux. Notre cœur de propos concerne l’alignement phonème-à-audio, particulièrement exigeant de par la haute précision temporelle nécessaire, et riche de par ses applications à la synthèse sonore ou à l’étude du style de chant.

Conversion des attitudes vocales [Clément LE MOINE-VEILLON]

Les humains disposent d'une remarquable capacité à communiquer des signaux sociaux avec leur voix, notamment leurs attitudes. Permettre aux machines de comprendre, reproduire et interpréter ces signaux est un enjeu crucial. Cette recherche vise à élaborer un système de conversion des attitudes vocales et à valider ses performances à l'aide de critères objectifs — en évaluant sa capacité à reproduire des stratégies dites de "production" — et subjectifs — en évaluant la perception individuelle des conversions qui en sont issues.

Stratégies de productions des attitudes vocales [Yann & Clément]

Enfin, ce séminaire présente un cas d’étude applicatif de l’alignement phonétique sur la base de voix expressive Att-HACK. Grâce à des méthodes d'analyse de la parole couplées aux synchronisations temporelles, les stratégies de production de diverses attitudes vocales sont mises en évidence.

From the same archive

Mettre en temps une structure musicale : l'activité de composition de Voi(rex) par Philippe Leroux - Nicolas Donin, Jacques Theureau

Mettre en temps une structure musicale : l'activité de composition de Voi(rex) par Philippe Leroux - Nicolas Donin, Jacques Theureau

L'estimation de fréquences fondamentales multiples

La harpe électroacoustique

Utilisation de Modalys pour le projet VoxStruments, lutherie numérique intuitive et expressive - Nicholas Ellis, Joël Bensoam

Présentation des travaux l'équipe PdS dans le cadre du projet européen CLOSED : "Closing the Loop of Sound Evaluation and Design" - Olivier Houix

Sparse overcomplete methods, matching pursuit and basis pursuit - Bob L. Sturm

Transformations de type et de nature de la voix - Snorre Farner, Axel Roebel, Xavier Rodet

Segmentations et reconnaissances automatiques de phonèmes de la voix, temps différé, temps réel - Pierre Lanchantin, Julien Bloit, Xavier Rodet

Synthèse de la parole à partir du texte et construction d'une base de données d'unités de la voix - Christophe Veaux, Grégory Beller, Xavier Rodet

Projet ECOUTE - Jerome Barthelemy, Nicolas Donin, Geoffroy Peeters, Samuel Goldszmidt

Projet MusicDiscover - David Fenech Saint Genieys

Projet CASPAR - Jerome Barthelemy, Alain Bonardi

Projet CONSONNES 1ère partie - René Caussé, Vincent Freour, David Roze

Introduction à deux thèses en cours autour des signaux de voix

speakers

information

IRCAM

opening times

subway access