TimeSide, a scalable audio processing framework written in Python with a RESTful API

Alors que le nombre de méthodes de traitement audio, de formats et de jeux de données augmentent, les chercheurs ingénieurs ont besoin de simplifier le workflow de développement et d'évaluation comparative de leurs algorithmes depuis le prototypage jusqu'au déploiement sur des plateformes de données partagés.

Ce travail présente TimeSide, un framework python évolutif de traitement audio permettant l'analyse, la visualisation, le transcodage, la diffusion et l'étiquetage de données audio. Son architecture en plug-in est conçue pour permettre de prototyper et déployer facilement des algorithmes et de les appliquer à de grandes quantités de données de manière versionnée et reproductible.

Dans le cadre des projets Telemeta, ANR DIADEMS puis WASABI, un web service a été ajouté au framework proposant une API RESTful documentée sur laquelles des clients externes peuvent se connecter, paramétrer des expériences, les appliquer et en analyser les résultats à distance. Les modèles de données et l’interface sont conçus pour répondre au besoin de sécurité, de pérennité, de reproductibilé et d'évolutivité du service tout en étant potentiellement connecté à plateformes tierces (YouTube et Deezer par exemple). Le prototypage d'un nouveau player web explore également de nouvelles techniques de visualisation vectorielles et d'annotation en se basant sur un SDK auto-généré depuis l'API.

Il est enfin montré comment ce type de service peut être embarqué dans un environnement applicatif et collaboratif plus large, comme celui du moteur de recherche WASABI rassemblant des données musicales audio et sémantiques agrégées à travers le web. D'autres cas d'usage sont proposés, notamment dans le champ industriel où l'analyse des signaux à l'échelle est un recours à l’évaluation qualitative et pérenne des contenus.

As the number of audio processing libraries and the volume of datasets increase together, researchers and engineers need to simplify the development workflow from prototyping to processing, deploying and scaling their own algorithms on top of various shared data repositories.  This work presents the state and the latest developments of TimeSide, an open scalable audio processing framework written in Python enabling low and high level audio analysis, visualization, transcoding, streaming and labelling. Its dedicated API is designed to enable reproducible processing on large datasets of any audio or video format with a simple plug-in architecture, a secure and scalable backend including a documented RESTful API and an extensible dynamic web frontend. Some original usecases and examples show how to embed the framework into various development contexts, deploy and use it as a service linked to a media asset management platform, develop a player on top of the service and how the resulting data can be stored, versioned, serialized and reused in a sustainable way. 

From the same archive

Mettre en temps une structure musicale : l'activité de composition de Voi(rex) par Philippe Leroux - Nicolas Donin, Jacques Theureau

Mettre en temps une structure musicale : l'activité de composition de Voi(rex) par Philippe Leroux - Nicolas Donin, Jacques Theureau

L'estimation de fréquences fondamentales multiples

La harpe électroacoustique

Utilisation de Modalys pour le projet VoxStruments, lutherie numérique intuitive et expressive - Nicholas Ellis, Joël Bensoam

Présentation des travaux l'équipe PdS dans le cadre du projet européen CLOSED : "Closing the Loop of Sound Evaluation and Design" - Olivier Houix

Sparse overcomplete methods, matching pursuit and basis pursuit - Bob L. Sturm

Transformations de type et de nature de la voix - Snorre Farner, Axel Roebel, Xavier Rodet

Segmentations et reconnaissances automatiques de phonèmes de la voix, temps différé, temps réel - Pierre Lanchantin, Julien Bloit, Xavier Rodet

Synthèse de la parole à partir du texte et construction d'une base de données d'unités de la voix - Christophe Veaux, Grégory Beller, Xavier Rodet

Projet ECOUTE - Jerome Barthelemy, Nicolas Donin, Geoffroy Peeters, Samuel Goldszmidt

Projet MusicDiscover - David Fenech Saint Genieys

Projet CASPAR - Jerome Barthelemy, Alain Bonardi

Projet CONSONNES 1ère partie - René Caussé, Vincent Freour, David Roze

TimeSide, a scalable audio processing framework written in Python with a RESTful API

From the same archive

Mettre en temps une structure musicale : l'activité de composition de Voi(rex) par Philippe Leroux - Nicolas Donin, Jacques Theureau

Mettre en temps une structure musicale : l'activité de composition de Voi(rex) par Philippe Leroux - Nicolas Donin, Jacques Theureau

L'estimation de fréquences fondamentales multiples

La harpe électroacoustique

Utilisation de Modalys pour le projet VoxStruments, lutherie numérique intuitive et expressive - Nicholas Ellis, Joël Bensoam

Présentation des travaux l'équipe PdS dans le cadre du projet européen CLOSED : "Closing the Loop of Sound Evaluation and Design" - Olivier Houix

Sparse overcomplete methods, matching pursuit and basis pursuit - Bob L. Sturm

Transformations de type et de nature de la voix - Snorre Farner, Axel Roebel, Xavier Rodet

Segmentations et reconnaissances automatiques de phonèmes de la voix, temps différé, temps réel - Pierre Lanchantin, Julien Bloit, Xavier Rodet

Synthèse de la parole à partir du texte et construction d'une base de données d'unités de la voix - Christophe Veaux, Grégory Beller, Xavier Rodet

Projet ECOUTE - Jerome Barthelemy, Nicolas Donin, Geoffroy Peeters, Samuel Goldszmidt

Projet MusicDiscover - David Fenech Saint Genieys

Projet CASPAR - Jerome Barthelemy, Alain Bonardi

Projet CONSONNES 1ère partie - René Caussé, Vincent Freour, David Roze

speakers

information

IRCAM

opening times

subway access