Séparation Musique-Parole
[PFE] Compte Rendu Réunion n°6
COMPTE RENDU REUNION
Personnes présentes
- Rémi
- Pierre
- Fréderic Wils
But
Réaliser le code permettant le calcul de la vraissemblance.
Moyens
Utilisation des toolkits Alizée et SPro.
Travail effectué
Écriture du code de Score.cpp, réalisant le calcul de vraisemblance trame à trame (feature) d’un fichier (prm) avec les différents modèles réalisés (raw).
- Créer un serveur de mixture pour stocker les modèles.
- Charger les modèles.
- Charger le fichier prm.
- Créer un serveur de feature pour stocker les trames du fichier prm.
- Charger les features dans le serveur.
- Créer un serveur de Stat pour réaliser la vraissemblance.
- Faire les références aux modèles.
- Remettre à zéro les vraissemblances (resetLLK).
- Parcourir toutes les features et calculer la vraissemblance avec chaque modèle.
On obtient des résultats comme ceux-ci :
<insérer fichier>
Chaque ligne correspond à une trame, le fichier comporte en fait plus de 54 000 lignes. La première colonne est le numéro de trame, les deux colonnes suivantes représentent la vraissemblance du fichier audio par rapport au modèle de musique (respectivement parole) moins la vraissemblance du fichier audio par rapport au modèle du monde.
Mr Costa doit nous donner à partir des informations de fréquence d’échantillonage (44 100 Hz), de nombre de points de la FFT (128 points), et de nombre de filtres de la filter-bank (24), les coefficients des filtres à appliquer au signal audio.
[PFE] Compte Rendu Réunion n°5
COMPTE RENDU REUNION
Personnes présentes
- Rémi
- Pierre
- Nicolas Scheffer
But de la réunion
Explication des commandes de SPro.
Programme d’apprentissage du modèle monde
…
A faire
- Générer les fichiers de paramètres pour les enregistrements audio (Musique, parole, musique et parole
- Tester avec ALIZE (voir avec Frédéric Wils)
[PFE] Compte Rendu Réunion n°4
COMPTE RENDU REUNION
Personnes présentes
- Rémi
- Pierre
- Nicolas Scheffer
But de la réunion
Explication des commandes de SPro.
Commandes SPro
Nous avons récupéré les logiciels SPro et ALIZE, et nous connaissons la démarche à suivre pour créer nos modèles de parole et musique.
La commande de SPro nous permettant de générer nos fichiers de paramètres (Résultats de FFT sur chaque trame) est sfbank et plus exactement :
sfbank -f 44100 -b 128 -m -v track1.wav test.prm
Cette commande prend en entrée le fichier track1.wav, définit la fréquence d’échantillonage (ici 44kHz), le nombre de points pour le calcul de la FFT (ici 128 points), -m pour utiliser l’échelle de MEL, -v pour le mode verbeux, et test.prm serait le fichier de sortie de SPro qui se présente comme ceci :
Fichier SPro 3.x Nombre de vecteurs : 45049 Taille statique : 24 Composantes : statique Taille totale : 24 DataType : 0x1 (1) SPRO3Flag : 0 (0) 6.915308E+00 7.005969E+00 6.683623E+00 7.155558E+00 7.483325E+00 7.178612E+00 7.188021E+00 7.802890E+00 8.376658E+00 8.848915E+00 9.404239E+00 9.504105E+00 9.360222E+00 9.346548E+00 9.437455E+00 9.277194E+00 9.766980E+00 9.846254E+00 1.017455E+01 1.027607E+01 9.636144E+00 9.998602E+00 1.048491E+01 1.120926E+01 7.025205E-01 1.441367E+00 1.456147E+00 1.875092E+00 1.980203E+00 1.253615E+00 9.897706E-01 1.580701E+00 1.855491E+00 1.896306E+00 1.658076E+00 1.771265E+00 1.936689E+00 2.073158E+00 3.164387E+00 3.161928E+00 3.374490E+00 3.411140E+00 3.611568E+00 4.413054E+00 4.614046E+00 4.225465E+00 4.182730E+00 4.459105E+00
A faire
- Générer les fichiers de paramètres pour les enregistrements audio (Musique, parole, musique et parole
- Tester avec ALIZE (voir avec Frédéric Wils)
[PFE] Compte Rendu Réunion n°3
COMPTE RENDU REUNION
Personnes présentes
- Rémi
- Pierre
- Jean-François Bonastre
But de la réunion
Obtenir plus d’informations sur le logiciel SPro.
Démarche pour l’apprentissage de modèles
On possède 5 enregistrements musicaux. Pour chacun de ces enregistrements on possède également les enregistrements comportant seulement la parole et ceux comportant la musique.
A partir de SPro, et de ces enregistrements, nous voulons obtenir des fichiers de paramètres qui vont servir d’entrée à ALIZE pour fabriquer les modèles de musique et de parole.
Le logiciel SPro reçoit en entrée des fichiers .wav et produit en sortie des fichiers .prm.
- On va d’abord fournir à SPro les enregistrements de parole et de musique. Le logiciel devrait produire un modèle que nous appelerons World Modèle (Modèle général)
- Ensuite nous soumettons à nouveau le fichier de parole avec le world modèle, cela produira le modèle de parole.
- On reproduit la même étape avec le fichier de musique afin d’obtenir le modèle de musique.
On réalisera ceci avec 128 gaussiennes ou moins (paramètre de SPro).
Actuellement nous avons récupéré le logiciel SPro ainsi que sa documentation sur le site de son auteur Guillaume Gravier : http://www.irisa.fr/metiss/guig/spro.html
A faire
- Comprendre l’utilisation de SPro
- Réaliser la procédure d’apprentissage et faire les modèles de musique et parole
- Maintenir le contact avec Frédéric Wils
- Rencontrer Jean Pierre Costa pour faire le lien entre l’utilisation d’ALIZEE et la réalisation des filtres numériques nécéssaires à la séparation des signaux
Téléchargez le document au format PDF
[PFE] Compte Rendu Réunion n°2
COMPTE RENDU REUNION
Personnes présentes
- Rémi
- Pierre
- Fréderic Wils (Ingénieur développement en charge du logiciel ALIZEE)
But de la réunion
Définir les étapes techniques du projet, le rôle des logiciel SPRO et ALIZEE dans le projet, ainsi que le but de notre programme.
Idées exposées
Etapes du sous-projet :
- Créer des modèles statistiques ou mixture de gaussiennes(musique et parole) par apprentissage (utilisation d’IM dans alizée).
- Sauvegarder les modèles statistiques (format xml entre autres).
- Utiliser SPRO pour travailler sur des fichiers de cepstres (format .prm) plutot que sur les fichiers audio.
- Le fichier de cepstres est chargé en mémoire via Alizée afin d’avoir accès à chaque cepstre (ou feature) plus facilement.
- Calculer (Notre programme) la vraissemblance (likelihood) entre chaque feature et chaque modèle.
- Fixer un seuil permettant d’affirmer si la feature est de la parole ou de la musique.
A faire
- Rencontrer Jean François Bonastre pour l’utilisation du logiciel SPRO.
- Se familiariser avec les logiciels SPRO et ALIZEE.
- Maintenir le contact avec Frédéric Wils.
- Rencontrer Jean Pierre Costa pour faire le lien entre l’utilisation d’ALIZEE et la réalisation des filtres numériques nécéssaires à la séparation des signaux.
Téléchargez le document au format PDF

