Séparation Musique-Parole

 

[PFE] Compte Rendu Réunion n°6

COMPTE RENDU REUNION

Personnes présentes

But
Réaliser le code permettant le calcul de la vraissemblance.

Moyens
Utilisation des toolkits Alizée et SPro.

Travail effectué
Écriture du code de Score.cpp, réalisant le calcul de vraisemblance trame à trame (feature) d’un fichier (prm) avec les différents modèles réalisés (raw).

On obtient des résultats comme ceux-ci :

<insérer fichier>

Chaque ligne correspond à une trame, le fichier comporte en fait plus de 54 000 lignes. La première colonne est le numéro de trame, les deux colonnes suivantes représentent la vraissemblance du fichier audio par rapport au modèle de musique (respectivement parole) moins la vraissemblance du fichier audio par rapport au modèle du monde.

Mr Costa doit nous donner à partir des informations de fréquence d’échantillonage (44 100 Hz), de nombre de points de la FFT (128 points), et de nombre de filtres de la filter-bank (24), les coefficients des filtres à appliquer au signal audio.


 

[PFE] Compte Rendu Réunion n°5

COMPTE RENDU REUNION

Personnes présentes

But de la réunion
Explication des commandes de SPro.

Programme d’apprentissage du modèle monde

A faire


 

[PFE] Compte Rendu Réunion n°4

COMPTE RENDU REUNION

Personnes présentes

But de la réunion
Explication des commandes de SPro.

Commandes SPro
Nous avons récupéré les logiciels SPro et ALIZE, et nous connaissons la démarche à suivre pour créer nos modèles de parole et musique.
La commande de SPro nous permettant de générer nos fichiers de paramètres (Résultats de FFT sur chaque trame) est sfbank et plus exactement :

sfbank -f 44100 -b 128 -m -v track1.wav test.prm

Cette commande prend en entrée le fichier track1.wav, définit la fréquence d’échantillonage (ici 44kHz), le nombre de points pour le calcul de la FFT (ici 128 points), -m pour utiliser l’échelle de MEL, -v pour le mode verbeux, et test.prm serait le fichier de sortie de SPro qui se présente comme ceci :

Fichier SPro 3.x
Nombre de vecteurs : 45049
Taille statique : 24
Composantes : statique
Taille totale : 24
DataType : 0x1 (1)
SPRO3Flag : 0 (0)

6.915308E+00 7.005969E+00 6.683623E+00 7.155558E+00 7.483325E+00 7.178612E+00
7.188021E+00 7.802890E+00 8.376658E+00 8.848915E+00 9.404239E+00 9.504105E+00
9.360222E+00 9.346548E+00 9.437455E+00 9.277194E+00 9.766980E+00 9.846254E+00
1.017455E+01 1.027607E+01 9.636144E+00 9.998602E+00 1.048491E+01 1.120926E+01

7.025205E-01 1.441367E+00 1.456147E+00 1.875092E+00 1.980203E+00 1.253615E+00
9.897706E-01 1.580701E+00 1.855491E+00 1.896306E+00 1.658076E+00 1.771265E+00
1.936689E+00 2.073158E+00 3.164387E+00 3.161928E+00 3.374490E+00 3.411140E+00
3.611568E+00 4.413054E+00 4.614046E+00 4.225465E+00 4.182730E+00 4.459105E+00

A faire


 

[PFE] Compte Rendu Réunion n°3

COMPTE RENDU REUNION

Personnes présentes

But de la réunion
Obtenir plus d’informations sur le logiciel SPro.

Démarche pour l’apprentissage de modèles
On possède 5 enregistrements musicaux. Pour chacun de ces enregistrements on possède également les enregistrements comportant seulement la parole et ceux comportant la musique.

A partir de SPro, et de ces enregistrements, nous voulons obtenir des fichiers de paramètres qui vont servir d’entrée à ALIZE pour fabriquer les modèles de musique et de parole.

Le logiciel SPro reçoit en entrée des fichiers .wav et produit en sortie des fichiers .prm.

On réalisera ceci avec 128 gaussiennes ou moins (paramètre de SPro).

Actuellement nous avons récupéré le logiciel SPro ainsi que sa documentation sur le site de son auteur Guillaume Gravier : http://www.irisa.fr/metiss/guig/spro.html

A faire

Téléchargez le document au format PDF


 

[PFE] Compte Rendu Réunion n°2

COMPTE RENDU REUNION

Personnes présentes

But de la réunion
Définir les étapes techniques du projet, le rôle des logiciel SPRO et ALIZEE dans le projet, ainsi que le but de notre programme.

Idées exposées
Etapes du sous-projet :

A faire

Téléchargez le document au format PDF