Technologie
[PFE] Compte Rendu Réunion n°5
COMPTE RENDU REUNION
Personnes présentes
- Rémi
- Pierre
- Nicolas Scheffer
But de la réunion
Explication des commandes de SPro.
Programme d’apprentissage du modèle monde
…
A faire
- Générer les fichiers de paramètres pour les enregistrements audio (Musique, parole, musique et parole
- Tester avec ALIZE (voir avec Frédéric Wils)
[PFE] Compte Rendu Réunion n°4
COMPTE RENDU REUNION
Personnes présentes
- Rémi
- Pierre
- Nicolas Scheffer
But de la réunion
Explication des commandes de SPro.
Commandes SPro
Nous avons récupéré les logiciels SPro et ALIZE, et nous connaissons la démarche à suivre pour créer nos modèles de parole et musique.
La commande de SPro nous permettant de générer nos fichiers de paramètres (Résultats de FFT sur chaque trame) est sfbank et plus exactement :
sfbank -f 44100 -b 128 -m -v track1.wav test.prm
Cette commande prend en entrée le fichier track1.wav, définit la fréquence d’échantillonage (ici 44kHz), le nombre de points pour le calcul de la FFT (ici 128 points), -m pour utiliser l’échelle de MEL, -v pour le mode verbeux, et test.prm serait le fichier de sortie de SPro qui se présente comme ceci :
Fichier SPro 3.x Nombre de vecteurs : 45049 Taille statique : 24 Composantes : statique Taille totale : 24 DataType : 0x1 (1) SPRO3Flag : 0 (0) 6.915308E+00 7.005969E+00 6.683623E+00 7.155558E+00 7.483325E+00 7.178612E+00 7.188021E+00 7.802890E+00 8.376658E+00 8.848915E+00 9.404239E+00 9.504105E+00 9.360222E+00 9.346548E+00 9.437455E+00 9.277194E+00 9.766980E+00 9.846254E+00 1.017455E+01 1.027607E+01 9.636144E+00 9.998602E+00 1.048491E+01 1.120926E+01 7.025205E-01 1.441367E+00 1.456147E+00 1.875092E+00 1.980203E+00 1.253615E+00 9.897706E-01 1.580701E+00 1.855491E+00 1.896306E+00 1.658076E+00 1.771265E+00 1.936689E+00 2.073158E+00 3.164387E+00 3.161928E+00 3.374490E+00 3.411140E+00 3.611568E+00 4.413054E+00 4.614046E+00 4.225465E+00 4.182730E+00 4.459105E+00
A faire
- Générer les fichiers de paramètres pour les enregistrements audio (Musique, parole, musique et parole
- Tester avec ALIZE (voir avec Frédéric Wils)
[PFE] Compte Rendu Réunion n°3
COMPTE RENDU REUNION
Personnes présentes
- Rémi
- Pierre
- Jean-François Bonastre
But de la réunion
Obtenir plus d’informations sur le logiciel SPro.
Démarche pour l’apprentissage de modèles
On possède 5 enregistrements musicaux. Pour chacun de ces enregistrements on possède également les enregistrements comportant seulement la parole et ceux comportant la musique.
A partir de SPro, et de ces enregistrements, nous voulons obtenir des fichiers de paramètres qui vont servir d’entrée à ALIZE pour fabriquer les modèles de musique et de parole.
Le logiciel SPro reçoit en entrée des fichiers .wav et produit en sortie des fichiers .prm.
- On va d’abord fournir à SPro les enregistrements de parole et de musique. Le logiciel devrait produire un modèle que nous appelerons World Modèle (Modèle général)
- Ensuite nous soumettons à nouveau le fichier de parole avec le world modèle, cela produira le modèle de parole.
- On reproduit la même étape avec le fichier de musique afin d’obtenir le modèle de musique.
On réalisera ceci avec 128 gaussiennes ou moins (paramètre de SPro).
Actuellement nous avons récupéré le logiciel SPro ainsi que sa documentation sur le site de son auteur Guillaume Gravier : http://www.irisa.fr/metiss/guig/spro.html
A faire
- Comprendre l’utilisation de SPro
- Réaliser la procédure d’apprentissage et faire les modèles de musique et parole
- Maintenir le contact avec Frédéric Wils
- Rencontrer Jean Pierre Costa pour faire le lien entre l’utilisation d’ALIZEE et la réalisation des filtres numériques nécéssaires à la séparation des signaux
Téléchargez le document au format PDF
[PFE] Compte Rendu Réunion n°2
COMPTE RENDU REUNION
Personnes présentes
- Rémi
- Pierre
- Fréderic Wils (Ingénieur développement en charge du logiciel ALIZEE)
But de la réunion
Définir les étapes techniques du projet, le rôle des logiciel SPRO et ALIZEE dans le projet, ainsi que le but de notre programme.
Idées exposées
Etapes du sous-projet :
- Créer des modèles statistiques ou mixture de gaussiennes(musique et parole) par apprentissage (utilisation d’IM dans alizée).
- Sauvegarder les modèles statistiques (format xml entre autres).
- Utiliser SPRO pour travailler sur des fichiers de cepstres (format .prm) plutot que sur les fichiers audio.
- Le fichier de cepstres est chargé en mémoire via Alizée afin d’avoir accès à chaque cepstre (ou feature) plus facilement.
- Calculer (Notre programme) la vraissemblance (likelihood) entre chaque feature et chaque modèle.
- Fixer un seuil permettant d’affirmer si la feature est de la parole ou de la musique.
A faire
- Rencontrer Jean François Bonastre pour l’utilisation du logiciel SPRO.
- Se familiariser avec les logiciels SPRO et ALIZEE.
- Maintenir le contact avec Frédéric Wils.
- Rencontrer Jean Pierre Costa pour faire le lien entre l’utilisation d’ALIZEE et la réalisation des filtres numériques nécéssaires à la séparation des signaux.
Téléchargez le document au format PDF
[PFE] Compte Rendu Réunion n°1
CAHIER DES CHARGES
Personnes présentes
- Rémi et Pierre
- Jean Pierre Costa (Tuteur du PFE) et Jean François Bonastre
But
- Création d’une application native de karaoké (C/C++ ou autre langage adéquat)
- Possibilité de modifier l’énergie du signal de parole dans un morceau musical (idée du potentiomètre - égaliseur)
Moyens
Utilisation des toolkits Alizée et SPro.
- Spro : Récupère un fichier audio (format WAV par exemple).
Pour chaque trame de temps du morceau (définie), on calcule un nombre défini de cepstres. - Alizée : Récupère les cepstres.
Construction d’un modèle Voix et d’un modèle musique.
Calcul d’un pourcentage d’appartenance aux modèles pour chaque cepstre.
Idée
Au préalable on souhaite produire des modèles statistiques pour la parole et la musique à partir d’enregistrements de 5 morceaux. Pour chaque morceau on dispose de 3 enregistrements distincts : parole, musique, parole+musique.
On a en entrée un fichier WAV contenant de la voix et de la musique, on le soumet au logiciel SPRO qui va calculer en sortie les cepstres du signal par intervalles de temps. Ces vecteurs sont ensuite une entrée pour le logiciel ALIZEE qui va renvoyer des valeurs ALPHA et BETA correspondant à la proportion d’appartenance à tel ou tel modèle statistique (parole/musique).
A partir de cela, nous fabriquons des filtres permettant de réduire/augmenter l’énergie des cepstres correspondant respectivement à une forte/faible proportion de parole dans le signal.Enfin, on répète les mêmes étapes pour le signal de sortie jusqu’à obtention d’un signal satisfaisant (boucle de passage dans Alizée).
Téléchargez le document au format PDF

