Quantification booléenne morphodynamique de la parole : applications au codage vocalique et la recherche d'information rapide / Salam Fraihat ; sous la direction de Hervé Glotin

Date :

Editeur / Publisher : [S.l.] : [s.n.] , 2010

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : français / French

Parole

Analyse temps-fréquence

Programmation dynamique

Glotin, Hervé (19..-.... ; auteur en informatique) (Directeur de thèse / thesis advisor)

Université Paul Cézanne (1973-2011) (Organisme de soutenance / degree-grantor)

Ecole Doctorale Mathématiques et Informatique de Marseille (Marseille) (Ecole doctorale associée à la thèse / doctoral school)

Résumé / Abstract : Toutes les spécificités de la parole ne sont pas encore exploitées dans les systèmes de traitement automatique. Les paramètrisations habituelles de la parole reposent sur des dizaines de coefficients réels (MFCC). Nous proposons une nouvelle paramétrisation parcimonieuse de la parole, basée sur des oppositions de traits distinctifs plutôt que sur l'augmentation systématique du nombre de dimensions. Afin d'encoder les dépendances Temps-Fréquence (TF) de la parole, nous quantifions isotropiquement les pavés TF, générant peu de coefficients binaires. Les expériences sont réalisées sur un corpus d'émissions radiophoniques multi-locuteurs, de la campagne ESTER. Nos paramètres binaires pour la classification vocalique représentent 1 kb/s, contre 76 kb/s pour les MFCC, tout en donnant des scores comparables. Nous appliquons notre quantification à l'indexation d'émissions radiophoniques par mesure directe de similarité entre le mot recherché et le document audio. Cette indexation morphodynamique est indépendante de la langue, et sans apprentissage. Nos paramètres pour une soixantaine d'instances de mots pour une heure de parole donnent 25% de précision moyenne, ce qui améliore la recherche directe par MFCC, tout en étant beaucoup plus légère, et ouvrant des perspectives sur une recherche d'information booléenne rapide par le contenu.

Résumé / Abstract : All the specificties of the speech are not yet exploited in automatic processing systems. The usual parameters are based on 39 real coefficients (MFCC). We propose new parcimonious ones, based on distinctive fitures. To encode dependencies of the Time-Frequency (TF) of speech, we quantify isotropicallythe TF plane, yieling to few boolean coefficients....