Groupe Traitement du Langage Parlé
Introduction - Les thèmes de recherche - Enseignement, Formation, Collaborations
Pages de présentation d'activité de recherche
Nos recherches ont pour but de développer des modèles et algorithmes pour le traitement automatique de la parole tout en augmentant notre compréhension des processus de la communication parlée. Cette problématique concerne aussi bien les modélisations acoustique, lexicale et syntaxique, que le lien entre parole et sens, et la modélisation des processus de communication. Ces activités, par essence pluridisciplinaires, nécessitent des compétences en traitement du signal, en acoustique, en phonétique, en linguistique et en informatique. La nécessité de confronter nos modèles aux données nous amènent à développer des systèmes multilingues de traitement du langage parlé assurant des fonctions variées telles que la reconnaissance de la parole, l'identification de la langue et du locuteur, le dialogue oral homme-machine et la structuration de documents audio et audiovisuels. La reconnaissance de la parole consiste à transcrire le signal audio en texte. Suivant l'usage visé, cette transcription peut être plus ou moins complète, avec le marquage des ponctuations, des hésitations et de certains événements non linguistiques. La langue dans laquelle s'exprime le locuteur peut être identifiée en amont du système de reconnaissance lorsque celle-ci n'est pas connue a priori. L'identification du locuteur consiste à déterminer qui parle et quand, cette identification pouvant être absolue ou relative au document traité. La modélisation du dialogue oral dans les interfaces homme-machine va bien au-delà de la transcription de la parole en texte, puisqu'il faut mettre en oeuvre des processus de compréhension et des stratégies de dialogue incluant des processus de gestion dynamique du sens et de génération. Enfin, l'indexation automatique de documents audio pour l'accès à l'information par le contenu, nous amène à combiner les techniques de traitement de la parole et les techniques de traitement du langage naturel.
Nos travaux sur le décodage de la parole (au sens le plus large du terme) portent sur la segmentation et la reconnaissance de la parole continue, ainsi que l'identification du locuteur et de la langue, pour la transcription et la structuration automatiques de documents audio. Ces développements, qui s'appuient sur nos recherches en modélisation acoustique, lexicale, et linguistique, sont réalisés dans un contexte multilingue (allemand, anglais, arabe, espagnol, français, mandarin, portugais, etc.). La démarche à la base de ces travaux est le développement d'algorithmes et de modèles fondés sur la prise en compte conjointe des diverses sources d'information visant à un processus global de décodage du signal audio.
Le dialogue oral homme-machine est un sujet de recherche à multiples facettes qui nous amène à traiter l'oral spontané, à modéliser des processus de compréhension, de dialogue, de génération du langage, et à développer des stratégies de dialogue. Nous étudions deux approches complémentaires pour traiter des problèmes, l'une fondée sur une modélisation explicite de la tâche (approche par règles), et l'autre sur une modélisation statistique à l'aide de corpus annotés. Ces travaux se concrétisent par la réalisation de systèmes de dialogue pour l'interrogation de bases de données dans un mode oral uniquement (interrogation par téléphone) ou avec d'autres modalités de communication. L’étude du dialogue oral nous amène également à modéliser les comportements émotionnels des interlocuteurs.
Une problématique relativement récente (1997) dans le groupe est l'indexation par le contenu de documents audiovisuels pour la recherche documentaire et la pige d'informations (la détection et le suivi de thèmes). Nous développons en particulier des techniques d'indexation adaptées aux particularités des documents audio (par opposition aux documents textuels). Le volume de données à traiter nous a amenés à développer de nouvelles solutions pour le décodage qui permettent de réduire significativement les temps de traitement. Dans ce cadre nous travaillons également sur des méthodes d'apprentissage qui nous permettent d'exploiter de très grandes quantités de données tout en limitant les besoins en annotations manuelles. L'indexation de documents audio est devenue un de nos axes de recherche majeurs, à travers lequel nous abordons l'ensemble des problèmes liés au traitement de la parole et de l'audio, qu'il s'agisse de la segmentation du signal audio, de la transcription de la parole, de l'identification de la langue et des locuteurs, ou d'analyse sémantique.
Trois activités essentielles accompagnent et soutiennent nos recherches : le développement de bases de données et des outils et conventions d'annotation associés, l'évaluation des modèles et systèmes, et la valorisation des recherches par des relations industrielles en particulier dans le contexte de projets européens.
Au premier janvier 2002, le groupe comprenait 23 membres, dont 8 permanents CNRS, 6 enseignants-chercheurs, 3 contractuels, et 6 étudiants préparant un doctorat. A côté de ses activités de recherche, le groupe assure divers cours sur le traitement de la parole, en particulier dans les DEA et DESS de l'université Paris XI et à l'Ensta. En 2001 et 2002, les membres du groupe ont publié 38 articles (8 dans des revues internationales, 1 chapitre d'ouvrage, 29 dans des colloques internationaux avec actes et comité de lecture dont 3 sur invitation), et ont présenté 15 communications invitées.
Les contrats de recherche couvrent l'ensemble des activités du groupe, en particulier grâce aux projets européens (Alert, Coretex, Echo, Amities), aux conventions de recherche avec la DGA, au projet DARPA Ears, aux programmes nationaux (RNRT Theoreme, RNTL Audiosurf, Technolangue Media), et au programme interdisciplinaire STIC-SHS du CNRS. Pour le 6ème PCRD, nous avons participé à l'élaboration de deux projets intégrés, TCSTAR et CHIL, et au réseau d'excellence Humaine. Ces trois projets ont été retenus. Nous avons une tradition d'évaluation continue de nos travaux avec en particulier la participation depuis 1992 à 18 campagnes d'évaluation organisées par le Nist aux USA pour les technologies du traitement de la parole. En 2001 et 2002, nous avons pris part aux évaluations TDT sur la détection et le suivi de thèmes dans des documents audio et textuels. Nous avons également en 2002 participé à l'évaluation Nist sur la reconnaissance du locuteur, et à l'évaluation Darpa EARS sur la transcription de documents d'information et de conversations téléphoniques. Nous avons aussi également contribué à l'évaluation Nist TrecVid en mettant à disposition de l'ensemble des participants les transcriptions automatiques pour des corpus vidéo utilisés en 2002 et 2003.
Nos moyens informatiques sont importants et sont renouvellés régulièrement pour prendre en compte les besoins toujours croissants liés au développement et à l'évaluation des modèles statistiques. Nous disposons d'un équipement comprenant environ 80 machines Unix de type SGI/Mips et DEC/Alpha, et d'une ferme de 51 PC bi-processeurs Pentium 4, avec plus de 10 tera-octets de disques.
Les recherches du groupe sont structurées en trois thèmes interdépendants : Modélisations acoustique et lexicale (thème 1), modélisation linguistique (thème 2), et systèmes de reconnaissance et dialogue (thème 3).
Les recherches du Thème 1 portent essentiellement sur les unités acoustiques, phonétiques et lexicales utilisées pour modéliser le langage parlé dans les systèmes de transcription et de dialogue oral. Les modèles retenus doivent permettre de prédire les phénomènes observés dans le signal acoustique afin de garantir de bonnes performances. Pour atteindre cet objectif de nombreux problèmes connexes doivent être abordés. En effet le signal de parole véhicule, au-delà du message linguistique proprement dit, d'autres types d'informations, notamment les caractéristiques du locuteur, de l'environnement, de l'enregistrement, et le cas échéant, du canal de transmission. Toutes ces informations contribuent à la variabilité de la parole et mènent à des directions de recherche variées, souvent au-delà de ce thème.
Le thème 2 se trouve à la frontière entre le traitement de l'écrit et celui de l'oral. Il s'agit de développer des méthodes et des outils de modélisation de la langue pour des systèmes de transcription ou d'indexation de la parole. Les modèles de langage les plus fréquemment utilisés dans les systèmes de reconnaissance sont des modèles probabilistes, estimés à partir de statistiques obtenues sur des textes et des transcriptions d'enregistrements audio. Cette approche est également utilisée au niveau sémantique.
Le thème 3 a pour objet le développement de systèmes de traitement du langage parlé reposant à la fois sur les recherches effectuées dans les autres thèmes (modélisations acoustique, lexicale et linguistique) et sur des recherches spécifiques au dialogue (processus de compréhension, modélisation du dialogue et de la tâche) et à l'indexation de documents audio. Les activités de ce thème ont un lien direct avec nos activités de valorisation qui se traduisent par le transfert de notre technologie vers l'industrie.
Thème 1 : Modélisations acoustique et lexicale
L.F. Lamel, M. Adda-Decker,
G. Adda, C. Barras, L. Canseco, L. Chen,
C. Demars, J.L. Gauvain, F. Lefèvre, A. Messaoudi
Les travaux de recherche menés dans ce thème portent essentiellement sur les unités acoustiques et lexicales utilisées pour modéliser le langage parlé. Les applications ciblées sont la reconnaissance de la parole, du locuteur et de la langue.
- Modélisation acoustique : Avant d'accéder au contenu linguistique, il faut pouvoir traiter la qualité hétérogène du signal acoustique liée aux différents modes d'enregistrement, de transmission et de restitution; (p. ex : téléphone cellulaire, codage à faible débit). L'interdépendance croissante entre recherches, développements technologiques et applications multimédia entraînent une augmentation et une grande diversification dans les corpus audio traités. L'internet et le téléphone cellulaire ne sont que les exemples les plus récents, les radios, télévisions et téléphones classiques restant toujours de grande importance. La parole peut être altérée, non seulement par le codage et les conditions de transmission, mais également par la présence d'un fond sonore : bruits, musiques ou parole superposée. A défaut de traiter avec succès les différents types d'altérations, il est important de les distinguer, d'analyser les problèmes spécifiques posés, et de proposer des méthodes adaptées. La segmentation en « conditions acoustiques » effectue cette distinction dans le traitement des journaux radio et télédiffusés.
Le locuteur, ses caractéristiques physiques, son état de santé, ses émotions conditionnent le signal de parole, au-delà du message linguistique proprement dit. Ces caractéristiques peuvent être exploitées pour localiser et identifier les différents locuteurs dans un flux sonore continu. En revanche, pour restituer le message linguistique ces variations interlocuteurs constituent plutôt une source de bruit, et des techniques de normalisation spectrales et cepstrales sont utilisées pour réduire cet effet. Nous nous intéressons, d'un point de vue linguistique, au type de parole (préparée ou spontanée) en situation de monologue pour un auditoire connu ou inconnu, en situation de débat animé ou de dialogue privé ; en plus des prononciations des mots, il faut modéliser les phénomènes extra-lexicaux : respirations, hésitations, fragments de mots, brouillons peu ou pas articulés, dont la distribution est fortement liée au type et à la situation de communication. L'accent et la langue sont également des facteurs importants. Sont concernées ici les problématiques d'identification automatique de la langue et de l'accent. Pour une langue donnée il faut développer des modèles acoustiques et/ou des prononciations, pour le langage parlé standard et les différents accents. Une problématique de recherche concerne l'utilisabilité d'un même jeu de modèles acoustiques pour un ensemble d'applications, voire un ensemble de langues. La problématique de généricité des modèles acoustiques pose de nombreuses questions, par exemple sur la définition d'un jeu de "phonèmes" adapté à plusieurs langues. Des problèmes similaires se posent pour l'identification automatique des langues.
Concernant la modélisation acoustico-phonémique pour la transcription de la parole, nous utilisons des modèles acoustiques de phones, où la notion de phone se réfère au terme linguistique de phonème, tout en laissant la possibilité de modéliser d'autres types de segments, comme les respirations, les hésitations, et les bruits divers qu'on observe fréquemment dans le langage parlé. Une meilleure précision des modèles de phones est obtenue en distinguant pour un phone donné différents modèles suivant le contexte phonémique (modèles contextuels), suivant le sexe des locuteurs (modèles homme/femme), suivant le canal de transmission (modèles bande-large/téléphone, etc.).
Nous avons élaboré une méthodologie pour développer des modèles acoustiques, méthodologie qui a été appliquée avec succès à des langues et domaines différents. L'estimation des paramètres des modèles markoviens requiert un alignement entre le signal et les modèles de phones, qui nécessite habituellement une transcription orthographique précise des enregistrements et un dictionnaire de prononciation contenant tous les mots du corpus. Les modèles acoustiques des entrées lexicales sont obtenus par concaténation des modèles de phones suivant la ou les prononciations permises par le dictionnaire de prononciation. Une grande proportion des erreurs de transcription est détectée automatiquement à ce niveau et les segments correspondants sont rejetés. Un arbre de décision phonémique permet de partager un même nombre de gaussiennes entre un grand nombre de contextes. Des arbres de décision ont été développés pour les différentes langues d'intérêt, contenant environ 150 questions concernant la position du phone dans le mot, les traits distinctifs du phone (et leurs identités) ainsi que les phones voisins.
Les objectifs de nos travaux récents sont d'une part le développement de modèles acoustiques pour un décodeur rapide et d'autre part l'amélioration de la généricité et de la portabilité de ces modèles (dans le contexte du projet Coretex). Les meilleurs modèles ont généralement un grand nombre de paramètres et nécessitent une puissance de calcul importante, mais ces modèles étant précis, il est possible de réduire le nombre d'hypothèses à évaluer et de réduire le coût global du décodage. Pour chaque point de fonctionnement, le bon équilibre entre la complexité des modèles et le nombre d'hypothèses développées doit être déterminé afin d'optimiser le fonctionnement du décodeur. Afin d'évaluer la généricité des modèles acoustiques, nous avons étudié pour plusieurs tâches l'impact du corpus d'apprentissage sur les résultats de reconnaissance. On a pu observer que les modèles acoustiques entraînés sur les documents d'informations radio et TV ont un degré élevé de généricité.
Parmi les coûts engendrés par le développement d'un système de transcription automatique, celui correspondant à l'acquisition et l'annotation du corpus nécessaire au développement des modèles acoustiques est souvent cité parmi les plus élevés. Certaines sources, telles que radios et télévisions, peuvent fournir une quantité quasi illimitée de données acoustiques ; cependant, il n'existe pas, pour la très grande majorité de ces données, de transcription de qualité suffisante. Nous étudions des méthodes moins dépendantes de la disponibilité des données transcrites manuellement pour la construction de modèles acoustiques, c'est-à-dire la possibilité d'utiliser pour l'apprentissage des modèles acoustiques des données transcrites à faible coût. L'idée principale est d'utiliser un système de reconnaissance initial, afin de produire des transcriptions automatiques des données d'apprentissage. En augmentant progressivement le volume de données ainsi transcrites, de meilleurs modèles peuvent être estimés et ensuite utilisés pour la transcription de nouvelles données. Cette procédure est initialisée en utilisant des modèles acoustiques entraînés sur une heure de données transcrites manuellement. Les résultats obtenus en utilisant environ 500 h de données transcrites automatiquement sont comparables (moins de 10% d'augmentation relative du taux d'erreur) à ceux obtenus en utilisant des modèles acoustiques entraînés sur 200 h de données transcrites manuellement. Cette nouvelle approche permet de réduire significativement les coûts de développement et de portage des systèmes de reconnaissance à d'autres langues.
Les très grands volumes de données audio peuvent également servir à des études plus linguistiques concernant les prononciations et les phénomènes de brouillon oral. Le système de reconnaissance peut être configuré pour extraire ces phénomènes particuliers : schwa, liaisons, réductions, hésitations, fragments. Des analyses semi-automatiques de très grands corpus sont en cours, afin de mieux modéliser la parole spontanée. En effet dans la parole conversationnelle l'articulation s'écarte de manière significative d'une articulation complète et le modèle de mot obtenu par concaténation de phonèmes est souvent pris en défaut.
Une revue approfondie des méthodes d'analyse des signaux sonores qui est continûment mise à jour est accessible en ligne sur le site Internet du laboratoire à l'adresse http://www.limsi.fr/tlp/monography.html.
· Modélisation lexicale : La modélisation lexicale consiste à définir un vocabulaire et à associer une ou plusieurs transcriptions phonémiques à chaque entrée lexicale. Le choix des unités lexicales (en collaboration avec le thème 2) repose sur différents critères : les unités doivent pouvoir être extraites automatiquement à partir de corpus de textes ou de parole transcrite ; pour une taille de lexique donnée, le choix des unités doit optimiser le taux de couverture pour la langue ou le langage de l'application considérée. La définition d'unité lexicale peut donc être plus ou moins difficile suivant la nature des textes et la langue traitée, et le choix peut être motivé par les prononciations observées. Une suite de mots peut être regroupée en une seule entrée lexicale si elle admet de fortes réductions de prononciation. Ce dictionnaire permet d'expliciter des variantes non représentées implicitement dans les modèles. Une question, qui reste posée dans la communauté scientifique, concerne l'adjonction de variantes de prononciations dans le dictionnaire. Quelles variantes ajouter et lesquelles omettre? Ajouter un grand nombre de variantes sans pondération par leur fréquence d'observation nuit aux performances de reconnaissance. Pour mesurer l'occurrence de variantes dans de grands corpus nous avons fait des études d'alignement automatique de textes lus et de parole spontanée utilisant des dictionnaires à fort taux de variantes. Toutes les configurations testées en anglais et en français, avec des modèles acoustiques indépendants et dépendants du contexte, ont montré que le besoin en variantes dépend de la configuration du système et qu'il décroît significativement avec une précision accrue des modèles. Les techniques développées pour ces études permettent l'analyse linguistique de grands corpus de parole et contribuent ainsi à accroître nos connaissances sur le langage parlé, en particulier les variantes associées aux différents styles d'élocution, les phénomènes d'hésitations et les accents.
Nous travaillons dans un cadre multilingue qui nous permet de valider la généricité des approches de modélisation. Une des parties les plus sensibles au changement de langue concerne le dictionnaire de prononciation. En mandarin, le vocabulaire comprend un mélange de mots et de caractères syllabiques permettant une couverture presque totale de la langue. Le dictionnaire de prononciation inclut une représentation simplifiée de trois niveaux de tons. Pour l'arabe se pose le problème de la voyellisation : alors que les voyelles sont en général omises dans l'écriture, elles sont bel et bien présentes dans la parole. Les voyelles peuvent être déterminées automatiquement à partir de corpus transcrits et de dictionnaires de prononciation admettant les trois voyelles comme variantes. Pour l'allemand, nous avons développé un algorithme de décomposition à partir de corpus en utilisant un facteur de branchement de caractères dans des arbres lexicaux. La décomposition des mots allemands permet d'améliorer la conversion graphèmes-phonèmes et donc les dictionnaires de prononciation, et la couverture lexicale, qui est significativement plus faible en allemand qu'en français ou en anglais.
Thème 2 : Modélisation linguistique
G. Adda, H. Schwenk, M. Adda-Decker, A. Allauzen, L. Chen, J.L. Gauvain,
V. Gendner, L Lamel,
Y.Y. Lo, J. Mariani, D. Mas,
Y. Quintin de Kercadio
Dans ce thème, à la frontière entre le traitement de l'écrit et celui de l'oral, nous développons des méthodes et des outils de modélisation de la langue, pour des systèmes de transcription ou d'indexation de la parole.
Le modèle du langage permet d'intégrer dans le système de reconnaissance une mesure de la pertinence lexicale, syntaxique et sémantique des mots et des phrases qui sont reconnus. Nous abordons la modélisation du langage en utilisant le mot langage selon deux de ses acceptions : dialecte (français, anglais, etc), mais aussi type de langage (parole conversationnelle, spontanée, préparée, etc).
Nous développons des systèmes dans de nombreuses langues (français, anglais, allemand, espagnol, portugais, arabe, mandarin,...), et pour chaque langue il est nécessaire de se procurer des textes, qui sont le matériau permettant l'estimation des modèles de langage. Afin que ce texte soit utilisable, il est nécessaire de le normaliser, c'est-à-dire de définir quelle sera l'unité retenue (répondre à la question "qu'est-ce qu'un mot ? "), puis d'estimer au mieux les distributions de ces unités dans les textes. Cette normalisation doit être cohérente également suivant la source des textes (rapports médicaux, journaux, magazines, transcriptions manuelles d'émissions radio et télédiffusées, et textes issus du Web), elle-même dépendante du type de langage que l'on désire traiter.
Nous l'avons déjà suggéré, le modèle linguistique à employer dépend fortement du type de langage. Ces dernières années nous nous sommes focalisés sur la transcription de deux types de parole : les émissions d'informations radio-télédiffusées et les conversations téléphoniques. Dans les deux cas, nous utilisons la même méthodologie : nous sélectionnons une liste de mots, qui représente le lexique du système, afin de minimiser le nombre de mots hors-vocabulaire ; nous construisons des modèles de types n-gramme (où n = 3 ou 4) sur différents textes, puis nous interpolons ces modèles individuels. La nature fondamentalement différente de ces deux paroles, implique des problèmes différents, qui sont traités avec des approches différentes.
- Parole publique : Les émissions d'informations radio-télédiffusées sont un exemple d'une parole « publique » : les différents locuteurs savent qu'ils ont des auditeurs en nombre très important, suffisamment important pour qu'ils ne puissent pas faire d'a priori sur leur niveau d'instruction, la familiarité avec le sujet abordé, la région (et donc l'accent) de provenance, etc. De plus, les locuteurs interviennent pour dire quelque chose aux auditeurs, afin de faire passer un « message » ; ils vont donc s'efforcer de parler le mieux possible, en utilisant une syntaxe la plus correcte possible. Suivant leur familiarité avec les techniques de communication, leurs discours sera plus ou moins proche avec cet idéal d'universalité de compréhension, mais on peut cependant espérer dans la parole publique une qualité moyenne (au niveau linguistique) assez élevée. Les interventions du présentateur d'un journal télévisé, sont un paradigme de la parole publique : le présentateur aura préparé son intervention en prenant des notes sur ce qu'il va dire, voire l'aura entièrement écrit : cette parole sera donc linguistiquement très proche de l'écrit.
De par leur proximité avec le langage écrit, nous utilisons de nombreuses sources de texte pour la modélisation linguistique de la parole publique des émissions d'informations radio-télédiffusées : dépêches d'agence, journaux écrits, textes issus du Web, transcriptions d'émissions, synopsis, sous-titres, etc. Les tailles disponibles (par exemple plus de 1,5 Gigamots pour l'anglais-américain) font que la modélisation statistique peut être réalisée avec une bonne fiabilité.
La difficulté de la modélisation linguistique réside pour cette parole, dans sa richesse informationnelle. L'actualité journalistique décrit des événements nouveaux et peut aborder des thèmes inabordés jusqu'alors, restant ensuite dans l'actualité pendant un temps très variable. Cette nouveauté se traduit par de nouveaux mots (néologismes, noms propres), mais aussi de nouvelles tournures ; il est donc nécessaire de disposer de textes toujours récents pour adapter les modèles de langage, ou d'adapter dynamiquement les modèles en cours de reconnaissance. Ces deux voies d'adaptation sont explorées.
Dans la première, on adapte les lexiques et les modèles de langage à l'aide de textes issus du Web collectés quotidiennement. Différentes méthodes d'adaptation du lexique ont été étudiées : une méthode vectorielle, qui optimise la couverture lexicale par combinaison linéaire des fréquences suivant les sources, et une méthode heuristique, où les mots à inclure sont choisis en fixant des seuils sur leur fréquence d'occurrence. Les deux méthodes, combinées avec une adaptation du modèle de langage à l'aide des textes issus du Web, permettent de diminuer significativement le taux d'erreur, mais mettent en évidence l'importance pour les méthodes d'adaptation, de disposer d'un corpus de développement réellement représentatif de la tâche.
La deuxième voie n'utilise pas de textes pour modifier a priori le modèle de langage, mais elle se fonde sur la transcription issue de la reconnaissance, pour modifier dynamiquement le modèle de langage (le vocabulaire n'est donc pas adapté). On désire ainsi rapprocher le modèle de langage général du sujet ou thème qui est abordé. L'adaptation non-supervisée en utilisant directement les transcriptions issues de la reconnaissance conduit à des gains aléatoires, à cause du faible volume de données et du bruit causés par les erreurs de reconnaissance. La méthode utilisée, inspirée des techniques de recherche d'information, utilise la transcription comme une requête pour extraire des textes en rapport avec le sujet contenu dans celle-ci ; pour se faire, la transcription est segmentée automatiquement en histoire ne contenant qu'un seul sujet. L'adaptation se fait ensuite en utilisant ces textes extraits, qui ont l'avantage d'avoir une taille plus conséquente, et d'être exempts d'erreurs. L'application de cette méthode a permis de réduire, pour le mandarin et l'anglais-américain, la perplexité et le taux d'erreur de mots.
Les taux d'erreur qui peuvent être obtenus sur la transcription d'informations radio-télédiffusées sont maintenant suffisamment bas pour mettre en évidence des problèmes liés à la modélisation de type n-gramme ; une étude sur la reconnaissance de français lu fait apparaître que la moitié des erreurs est liée à une confusion entre 2 homophones ne se distinguant que par le genre, le nombre, la personne, le temps ou le mode : les confusions morphologiques génèrent une combinatoire où les modèles de type n-gramme de mots, tributaires d'occurrence explicite des combinaisons valides dans les données d'apprentissage, se révèlent souvent incapables de respecter ces dépendances à distance. L'ajout de connaissances explicites, par le biais d'un modèle 5-gramme de classes morpho-syntaxiques permet de réduire le taux d'erreur de mots.
- Parole privée : Dans une parole conversationnelle, le locuteur ne veut être compris que d'un seul auditeur, qui de plus interagit avec lui, afin de lui faire savoir s'il a compris ou non : il s'agit d'une parole « privée ». Dans ces conditions, on observe (tant que l'auditeur ne proteste pas ...), une dégradation de la qualité de prononciation et de la syntaxe, une tendance à augmenter le débit qui conduit à des prononciations très réduites, ainsi que la production de phénomènes typiques de l'oral spontané (reprises, hésitations) qui perturbent encore plus la syntaxe. Le problème ici n'est pas un problème d'adaptation à un sujet fluctuant, mais plutôt le manque de données d'apprentissage, les seules données réellement proches de cette parole étant constituée de transcriptions de conversations. Pour pallier ce problème, nous nous sommes focalisés sur la manière de mieux utiliser le peu de données disponibles.
La représentation habituelle des mots dans un espace discret rend difficile la généralisation à des contextes non-observés, puisqu'une interpolation dans un espace discret est par nature délicate. Ceci est en particulier un problème pour la modélisation de la parole conversationnelle où les transcriptions de vraies conversations, très coûteuses, ne sont disponibles qu'en quantité limitée (moins de 5 millions de mots pour l'anglais-américain, représentant environ 350 heures de parole). Nous avons développé un modèle de langage connexioniste afin de remédier à ce problème. L'idée de base est de traiter la tâche d'estimation des n-grammes dans un espace continu. Pour cela, chaque mot est projeté dans un espace vectoriel de dimensions 40 à 100, la probabilité d'un mot en contexte étant ensuite estimée à partir de cette représentation. L'utilisation d'un réseau de neurones permet d'apprendre conjointement la projection et l'estimation des densités. Cette approche a été incorporée dans notre système de reconnaissance de la parole conversationnelle qui a participé avec succès aux évaluations organisées par le NIST et DARPA. Nous avons pu obtenir des réductions significatives de la perplexité et du taux d'erreur de mots par rapport à un modèle de langage à repli soigneusement optimisé. L'intérêt du modèle de langage neuronal ne se limite pas à une meilleure utilisation d'une quantité limitée de données d'apprentissage : la représentation continue des mots permet aussi d'envisager plusieurs extensions intéressantes. Nous travaillons en particulier sur de nouvelles techniques d'adaptation non-supervisée qui visent à transformer les mots dans cet espace continu, par exemple pour approcher des mots qui apparaissent souvent dans les mêmes contextes dans une conversation.
- Au-delà du modèle de langage : La modélisation linguistique ne s'arrête pas au modèle de langage utilisé lors de la reconnaissance ; en effet, suivant les applications, un traitement linguistique supplémentaire doit se faire sur la sortie de reconnaissance. Parmi ces applications nous pouvons citer l'indexation et l'alerte (détection et suivi de thèmes).
En 2001 et 2002, nous avons participé aux campagnes organisées par le NIST sur la détection de thèmes dans des textes et des documents audio, pour lesquelles nous avons développé un système reposant sur des modèles de langage unigrammes. Afin de pallier le manque de données nécessaires pour estimer de manière fiable les modèles, nous avons utilisé des techniques d'enrichissement de documents, en conjonction avec des techniques d'adaptation dynamique non supervisée. Afin de segmenter les documents, nous avons utilisé une technique de fenêtres glissantes. Ces techniques sont indépendantes de la langue et ont été testées sur l'anglais américain, l'arabe et le mandarin. En combinant l'enrichissement de documents et l'adaptation non-supervisée, nous avons pu réduire le coût de suivi de thème de 40%.
Dans ces applications mentionnées, les termes utilisés pour indexer le document ou identifier le thème sont les mots (ou leur racine). Nous explorons la possibilité d'utiliser comme terme des expressions désignant un individu, un lieu, un événement, une date ou une donnée numérique. Plusieurs approches pour l'identification de ces expressions (appelées entités nommées), la première purement probabiliste, la seconde utilisant une grammaire d'automates, et la troisième un étiquetage en partie du discours, ont obtenu des résultats comparables sur un corpus de transcription d'informations radio et télédiffusées.
Thème 3 : Systèmes de reconnaissance et dialogue
J.-L. Gauvain, G. Adda, M.
Adda-Decker, C. Barras, F. Becquet, E. Bilinski, L. Devillers, O. Galibert,
J.J. Gangolf, L. Lamel, F. Lefèvre, G. Le Péru, K. McTait, H. Maynard, S.
Rosset, H. Schwenk, I. Wilhem
Les activités de ce thème sont classées selon deux domaines de recherche : la transcription et la structuration de documents audio, et le développement de systèmes de dialogue. Ces recherches s'appuient sur les résultats des deux thèmes précédents et sont fortement liées à nos activités de valorisation.
- Transcription et structuration de documents audio : Un de nos objectifs est de développer des systèmes de transcription de la parole continue qui soient indépendants du locuteur et de l'application, et robustes aux conditions de prise de son. Ce travail est effectué dans un cadre multilingue sur des documents radio et télédiffusés : nous avons développé des systèmes de reconnaissance avec des vocabulaires de 65 000 mots pour l'anglais américain, l'allemand, le français, le mandarin, le portugais, l'espagnol et l'arabe. L'une des applications visées est l'indexation automatique de documents audiovisuels. L'automatisation de certaines de ces activités est nécessaire pour généraliser l'accès par le contenu aux documents audiovisuels. Parmi les applications existantes qui peuvent bénéficier de ces nouvelles technologies, on peut citer l'indexation de bibliothèques numériques multimédia (projet LE-4 Echo) et la pige des médias audiovisuels (projets LE-5 Alert et RNRT Theoreme), ainsi que quelques applications émergentes comme la diffusion sélective d'information et l'indexation de documents audiovisuels sur Internet (cf. projet RNTL Audiosurf).
Les documents audiovisuels sont particulièrement difficiles à transcrire car ils contiennent des segments de diverses natures acoustiques et linguistiques avec des transitions rapides ou graduelles. Ces conditions nous amènent à segmenter (automatiquement) le flux audio afin d'adapter les modèles à la nature des données (locuteur, bande passante, niveau et type de bruit, langue, musique, sujet, …). Cette segmentation constitue en outre un premier niveau de structuration du document. Nous avons développé un algorithme original qui effectue simultanément la segmentation et la classification des segments en modélisant le flux audio par un ensemble de sources multi-gaussiennes. Cette procédure, mise au point pour l'anglais, a été utilisée avec succès pour toutes les autres langues que nous traitons, mettant en évidence une relative indépendance par rapport à la langue.
Notre système de transcription d'émissions d'information en anglais américain a été classé au meilleur niveau lors des quatre dernières campagnes d'évaluation organisées par le Nist et Darpa. Dans le cadre de projets européens et d'un marché DGA, nous avons étendu ce système au français, l'allemand, le portugais et l'arabe avec des performances comparables à celles mesurées pour l'anglais. L'extension au mandarin et à l'espagnol a pu être effectuée grâce à la disponibilité de données audio et textuelles au LDC (Linguistic Data Consortium).
La nécessité de traiter de grandes quantités de données, nous a amené à développer des techniques de décodage toujours plus efficaces. Nous avons récemment développé un nouveau décodeur qui utilise un treillis de mots pour maximiser l'espérance du nombre de mots correctement reconnus. Cette approche permet de réduire sensiblement les taux d'erreurs par rapport au décodage de Viterbi utilisé précédemment. Il offre également la possibilité de réévaluer rapidement les hypothèses après avoir changé le modèle de langage ou le modèle acoustique, ce qui permet de réduire significativement le temps de décodage après adaptation des modèles. Ce décodeur a été utilisé lors des dernières campagne de tests de systèmes de reconnaissance organisées par DARPA. Il est à présent utilisé au LIMSI pour toutes les applications et les toutes les langues traitées.
Un démonstrateur d'un système de recherche dans des documents audio a été développé en combinant un système de transcription de documents audiovisuels et un système original de recherche d'information conçu spécifiquement pour des flux audio, en particulier dans le cas où les frontières de documents ne sont pas connues a priori. Les résultats expérimentaux sur environ 500 h indiquent que la qualité de la transcription automatique n'est pas un facteur limitant pour les techniques actuelles d'indexation (cf. thème 2). Ce système a été présenté lors de la conférence ACL en juin 2001 et a été exposé à la conférence IEEE ASRU en décembre 2001.
Nous étudions également le problème du filtrage de documents audio en fonction de thèmes prédéfinis. Cette problématique est traitée dans le cadre d'une convention DGA et du projet RNRT Theoreme. Ce travail a amené le laboratoire à participer à la campagne d'évaluation Darpa TDT 2001 sur la détection et le suivi de thèmes dans des documents audio et textuels. Le système du LIMSI a été classé premier lors de cette évaluation sur la tâche topic tracking. Nous avons également pris part à la campagne d'évaluation TDT 2002, pour laquelle le LIMSI a fourni les transcriptions des données au Linguistic Data Consortium (LDC) et à l'ensemble des participants.
Les documents audiovisuels disponibles sur Internet étant en général fortement compressés, nous avons mesuré l'impact de différentes techniques de compression de l'audio (MP3, RealAudio et GSM) sur le niveau de performance de nos systèmes. Ces expériences nous ont permis de conclure à la faisabilité de l'indexation de documents audio pour des débits supérieurs à 6.5kb/s. Nous avons donc entrepris de valider ce concept en indexant quotidiennement des documents audiovisuels, reprenant ainsi l'approche développée pour les documents textuels (cf. http://audiosurf.org/).
La reconnaissance du locuteur, comme la reconnaissance de la langue, est un axe de recherche complémentaire à la transcription automatique. Ses applications concernent bien sûr la sécurité et le contrôle d'accès, mais il s'agit aussi d'un élément important en indexation de documents multimédia, où l'on peut vouloir faire une recherche sur le locuteur autant que sur les mots prononcés. Le groupe a déjà par le passé fait des études approfondies sur ce thème. Des approches performantes ont récemment émergé en vérification du locuteur, basées sur une modélisation acoustique de la voix de chaque locuteur par une distribution par mélange de Gaussiennes (ou modèle GMM). Il s'agit en particulier de l'apprentissage des modèles des locuteurs cibles par l'adaptation MAP d'un même modèle générique, et de différentes techniques de normalisation du rapport de vraisemblance en utilisant des cohortes d'imposteurs. Nous avons mené des expériences sur des enregistrements de parole téléphonique, dans le cadre de l'évaluation organisée par NIST en reconnaissance du locuteur en 2002. Cela nous a permis de construire un système de reconnaissance du locuteur standard et performant, qui doit servir de base aux développements futurs et à l'intégration d'approches innovantes.
· Systèmes de dialogue : Dans les systèmes de dialogue oral, le but est d'interpréter les requêtes de l'utilisateur en fonction de la tâche et de l'état du dialogue pour lui donner les informations recherchées tout en assurant une interaction aussi conviviale qu'efficace. Les recherches spécifiques au dialogue oral portent sur la modélisation de la parole spontanée, la modélisation des processus de compréhension, la gestion du dialogue et l'intégration de la reconnaissance de la parole avec d'autres modalités telles que le toucher, le geste, et la synthèse de la parole.
La transcription produite par le système de reconnaissance est transmise au module d'interprétation littérale qui analyse la requête pour en extraire le sens. Pour la compréhension deux approches sont développées : une approche statistique s'appuyant essentiellement sur les données observées qui nécessite l'annotation de grandes quantités de données, et une approche par grammaire de cas qui nécessite l'écriture des règles d'interprétation à partir de connaissances linguistiques et des données observées. Un des objectifs des travaux actuels est d'aller vers une intégration des processus de reconnaissance et de compréhension en utilisant une modélisation stochastique commune.
Le rôle du gestionnaire de dialogue est de guider l'utilisateur afin qu'il fournisse l'information nécessaire à la construction des requêtes pour la base de données. Les réponses en langage naturel sont générées à partir du schéma sémantique et de l'information extraite de cette base de données.
Notre objectif est un taux élevé de dialogues réussis avec une structure de dialogue très ouverte, laissant l'utilisateur libre de s'exprimer comme il le souhaite. La stratégie de dialogue dépend des caractéristiques et fonctionnalités voulues par le concepteur mais doit aussi prendre en compte les contraintes spécifiques au dialogue oral que sont la parole spontanée et les erreurs de reconnaissance. Le gestionnaire de dialogue utilise des informations statiques (connaissances linguistiques et pragmatiques, connaissances sur le domaine, modèle de la tâche et modèle de dialogue) ainsi que des connaissances dynamiques (historique du dialogue, états successifs du dialogue et parcours dans la tâche).
Nous avons développé et évalué des systèmes de dialogue pour des renseignements ferroviaires et la domotique dans le cadre de plusieurs projets européens. La société Vecsys développe actuellement des prototypes industriels de serveurs téléphoniques pour différents clients à partir de nos travaux. Dans le cadre du projet Amitiés, une annotation de grands corpus de dialogue homme-homme et homme-machine sur différents niveaux (lexical, thématique, sémantique, dialogique, émotion/attitude) pour différentes langues (anglais, américain et français) et dans différents domaines d'application (services financiers de prêts bancaires, service boursier et assurance) est en cours. Ces différentes structures d'annotation ont été validées par des études portant sur l'accord inter-annotateur. Nous étudions également les corrélations existantes entre ces différents niveaux d'analyse. L'objectif est de proposer des modélisations s'appuyant sur ces données et permettant l'adaptation des systèmes à de nouvelles langues et à de nouvelles tâches. Nous allons également vers une augmentation des capacités d'adaptation dynamique des stratégies de dialogue en modélisant le comportement des utilisateurs.
Nous travaillons également au développement de portail expérimental multi-tâches. Ceci nous conduit à intégrer et utiliser des approches développées dans le cadre de nos recherches portant sur la structuration de documents audio notamment pour l'annotation automatique en thèmes. Il s'agit dans ce cas d'identifier aussi rapidement que possible (si possible dès le premier échange) l'objet de l'appel de façon à pouvoir orienter l'utilisateur vers le service (automatique ou non) adéquat. Un serveur permettant de contacter quatre services différents est en cours d'expérimentation.
Une étude sur la détection des émotions dans des dialogues a été entreprise dans le cadre du projet européen Amitiés. Nous travaillons à l'analyse des indices porteurs d'émotions dans des corpus dialogiques homme/homme enregistrés par téléphone. La présence d'émotions dans les corpus a été validée par des tests perceptifs. Les indices considérés se situent aussi bien au niveau lexical que syntaxique et prosodique. Les travaux effectués ont porté sur trois volets, le développement d'un protocole de validation perceptive des émotions pour l'annotation des corpus, la détection d'indices lexicaux, et la détection d'indices prosodiques. Ce travail fait l'objet d'une collaboration avec le LTCI (I. Vasilescu).
Dans le cadre du programme interministériel Technolangue, nous avons initialisé et participé au montage du projet Media sur l'évaluation de la compréhension hors et en contexte du dialogue. Ce projet comporte deux volets : le développement de la méthodologie d'évaluation, et la campagne d'évaluation.
ENSEIGNEMENT ET DIFFUSION DES CONNAISSANCES (Période 2001-2002)
Participation à des comités éditoriaux
- M. Adda-Decker a été membre du comité scientifique de la conférence JEP'2002 et du workshop ISCA ITRW PMLA 2002. Elle est membre du comité de lecture de la revue « Traitement du Signal » (GRETSI).
- G. Adda a été membre du comité scientifique de la conférence Eurospeech'2001, reviewer de la conférence Coling 2002, membre du comité de lecture spécifique du numéro « Modélisation probabiliste du langage naturel » de la revue Traitement Automatique des langues
- J.L. Gauvain a été membre du executive program committee de la conférence "Human Language Technology 2001" (DARPA, NSF), membre du comité d'organisation du workshop IEEE ASRU'2001, et membre des comités scientifiques des conférences ISCA Eurospeech'2001, ITRW AMSR'2001, IEEE ICASSP'2001 et 2002, ICSLP'2002 et HLT'02. Il a été co-éditeur du numéro spécial "Advances in Large Vocabulary Speech Recognition" dans la revue Computer, Speech and Language (janvier 2002). Il est membre du comité scientifique de la revue « Annales des Télécommunications ».
- L. Lamel est membre élue du permanent council of ICSLP (1998-2006). Elle a été membre du comité scientifique du workshop HLT'2001 et des conférences Eurospeech'2001, RANLP'2001,et LREC'2002. Elle est membre du comité éditorial de la revue Speech Communication. Elle a été co-éditeur du numéro spécial dans Speech Communication sur la transcription de données audiovisuelles (Broadcast News Transcription, mai 2002) et dans la revue Computer, Speech and Language sur "Advances in Large Vocabulary Speech Recognition," (janvier 2002).
- F. Lefèvre a été membre du comité scientifique de la conférence JEP'2002.
- J.J Mariani est membre des comités éditoriaux des journaux "European Student Journal on Language and Speech'' et "International Journal of Speech Technology'', et de la série d'ouvrages "Text, Language and Speech Processing'' (Kluwer Academic Press). Il a été membre du comité éditorial de l’ouvrage « Spoken multimodal human-computer dialogue in mobile environment » (Kluwer Academic Press, 2003). Il a coordonné la rédaction de l'ouvrage "Traitement du Langage Parlé", paru en deux volumes (« Analyse, Codage et Synthèse » et « Reconnaissance ») chez Hermès en juillet 2002. Il a co-organisé le "Bullet Course on Language Technologies Evaluation'' (Paris, Juillet 2001) et le Workshop "Evaluation for Language and Dialogue Systems'' (Toulouse, Juillet 2001). Il a été ou est membre des Comités de Programme des conférences ICUST'01 et ICUST'02 (Usage des Télécommunications), SITEF'02 (Innovation, Toulouse, Octobre 2002), LREC'02 "Language Resources and Evaluation'' (Las Palmas, Mai 2002) et LREC’04 (Lisbonne, Mai 2004), LangTech'02 (Berlin, Octobre 2002) et LangTech’03 (Paris, Novembre 2003). Il a été membre des Comités Scientifiques des conférences ISKO'01, IJCAI'01, IDS'02, HLT'02, ETRW « Spontaneous speech processing and recognition » (2003), ETRW « Auditory quality of systems » (2003), de l’International Advisory Committee de la conférence « International Joint Conference on Natural Language Processing » (IJCNLP) (Hainan Island, Mars 2004) et du Comité de Programme de l’Elsnet Summer School 2002 « Evaluation and Assessment of Text and Speech Systems » (Odense, Juillet 2002).
- H. Maynard a été membre du comité scientifique de la conférence ISCA ICSLP 2002
- S. Rosset a été membre du comité scientifique du workshop ISCA « Error Handling in Spoken Dialogue Systems » en 2002 , membre du comité de lecture spécifique du numéro « Modélisation probabiliste du langage naturel » de la revue Traitement Automatique des langues .
Activités ou responsabilités d’enseignement liées à la Recherche
- DEA d'Electronique "Systèmes Electroniques de Traitement de l'Information" du département de Physique de Paris XI, module "Traitement du Signal de Parole" (H. Schwenk)
- DEA "Sciences cognitives" du département d'Informatique de Paris XI (L. Devillers, H. Schwenk)
- DEA I3, Dialogue oral homme-machine, Paris XI (L. Devillers, H. Schwenk)
- DESS "Systèmes et Communication Homme-Machine" du département d'Informatique de Paris XI, cours sur le traitement de la parole (L. Devillers, F. Lefèvre, H. Schwenk), cours sur le traitement statistique de l'information (C. Barras, H. Schwenk), étude de cas "Système d'interrogation vocale du WEB" (F. Lefèvre, H. Schwenk).
- ENSTA à Paris, 3ème année du cycle d'ingénieur, module "Traitement de la parole" (M. Adda-Decker, L. Devillers, C. Barras, H. Schwenk)
- Maîtrise d'informatique de Paris XI, travail d'étude et de recherche sur la segmentation vidéo pour l'indexation (C. Barras), et sur la reconnaissance de la parole (H. Schwenk)
- FIIFO (formation d'ingénieurs de Paris XI), 4 ème année, spécialisation Interface Homme-Machine, cours sur la reconnaissance automatique de la parole (C. Barras)
- ENST, 3 ème année du cycle d'ingénieur, brique TAPE, « Dialogue oral homme-machine, compréhension et gestion du dialogue » (H. Maynard).
RELATIONS NATIONALES ET INTERNATIONALES (Période 2001-2002)
Responsabilités institutionnelles et scientifiques
- M. Adda-Decker a été membre élu au bureau du Groupe Francophone de la Communication Parlée (GFCP) de la SFA jusqu'en décembre 2001. Elle est membre fondateur de la nouvelle Association Francophone de la Communication Parlée (AFCP). Elle est membre suppléant de la commission de spécialistes 27 ème section de Paris XI. Elle est expert auprès de la CEC pour les projets dans le cadre du FP5.
- G. Adda a été membre nommé de la commission administrative paritaire des techniciens du CNRS.
- L. Devillers est membre de la commission de spécialistes 27 ème section de Paris XI.
- J.-J. Gangolf. a été membre nommé de la commission administrative paritaire des techniciens du CNRS.
- J.L. Gauvain est membre élu du "IEEE Speech Technical Committee" (1998-2002) et un membre du "Darpa EARS (Effective Affordable Reusable) Speech-to-Text Transcription committee. Il est vice-président de la commission de spécialistes 27 ème section de Paris XI.
- L. Lamel a été expert auprès du Research Grants Council of Hong Kong (2001, 2002), membre du EU-NSF Working Group for Spoken-Word Digital Audio Collections, (Delos Network of Excellence) et membre du International advisory group of the Swedish National Graduate School of Language Technology (2002-2005).
- F. Lefèvre a été membre du comité du Groupe Francophone de la Communication Parlée (GFCP) de la SFA jusqu'en décembre 2001. Il est membre fondateur et membre du conseil d'administration de l'Association Francophone de la Communication Parlée (AFCP), (Special Interest Group de l'International Speech Communication Association)
- J. Mariani : depuis la fin de ses fonctions de directeur du Limsi au 31.12.2000, J. Mariani est directeur du département "Technologies de l'Information et de la Communication" au Ministère délégué à la Recherche et aux Nouvelles Technologies (Direction de la Technologie). Il est également co-responsable de l'Action VENISE (Virtualité et Environnement Immersif pour la Simulation et l'Expérimentation), transversale à l'ensemble du LIMSI. Dans la période 2000-2003, il est ou a été membre du Conseil Scientifique du CNRS, de la Commission Paritaire CNRS "Chargés de Recherche", du Comité Editorial du Journal du CNRS et du comité de pilotage Xlab; membre du Comité d'Evaluation de l'INRIA et du Comité de Pilotage de l'action "Corpus du Français Contemporain" de la Délégation Générale à la Langue Française et aux Langues de France; coordonnateur du réseau Francophone d'Ingénierie de la Langue de l'AUF (1994-2001); membre de la Commission de Spécialistes en "Informatique et Mathématiques" de l'Université de Corté et en "Informatique et Linguistique" de l'ENS Lyon, membre des Comités Scientifiques des laboratoires LIA, SPE, UTC-Costech, et des Conseils Consultatifs de l'Association Francophone de la Communication Parlée (AFCP), de l'Association des Professionnels de l'Ingénierie de la Langue (APIL) et de l'Association pour l'Evaluation en Linguistique (Evaling). Dans le cadre de ses fonctions au Ministère délégué à la Recherche et aux Nouvelles Technologies, il est ou a été membre du Conseil d'Administration de l'Agence Nationale des Fréquences (ANFr), de l’Observatoire des Sciences et Techniques (OST), du Conseil d'Ecole de l'ENST-Paris et du Comité de Direction de Sup'Elec, du Comité d’Evaluation du CEA-LETI et des programmes "Systèmes de renseignement et d'observation" et "Techniques spatiales" de la DGA/DCE, correspondant du Programme d'Action Gouvernemental pour la Société de l'Information (PAGSI) auprès du Premier Ministre et membre des Bureaux Exécutifs des Réseaux de Recherche et d'Innovation Technologiques RNRT (Télécommunications), RNTL (Technologies du Logiciel), RMNT (Micro et Nanotechnologies), RIAM (Audiovisuel et Multimédia). Il est membre des comités de pilotage des actions « Techno-Langue », « Techno-Vision », « Nanosciences », « Usages de l’internet », « Réseau de grandes centrales de micro et nanotechnologies », « Système d’information intégré pour la recherche technologique ». Au plan international, il est ou a été également membre de l'European Network Policy Group (ENPG), président de l'European Language Resources Association (ELRA) et membre du bureau de l'European Language and Speech Network (Elsnet), membre des Advisory Committees de l'International Speech Communication Association (ISCA), du Comité international de coordination sur les ressources vocales et l'évaluation (Cocosda), du programme américain ``Translingual Information Detection, Extraction and Summarization'' (TIDES), du projet NSF ``Distributed Science and Technology Centers'' (Rutgers University), du Bavarian Archives of Speech Institute (BAS, Munich), du programme national hollandais NWO sur le dialogue, du laboratoire CTT (Stockholm), du programme néerlandais SPEX, du programme américain NSF/ITR MALACH (« Multilingual access to large spoken archives »), du Comité ISO/TC 37/SC 4 « Language Resource Management » et de l’Austrian Academy Corpus. Il a été referee pour des universités ou des centres de recherche (CEA, MIT, Carnegie Mellon University, EPFL, Université de Cambridge, Université d’Edimbourg, Université de Louvain).
- H. Maynard est membre élu du département recherche de l'UFR d'informatique.
- H. Schwenk est membre élu du département recherche de l’UFR d’informatique depuis septembre 2001. Il a été co-responsable du DESS « Communication Homme/Machine » jusqu’en septembre 2002.
Conventions de recherche et contrats
L'approche prédominante en matière de traitement automatique du langage parlé repose sur une modélisation statistique du processus de génération de la parole et nécessite de grandes quantités de données collectées en conditions réelles (essentiellement dans le cadre d'applications). Ce type de recherche nécessite des moyens matériels et humains importants, en particulier pour collecter les données. C'est la raison pour laquelle nombre de nos activités de recherche sont liées à des ressources contractuelles offrant les moyens et un cadre applicatif propices à la valorisation de ces activités. Voici la liste des projets actifs en 2001 et 2002 :
- Marché DGA (2000-2002) -- "Indexation d'émissions multilingues", (Les documents traités sont principalement des journaux radio et télédiffusés, et les langues d'intérêt sont le français, l'allemand et l'arabe.)
- Projet RNRT Theoreme (2000-2002) -- "Thématisation par reconnaissance vocale des médias" (Développement d'un démonstrateur pour la thématisation automatique de la bande son d'un média audiovisuel pour des applications de pige d'informations.). Partenaires: Vecsys, MRIM-CLIPS, Secodip
http://www-mrim.imag.fr/projets/theoreme.php
- Projet STIC-SHS MIDL (2001-2003) -- "Modélisations pour l'identification des langues" en partenariat avec la DGA et le ILPGA (Institut de Phonétique).
- Projet EVALDA-MEDIA du programme interministériel Technolangue (2002-2004) -- « Evaluation de la compréhension hors et en contexte du dialogue » . Partenaires : LORIA, LIA, IRIT, Valoria, France Telecom, Telip
http://www.recherche/gouv.fr/technolangue/projet/projlabel.htm
- Projet RNTL Audiosurf (2002-2004) -- "Indexation Automatique et Recherche Intuitive dans des Documents Audio". Partenaires : Sinequa, Vecsys
http://www.industrie.gouv.fr/rntl/AAP2001/Fiches_Resume/AUDIOSURF.htm
- Projet Européen IST-HLT Alert (2000-2002) -- "Alert system for selective dissemination" (Développement d'une technologie associant reconnaissance de la parole, techniques de segmentation audio et vidéo, et techniques de recherche documentaire pour la pige des médias audiovisuels, la diffusion sélective d'information et la diffusion d'audiovisuel sur Internet.). Partenaires : U. Duisburg, Secodip, Observer, 4VDO, RTP, Vecsys, INESC http://alert.uni-duisburg.de/
- Projet Européen IST Echo(2000-2002) -- "European CHronicles On-line" (Développement d'une architecture flexible pour les archives audiovisuelles distribuées : extraction semi-automatique de méta-données, reconnaissance de la parole, interface multilingue, résumé automatique, etc.). Partenaires :IEI-CNR, CMU, Tecmatch, Eurospider, INA, Institut Luce, NAA http://pc-erato2.iei.pi.cnr.it/echo/
- Projet Européen IST-HLT Coretex (2000-2003) "Improving Core Speech Recognition Technology" (L'objectif de ce projet est l'amélioration de l'état de l'art en matière de reconnaissance automatique de la parole en s'intéressant essentiellement aux aspects suivants : généricité, adaptabilité et portabilité.). Partenaires : RWTH U. Aachen, ITC-IRST, U. Cambridge http://coretex.itc.it/
- Projet US-CE Amities (2001-2004) -- "Automated Multilingual Interaction with Information and Services" (Le consortium international du projet Amities, constitué de partenaires européens et américains, a pour objectif de développer des technologies fondées sur des approches empiriques, génériques et adaptatives pour construire des systèmes multilingues de dialogue oral homme-machine.). Partenaires : U. Sheffiled, Viel Capitol, GE Capital Service Centers, GE R&D, Vecsys, SUNY Albany, Duke U. http://www.dcs.shef.ac.uk/nlp/amities
- Projet Européen TC-STAR_P (2002-2003) -- "Technology and Corpora for Speech to Speech Translation" (Préparation du projet intégré TC-STAR sur les technolgies et les corpora pour la traduction parole-parole.).Partenaires : ELDA, IBM, ITC-irst, KUN, Nokia, NSC, RWTH, Siemens, Sony, TNO, Université de Karlsruhe, Université polytechnique de Catalogne http://www.tc-star.org
- Projet Darpa EARS -- "Effective, Affordable, Reusable Speech-to-Text". Partenaires : BBN, University of Pittsburgh, University of Washington http://www.limsi.fr/tlp/ears.html