Download Free Modeles De Langage Et Classification Automatique Pour La Reconnaissance De La Parole Continue Dans Un Contexte De Dialogue Oral Homme Machine Book in PDF and EPUB Free Download. You can read online Modeles De Langage Et Classification Automatique Pour La Reconnaissance De La Parole Continue Dans Un Contexte De Dialogue Oral Homme Machine and write the review.

La modélisation statistique de la parole spontanée dans la cadre d'une application de dialogue oral homme-machine doit s'accommoder d'une faible quantité de données d'apprentissage. L'utilisation de classes de mots se révèle alors bénéfique à plusieurs titres. Le premier intérêt est la réduction du nombre de paramètres mais cette thèse contribue à montrer que les classes peuvent permettre en outre de résoudre des problèmes plus larges de robustesse et d'adaptation des modèles de langage liés à l'évolutivité d'un systéme de dialogue. Ainsi, le présent travail porte à la fois sur la construction des classes de mots et sur l'exploitation qui peut en être faite. La seule utilisation de classes a priori n'est pas souhaitable pour modéliser la parole spontanée dont les particularismes dépassent bien souvent le cadre d'une description a priori. Les classes de mots construites automatiquement peuvent quant à elles capturer ces particularités mais les algorithmes classiques n'exploitent que des informations contextuelles extraites des données et souffrent donc du manque de données d'apprentissage. Cette thèse propose une voie médiane où les informations contextuelles et les informations a priori sont utilisées conjointement pour la construction des classes. Un nouveau cadre théorique est défini dont le principe est de pallier le manque de données par une exploitation accrue des données disponibles. Il en résulte des classes plus homogènes, pouvant refléter des propriétés d'ordre syntaxique ou sémantique selon les informations utilisées, tout en demeurant bien adaptées à la modélisation de la parole spontanée. Grâce à ces classes, le problème de l'ajout d'un mot dans le lexique peut être résolu efficacement
Les modèles de langage sont utilisés dans un système de reconnaissance de la parole pour guider le décodage acoustique. Les modèles de langage "n-grams" qui constituent les modèles de langage de référence en reconnaissance de la parole, modélisent des contraintes sur "n" mots à partir d'événements observés dans un corpus d'apprentissage. Ces modèles donnent des résultats satisfaisants car ils profitent d'une caractéristique commune à plusieurs langues qui exercent des contraintes locales fortes sur l'ordre des mots. Malheureusement, l'utilisation de ces modèles probabilistes est confrontée à plusieurs difficultés. Une faible quantité de données d'apprentissage est courante lors du développement de nouvelles applications de reconnaissance de la parole et entraîne l'estimation de modèles probabilistes peu robustes. Une autre difficulté vient de la longueur des contraintes modélisées : certaines contraintes linguistiques portent sur des distances supérieures aux capacités de modélisation des modèles "n-grams". Afin de pallier aux difficultés des modèles "n-grams", nous proposons d'utiliser plusieurs sources de connaissances "a priori". Nous proposons un modèle hybride qui combine un modèle de langage "n-gram" avec des grammaires régulières locales. Des connaissances "a priori" sont également exploitées pour la création de modèles de langage "n-grams" spécialisés et pour leur utilisation au cours d'un dialogue oral homme-machine. De même, l'analyse des caractéristiques des hypothèses issues de différents systèmes de reconnaissance utilise diverses sources de connaissances. Cette analyse permet de choisir l'hypothèse de reconnaissance la plus pertinente ou de rejeter l'ensemble des hypothèses proposées. Enfin, des connaissances "a priori" sont prises en compte pour élaborer des critères de consistance linguistique. Ces critères permettent de détecter certains types d'erreurs qui peuvent être corrigés à l'aide de modèles de langage très spécifiques, appelés modèles stratégiques
Le dialogue entre un homme et une machine n’est pas encore similaire au dialogue naturel entre deux humains. Des techniques issues de plusieurs disciplines sont appliquées avec une habileté croissante, pour une fluidité et un réalisme en progrès. Analyse linguistique, résolution des références, identification des actes de dialogue, des intentions de l’utilisateur, décision de la réaction du système et du message à produire en retour : autant d’étapes de traitement caractérisées chacune par des théories propres et des ressources spécifiques. Cet ouvrage synthétise les principaux problèmes posés par chaque étape de conception d’un système de dialogue homme-machine tout en proposant plusieurs pistes pour suivre la voie d’un dialogue en langage naturel. Il se fonde sur les expériences de recherche et les développements récents, avec des préoccupations recoupant celles des domaines de l’intelligence artificielle, du traitement automatique des langues, des interfaces homme-machine, comme les interfaces multimodales ou multimédias.
Les systèmes de dialogues oraux Homme-Machine sont des interfaces entre un utilisateur et des services. Ces services sont présents sous plusieurs formes : services bancaires, systèmes de réservations (de billets de train, d'avion), etc. Les systèmes de dialogues intègrent de nombreux modules notamment ceux de reconnaissance de la parole, de compréhension, de gestion du dialogue et de synthèse de la parole. Le module qui concerne la problématique de cette thèse est celui de compréhension de la parole. Le processus de compréhension de la parole est généralement séparé du processus de transcription. Il s'agit, d'abord, de trouver la meilleure hypothèse de reconnaissance puis d'appliquer un processus de compréhension. L'approche proposée dans cette thèse est de conserver l'espace de recherche probabiliste tout au long du processus de compréhension en l'enrichissant à chaque étape. Cette approche a été appliquée lors de la campagne d'évaluation MEDIA. Nous montrons l'intérêt de notre approche par rapport à l'approche classique. En utilisant différentes sorties du module de RAP sous forme de graphe de mots, nous montrons que les performances du décodage conceptuel se dégradent linéairement en fonction du taux d'erreurs sur les mots (WER). Cependant nous montrons qu'une approche intégrée, cherchant conjointement la meilleure séquence de mots et de concepts, donne de meilleurs résultats qu'une approche séquentielle. Dans le souci de valider notre approche, nous menons des expériences sur le corpus MEDIA dans les mêmes conditions d'évaluation que lors de la campagne MEDIA. Il s'agit de produire des interprétations sémantiques à partir des transcriptions sans erreur. Les résultats montrent que les performances atteintes par notre modèle sont au niveau des performances des systèmes ayant participé à la campagne d'évaluation. L'étude détaillée des résultats obtenus lors de la campagne MEDIA nous permet de montrer la corrélation entre, d'une part, le taux d'erreur d'interprétation et, d'autre part, le taux d'erreur mots de la reconnaissance de la parole, la taille du corpus d'apprentissage, ainsi que l'ajout de connaissance a priori aux modèles de compréhension. Une analyse d'erreurs montre l'intérêt de modifier les probabilités des treillis de mots avec des triggers, un modèle cache ou d'utiliser des règles arbitraires obligeant le passage dans une partie du graphe et s'appliquant sur la présence d'éléments déclencheurs (mots ou concepts) en fonction de l'historique. On présente les méthodes à base de d'apprentissage automatique comme nécessairement plus gourmandes en terme de corpus d'apprentissage. En modifiant la taille du corpus d'apprentissage, on peut mesurer le nombre minimal ainsi que le nombre optimal de dialogues nécessaires à l'apprentissage des modèles de langages conceptuels du système de compréhension. Des travaux de recherche menés dans cette thèse visent à déterminer quel est la quantité de corpus nécessaire à l'apprentissage des modèles de langages conceptuels à partir de laquelle les scores d'évaluation sémantiques stagnent. Une corrélation est établie entre la taille de corpus nécessaire pour l'apprentissage et la taille de corpus afin de valider le guide d'annotations. En effet, il semble, dans notre cas de l'évaluation MEDIA, qu'il ait fallu sensiblement le même nombre d'exemple pour, d'une part, valider l'annotation sémantique et, d'autre part, obtenir un modèle stochastique « de qualité » appris sur corpus. De plus, en ajoutant des données a priori à nos modèles stochastiques, nous réduisons de manière significative la taille du corpus d'apprentissage nécessaire pour atteindre les même scores du système entièrement stochastique (près de deux fois moins de corpus à score égal). Cela nous permet de confirmer que l'ajout de règles élémentaires et intuitives (chiffres, nombres, codes postaux, dates) donne des résultats très encourageants. Ce constat a mené à la réalisation d'un système hybride mêlant des modèles à base de corpus et des modèles à base de connaissance. Dans un second temps, nous nous appliquons à adapter notre système de compréhension à une application de dialogue simple : un système de routage d'appel. La problématique de cette tâche est le manque de données d'apprentissage spécifiques au domaine. Nous la résolvons en partie en utilisant divers corpus déjà à notre disposition. Lors de ce processus, nous conservons les données génériques acquises lors de la campagne MEDIA et nous y intégrons les données spécifiques au domaine. Nous montrons l'intérêt d'intégrer une tâche de classification d'appel dans un processus de compréhension de la parole spontanée. Malheureusement, nous disposons de très peu de données d'apprentissage relatives au domaine de la tâche. En utilisant notre approche intégrée de décodage conceptuel, conjointement à un processus de filtrage, nous proposons une approche sous forme de sac de mots et de concepts. Cette approche exploitée par un classifieur permet d'obtenir des taux de classification d'appels encourageants sur le corpus de test, alors que le WER est assez élevé. L'application des méthodes développées lors de la campagne MEDIA nous permet d'améliorer la robustesse du processus de routage d'appels.
Pour concevoir un système automatique (une "machine") capable de comprendre le langage naturel oral et de fournir des informations à un humain qui l'interroge, il est nécessaire, entre autres, de disposer d'analyses linguistiques reposant sur l'observation de dialogues authentiques. Quelles sont les différences observables dans le comportement langagier des humains lorsqu'ils se croient face à une machine et qu'ils subissent ses contraintes de compréhension ? Y a-t-il simplification et appauvrissement de leur langage face à un partenaire qu'ils considèrent comme "restreint" ? Existe-t-il des structures fondamentales inhérentes au dialogue finalisé, qui subsistent en toute situation. Autant de questions auxquelles les études linguistiques présentées ici tentent d'apporter une réponse, en se fondant sur un corpus recueilli en situation réelle, au Centre d'information et d'Orientation de l'Université de Paris V.
POUR AMELIORER L'EFFICACITE DES SYSTEMES DE COMPREHENSION-GESTION DE DIALOGUES ORAUX HOMME-MACHINE EN LANGUE NATURELLE, NOUS AVONS CHOISI D'ENRICHIR LES CONNAISSANCES ET LES INFORMATIONS MISES EN UVRE PAR CES SYSTEMES. AFIN D'ACCROITRE LA PRECISION DU DECODAGE ACOUSTICO-PHONETIQUE MULTI-LOCUTEURS (SPEAKER-INDEPENDENT) DE LA PAROLE CONTINUE, NOUS AVONS ANALYSE LES COMPETENCES D'UN EXPERT EN LECTURE DE SPECTROGRAMMES, PUIS FORMALISE ET INTEGRE LES CONNAISSANCES RECUEILLIES A UN SYSTEME EXPERT D'IDENTIFICATION PHONETIQUE. EN CE QUI CONCERNE LA PROSODIE, L'ETUDE D'UN CORPUS DE DIALOGUES ORAUX HOMME-MACHINE JOINTE A UNE DEMARCHE EMPIRIQUE NOUS A PERMIS DE LOCALISER SUR LE SIGNAL, AVEC UN TAUX D'ERREURS INFERIEUR A 10%, CERTAINES FRONTIERES ENTRE UNITES LEXICALES CONTIGUES. D'AUTRE PART, NOUS SOMMES PARVENUS A DETERMINER DES STRATEGIES DE DIALOGUE EFFICACES ET CONVIVIALES, GRACE A L'ANALYSE D'ENTRETIENS TELEPHONIQUES ENTRE UNE OPERATRICE EXPERIMENTEE ET LES USAGERS D'UN CENTRE DE RENSEIGNEMENTS. NOUS AVONS MONTRE AU TERME D'UNE EXPERIENCE CONTROLEE DE SIMULATION DE DIALOGUES ORAUX HOMME-MACHINE QUE LES RESULTATS DES ETUDES SUR LE DIALOGUE ORAL HOMME-HOMME S'APPLIQUAIENT A LA COMMUNICATION HOMME-MACHINE. ENFIN, NOUS PROPOSONS UNE ARCHITECTURE SPECIALISEE QUI FACILITE LA MISE EN UVRE DES CONNAISSANCES NECESSAIRES POUR COMPRENDRE ET GERER DES DIALOGUES ORAUX HOMME-MACHINE RELATIVEMENT COMPLEXES SUR LE PLAN COGNITIF. DANS LE TOME 1, NOUS PRESENTONS ET DISCUTONS NOTRE APPROCHE ET LES RESULTATS OBTENUS. LE TOME 2 REPRODUIT NOS PRINCIPALES PUBLICATIONS
Cette thèse concerne le problème de la compréhension automatique de la parole dans des applications acceptant de la parole téléphonique spontanée multilocuteurs. L'étude consiste en l'intégration de méthodes de classification automatique dans les processus de décodage et de compréhension de la parole. Nos travaux portent sur l'adaptation de ces méthodes, ayant obtenu d'excellents résultats sur le langage écrit, aux particularités des sorties d'un système de reconnaissance automatique de parole. La principale difficulté de traitement de ce type de données réside dans le caractere incertain des paramètres d'entrée des classifieurs. Parmi toutes les méthodes de classification existantes, nous avons choisi d'en utiliser trois. La première est à base d'arbres de décisions sémantiques, les deux autres, considérées par la communauté scientifique de l'apprentissage automatique parmi les plus performantes, sont des méthodes de classification à large marge : le boosting et les machines à support vectoriel. Une méthode d'étiquetage de séquences, les champs conditionnels aléatoires, est également étudiée et utilisée. Deux cadres applicatifs sont abordés : -PlanResto, application touristique de dialogue oral homme-machine, permet aux utilisateurs de formuler en langage naturel une demande concernant un restaurant sur Paris. La compréhension effectuée en temps réel consiste en la construction d'une requête à une base de données. L'accord consensuel des différents classifieurs est utilisé en tant que mesure de confiance ; -SCOrange, corpus de sondage téléphonique, vise à collecter les messages des utilisateurs de mobile exprimant leur satisfaction vis à vis du service client. La compréhension effectuée off-line consiste à évaluer les proportions des différentes opinions exprimées selon un thème et une polarité. Les classifieurs permettent d'extraire les avis des utilisateurs dans une stratégie visant à évaluer de manière fiable les proportions des opinions ainsi que leur évolution.
LE BUT DE CES TRAVAUX EST D'AMELIORER LES PERFORMANCES D'UN SYSTEME DE RECONNAISSANCE DE LA PAROLE POUR UNE TACHE DE DIALOGUE HOMME/MACHINE, EN CREANT DES MODELES DE LANGAGE ELABORES. J'AI ABORDE CE PROBLEME AVEC DES METHODES STATISTIQUES, QUI S'APPUIENT SUR LES TRANSCRIPTIONS ENREGISTREES PAR UN SYSTEME DE DIALOGUE EN FRANCAIS SPONTANE SUR LES SERVICES FERROVIAIRES. LA DIFFICULTE MAJEURE DE CETTE ETUDE EST QUE TOUTES LES POSSIBILITES DU LANGAGE NE SONT PAS REPRESENTEES DANS CES TEXTES. POUR ACCROITRE LA COUVERTURE DES MODELES IL EST NECESSAIRE DE GENERALISER LES OBSERVATIONS SANS PERDRE TROP DE PRECISION. POUR CELA, J'AI REGROUPE DES MOTS DANS DES CLASSES SUR UN CRITERE DE SIMILARITE FONDE SUR DES PROPORTIONS DE CONTEXTES COMMUNS. L'AVANTAGE DE CETTE METHODE EST LA REGULATION DE LA CLASSIFICATION PAR LE BIAIS D'UN SEUL PARAMETRE. L'UTILISATION DE CES CLASSES DANS LES MODELES DE LANGAGE REDUIT LES TAUX D'ERREUR EN SORTIE DU SYSTEME DE RECONNAISSANCE DE 2% RELATIF, CE GAIN ETANT DU A UNE BAISSE DES INSERTIONS. ENSUITE, JE ME SUIS PENCHEE SUR LA NECESSITE POUR LE SYSTEME DE DIALOGUE D'INTERAGIR EN TEMPS REEL. PLUS LE MODELE EST GRAND, PLUS LE TEMPS D'ESTIMATION DE LA SEQUENCE DE MOTS EST LONG. MAIS PLUS L'INFORMATION A CONSIDERER POUR PREDIRE UN MOT EST GRANDE, MEILLEURES SONT LES PERFORMANCES. POUR REALISER LE MEILLEUR COMPROMIS, J'AI REALISE DES CONCATENATIONS DE MOTS BASEES SUR LES FREQUENCES RELATIVES DES MOTS D'UNE SEQUENCE. L'ATOUT PRINCIPAL DE CETTE METHODE EST LA REGULATION DE LA TAILLE DU MODELE PAR RAPPORT AUX PERFORMANCES DU SYSTEME PAR LE BIAIS D'UN PARAMETRE. LES SCORES DE RECONNAISSANCE MONTRENT UN GAIN RELATIF DE 3%, LA DIMINUTION DES ERREURS ETANT LIEE A UNE BAISSE DES SUBSTITUTIONS. CES DEUX TYPES DE MODELES, AYANT DES STRUCTURES HETEROGENES, ONT ETE COMBINES. ON OBSERVE UN GAIN RELATIF DE 5% SUR LES ERREURS SUR LES MOTS, SUR LE DEVELOPPEMENT. LES RESULTATS SUR LE TEST ONT MONTRE UN APPORT EGAL A CELUI OBTENU AVEC LE MODELE AVEC DES CONCATENATIONS.
Actuellement, la plupart des systèmes de reconnaissance automatique de la parole (SRAP) sont basés sur des modèles de langage statistiques (MLS). Ces modèles sont estimés à partir d'ensembles d'observations. La mise en oeuvre d'un SRAP nécessite un corpus en adéquation avec le domaine de l'application. Or, à cause des difficultés posées par leur collecte, les corpora disponibles peuvent s'avérer insuffisants pour estimer correctement des MLS. Pour surmonter cela, on souhaite utiliser d'autres données et les adapter au contexte applicatif du SRAP afin d'améliorer les performances du systeme de dialogue correspondant. Dans ce cadre, nous avons défini et mis en oeuvre un nouveau paradigme : la représentation matricielle des données linguistiques. Cette approche, au centre de nos travaux; permet de nouveaux traitements des données linguistiques grâce à l'utilisation de l'algèbre linéaire. Par exemple, on peut définir une similarité sémantico-fonctionnelle entre plusieurs mots. En nous basant sur la représentation matricielle, nous avons étudié et mis au point plusieurs techniques d'adaptation selon plusieurs axes de recherche : Le filtrage des données : basé sur la technique des blocs minimaux. La transformation linéaire : par le calcul d’un opérateur algébrique transformant les données linguistiques. L'augmentation de données : technique réestimant les occurrences d'un mot observé en fonction de sa similarité avec d'autres mots. La combinaison sélective d'historiques : technique généralisant l'interpolation linéaire de différents modèles de langage. Combinaison de techniques : nous avons cherché les meilleures combinaisons. Les résultats expérimentaux obtenus nous donnent des améliorations relatives du taux d'erreur mot sous certaines conditions. En particulier, nos expériences montrent que l'augmentation de données et la combinaison sélective d'historiques, lorsqu'elles sont associées, donnent des résultats intéressants
Pour concevoir un système automatique (une "machine") capable de comprendre le langage naturel oral et de fournir des informations à un humain qui l'interroge, il est nécessaire, entre autres, de disposer d'analyses linguistiques reposant sur l'observation de dialogues authentiques. Quelles sont les différences observables dans le comportement langagier des humains lorsqu'ils se croient face à une machine et qu'ils subissent ses contraintes de compréhension ? Y a-t-il simplification et appauvrissement de leur langage face à un partenaire qu'ils considèrent comme " restreint " ? Existe-t-il des structures fondamentales inhérentes au dialogue finalisé, qui subsistent en toute situation ? Autant de questions auxquelles les études linguistiques présentées ici tentent d'emporter une réponse, en se fondant sur un corpus recueilli en situation réelle, au Centre de Renseignements de la S.N.C.F. à Paris.