Download Free Apprentissage Approximatif Et Extraction De Connaissances A Partir De Donnees Textuelles Book in PDF and EPUB Free Download. You can read online Apprentissage Approximatif Et Extraction De Connaissances A Partir De Donnees Textuelles and write the review.

La problématique de cette thèse est l'extraction de connaissances à partir de données textuelles (KDT) en se basant sur la théorie des ensembles approximatifs (RST) et l'apprentissage symbolique et numérique. Les contributions sont : (1) l'extension des espaces de versions (espaces de versions approximatifs (RVS)), (2) l'application des RVS au KDT, (3) la découverte et visualisation de graphes à partir de textes. Tout d'abord, nous définissons les espaces de versions approximatifs (RVS), en construisant des opérateurs d'approximation, ce qui aboutit à un cadre général pour l'apprentissage symbolique automatique. L'introduction de la notion de consistance approximative conduit à l'utilisation de concepts presque consistants avec les données. En pratique, cela a pour effet d'étendre l'interprétation des concepts lors de l'apprentissage, et de traiter les données inconsistantes à l'aide de regroupement des exemples...
L'objectif principal de cette thèse se focalise essentiellement sur la conception de nouveaux algorithmes d'apprentissage de réseaux Bayésiens, plus précis, plus efficaces, plus robustes en présence du bruit et, donc, plus adaptés aux tâches pratiques d'ECD. Partant de l'observation que la plupart des optima locaux dans l'espace des structures de réseaux bayésiens sont directement liés à l'existence des classes d'équivalence (ensembles de structures encodant les mêmes relations d'indépendance conditionnelle, représentées par des graphes semi-orientés), nous avons concentré une partie importante de nos recherches sur l'élaboration d'une nouvelle famille d'algorithmes d'apprentissage: EQ, qui explorent directement l'espace des classes d'équivalence, ainsi que sur le développement d'une "boîte à outils" théoriques et algorithmiques pour l'analyse et le traitement des graphes semi-orientés. Nous avons pu démontrer que les gains de précision significatifs apportés par ce type d'approche peuvent être obtenus tout en conservant des temps de calcul comparables à ceux des approches classiques. Ainsi, nous avons contribué au regain d'intérêt actuel pour l'apprentissage des classes d'équivalence de réseaux bayésiens (considéré pendant longtemps comme trop complexe par la communauté scientifique). Enfin, un autre volet de nos recherches a été consacré à l'analyse des effets du bruit présent dans les données sur l'apprentissage des réseaux Bayésiens. Nous avons analysé et expliqué l'augmentation de la complexité des réseaux Bayésiens appris à partir de données bruitées et montré que, contrairement aux sur-spécialisations classiques affectant les autres classes de méthodes d'apprentissage, ce phénomène est justifié théoriquement et bénéfique pour le pouvoir prédictif des modèles appris.
L'OBJECTIF PRINCIPAL DE CETTE THESE EST D'APPORTER DES ARGUMENTS, D'ORDRE THEORIQUE ET EXPERIMENTAL, POUR SOUTENIR L'INTERET DES METHODES D'APPRENTISSAGE SYMBOLIQUE DANS LA RECHERCHE EN COMMUNICATION PARLEE PROCHE DES SIGNAUX PHYSIQUES. DANS UN PREMIER TEMPS, NOUS PRESENTONS NOS CONTRIBUTIONS EN APPRENTISSAGE SYMBOLIQUE QUI VISENT A REPONDRE A CERTAINES PARTICULARITES DE CE DOMAINE. PMBC EST UN ALGORITHME ORIGINAL D'APPRENTISSAGE PAR GENERALISATIONS SUCCESSIVES DANS LES ESPACES NUMERIQUES, QUI COMBINE DES HEURISTIQUES ISSUES DE L'APPRENTISSAGE NON-SUPERVISE, DE LA CLASSIFICATION STATISTIQUE ET DE L'INDUCTION DE REGLES. L'ANALYSE THEORIQUE SUR LAQUELLE EST FONDE NOTRE DEUXIEME ALGORITHME, IDF, FOURNIT UNE EXPLICATION RIGOUREUSE ET DES PERSPECTIVES D'AMELIORATION DES HEURISTIQUES GENERALEMENT UTILISEES DANS L'INDUCTION D'ARBRES DE DECISION, NOTAMMENT DANS LE TRAITEMENT DES ATTRIBUTS NUMERIQUES. LES PERFORMANCES DE CES DEUX ALGORITHMES ONT ETE VALIDEES SUR UN GRAND NOMBRE DE BASES DE DONNEES UTILISEES GENERALEMENT POUR LA COMPARAISON DES RESULTATS D'APPRENTISSAGE. NOTRE TROISIEME CONTRIBUTION, COPAC, EST UN ENVIRONNEMENT INFORMATIQUE D'INDUCTION INTERACTIVE DE REGLES DE CLASSIFICATION QUI MET L'ACCENT SUR LA COOPERATION ENTRE LES METHODES D'APPRENTISSAGE AUTOMATIQUE ET LES EXPERTS HUMAINS. NOUS PRESENTONS ENSUITE DES RESULTATS EXPERIMENTAUX ENCOURAGEANTS OBTENUS SUR DEUX PROBLEMES REPRESENTATIFS DES BESOINS EN RECHERCHE DANS LE DOMAINE DE LA PAROLE: L'ACQUISITION DE CONNAISSANCES PROSODIQUES POUR L'AMELIORATION DE L'ACCES LEXICAL ET LA CARACTERISATION DES OCCLUSIVES SOURDES. LA DERNIERE PARTIE DE CETTE THESE EST CONSACREE A L'INTEGRATION DES METHODES D'APPRENTISSAGE SYMBOLIQUE DANS L'ENVIRONNEMENT SIDOC DE GESTION DE DONNEES ET DE CONNAISSANCES SUR LA PAROLE, FONDE SUR LE MODELE OBJET
Dans le cadre de cette thèse nous nous sommes intéressés à l'extraction d'informations à partir de données textuelles. Dans ce domaine, deux grandes approches co-existent. La première, qui consiste en un traitement statistique superficiel présente l'avantage d'avoir une mise en oeuvre facile. En revanche, l'information extraite est souvent imprécise, de nature incomplète et bruitée. La deuxième voie, consiste à privilégier des techniques plus profondes d'analyse et de normalisation textuelles ainsi que l'exploitation des techniques d'apprentissage automatique pour acquérir les ressources nécessaires à la tâche. Ce type d'approche, complexe et dont la mise en oeuvre est difficile permet une meilleure prise en compte de la diversité des formulations dans le texte. Il permet également un gain de temps appréciable quand il s'agit d'adapter les ressources, notamment quand la tâche d'extraction change. Dans cette thèse, nous avons contribué à la mise en place d'une chaîne complète d'extraction des interactions géniques à partir de résumés scientifique issus de MedLine basée sur cette seconde famille d'approches. Dans la première partie de notre travail, nous avons mis au point un module de filtrage de phrases, disponible en ligne et déjà utilisé par les biologistes, permettant d'identifier automatiquement les phrases parlant d'interactions. Dans un deuxième temps, nous avons proposé une méthode originale d'acquisition de règles d'extraction basée sur une abstraction de l'analyse syntaxique Les résultats préliminaires obtenus sont prometteurs et montrent que cette abstraction permet d'obtenir une bonne représentation pour l'apprentissage des règles d'extraction.
NOUS PRESENTONS DANS CETTE THESE UNE NOUVELLE METHODOLOGIE POUR LE PROCESSUS DE DECOUVERTE DE CONNAISSANCES A PARTIR D'UNE BASE DE DONNEES SPATIALES ORIENTEE OBJET. UN TEL PROCESSUS PART D'UNE BASE DE DONNEES, SELECTIONNE UN ENSEMBLE DE DONNEES PERTINENTES, PUIS EFFECTUE UN PRE TRAITEMENT DE CES DONNEES POUR LEUR PERMETTRE D'ETRE UTILISEES POUR CONSTRUIRE DE NOUVELLES CONNAISSANCES A L'AIDE D'ALGORITHMES D'APPRENTISSAGE AUTOMATIQUE DE L'INTELLIGENCE ARTIFICIELLE. NOTRE METHODOLOGIE S'ARTICULE AUTOUR DES TROIS DOMAINES CONSTITUTIFS DE CE PROCESSUS : LES BASES DE DONNEES, L'INTELLIGENCE ARTIFICIELLE ET LES SYSTEMES D'INFORMATION GEOGRAPHIQUE. DANS NOTRE APPROCHE, NOUS NOUS INTERESSONS AUX ETAPES DE SELECTION ET DE PRE-TRAITEMENT DES DONNEES DU PROCESSUS DE DECOUVERTE DE CONNAISSANCES CAR ELLES CONSTITUENT LE DEFI MAJEUR DE CE PROCESSUS. EN EXTRACTION DE CONNAISSANCES, UNE DES PRINCIPALES DIFFICULTES EST LIEE A LA QUANTITE DES DONNEES A TRAITER ET A L'ABSENCE DE FORMALISME POUR REPRESENTER DES DONNEES AVEC DES STRUCTURES COMPLEXES. NOTRE TRAVAIL REPOSE DONC SUR LA DEFINITION DE METHODES DE TRAITEMENT DES DONNEES ET DE TRANSFORMATION DES STRUCTURES COMPLEXES. POUR CELA, NOUS DEFINISSONS UN ALGORITHME DE TRANSFORMATION DE SCHEMA ORIENTE OBJET EN UN SCHEMA RELATIONNEL. CET ALGORITHME EST FONDE SUR UN ENSEMBLE DE REGLES DE TRANSFORMATION POUR CHAQUE PROPRIETE DU MODELE ORIENTE OBJET. POUR LA PHASE DE PRE-TRAITEMENT DES DONNEES, NOUS INTRODUISONS UN LANGAGE DE REQUETES POUR L'ENSEMBLE DE CE PROCESSUS QUI PERMET L'EXTRACTION DE CONNAISSANCES SIMULTANEMENT A PARTIR DE DONNEES SPATIALES ET DE STRUCTURES OBJETS. L'INTERET MAJEUR D'UN TEL TYPE DE LANGAGE EST L'OBTENTION DIRECTE DE CONNAISSANCES A PARTIR D'UNE BASE DE DONNEES, A L'AIDE D'OPERATEURS QUI INCLUENT DES FONCTIONS MATHEMATIQUES ET DES ELEMENTS DE LA THEORIE DES SOUS-ENSEMBLES FLOUS. LA MISE EN UVRE DE CE LANGAGE A DONNE LE SYSTEME LARECOS : LANGAGE DE REQUETES POUR L'EXTRACTION DE CONNAISSANCES A PARTIR D'OBJETS SPATIAUX. CE SYSTEME A ETE EXPERIMENTE SUR DES DONNEES REELLES PROVENANT D'UNE BASE DE DONNEES SPATIALES ORIENTEE OBJET FOURNIE PAR L'IGN (INSTITUT GEOGRAPHIQUE NATIONAL).
L'ALTERNATIVE LA PLUS RAISONNABLE PERMETTANT AUX OUTILS DE FOUILLE DE DONNEES (DATA MINING) D'APPREHENDER LES BASES DE DONNEES VOLUMINEUSES RESIDE DANS LE PRE-TRAITEMENT DE CELLES-CI. NOTRE ATTENTION S'EST PAR CONSEQUENT PORTEE SUR LA REDUCTION DE LA DIMENSION DES ENSEMBLES D'APPRENTISSAGE ET PLUS PRECISEMENT LA REDUCTION DU NOMBRE D'ATTRIBUTS. CETTE DERNIERE PEUT ETRE REALISEE DE DIFFERENTES MANIERES. LA SELECTION DE VARIABLES (FEATURE SELECTION) A FAIT L'OBJET DE NOS TRAVAUX ET PLUS PARTICULIEREMENT LE FILTRAGE D'ATTRIBUTS. DANS CE CADRE, NOUS PROPOSONS UN NOUVEL ALGORITHME, L'ALGORITHME DU POUVOIR DISCRIMINANT, DONT L'OBJECTIF EST L'OBTENTION D'UN SOUS-ENSEMBLE MINIMAL D'ATTRIBUTS, C'EST A DIRE UN SOUS-ENSEMBLE NECESSAIRE ET SUFFISANT A LA DISCRIMINATION DES CONCEPTS. IL S'APPUIE SUR DEUX NOUVEAUX CRITERES DE SELECTION BASES SUR LA COMPARAISON PAR PAIRES D'OBJETS, L'UN MYOPE : LE PDBUT, L'AUTRE CONTEXTUEL : LE PDOBUT. NOTONS QUE, AFIN DE SITUER NOS CRITERES PAR RAPPORT AU FOISONNEMENT DE CRITERES STATISTIQUES, NOUS LES AVONS EXPRIME SOUS FORME CONTINGENCIELLE. LE COUPLAGE DE CES NOUVEAUX CRITERES AVEC L'ALGORITHME DU POUVOIR DISCRIMINANT PERMET LA DETECTION DES VARIABLES NON PERTINENTES, REDONDANTES ET CORRELEES ET CONDUIT A LA DETERMINATION D'UN SOUS-ENSEMBLE MINIMAL D'ATTRIBUTS. NOUS AVONS PROGRAMME NOTRE ALGORITHME, PUIS IL A ETE INTEGRE DANS LA PLATE-FORME D'EXTRACTION DES CONNAISSANCES A PARTIR DES DONNEES (KNOWLEDGE DISCOVERY IN DATABASES) SIPINAW GRACE A LAQUELLE NOUS AVONS PU REALISER UNE EVALUATION EMPIRIQUE, AUSSI BIEN DIRECTE QUE INDIRECTE, SUR DIVERS ENSEMBLES D'APPRENTISSAGE DE REFERENCE.
LA CONCEPTION DE BASES DE DONNEES (BDD) TEXTUELLES PASSE PAR LA DESCRIPTION DU CONTENU DES TEXTES FIGURANT DANS CETTE BASE DE DONNEES. DANS LES SYSTEMES CLASSIQUES BOOLEENS, CETTE CONSTRUCTION SE FAIT L'AIDE D'UNE LISTE DE MOTS-CLES SE TROUVANT DANS UN LEXIQUE STRUCTURE A PRIORI. LA CONSULTATION DE LA BDD SE FAIT A L'AIDE DES REQUETES COMPOSEES DE DESCRIPTEURS. PAR COMPARAISON AVEC LES DESCRIPTEURS DECRIVANT LE CONTENU DES DOCUMENTS, LA RECHERCHE D'INFORMATION ECHOUE OU NON. UNE PREMIERE PARTIE AURA D'ABORD POUR OBJECTIF D'EMETTRE DES CRITIQUES SUR DES METHODES EXISTANTES AFIN DE PRECISER NOTRE CADRE GENERAL D'ANALYSE. ELLE SERA SUIVIE PAR UNE LONGUE PRESENTATION DES PROBLEMES DE LA COORDINATION A TRAVERS LES DIFFERENTES DISCIPLINES (INTERROGATION DES BASES DE DONNEES DOCUMENTAIRES, ANALYSE DE LA REQUETE COMPOSEE, PROBLEMATIQUES DU STATUT DU DESCRIPTEUR DOCUMENTAIRE ET DES CONJONCTIONS DE COORDINATION). NOUS FERONS APPEL A LA REPRESENTATION LOGIQUE AFIN DE MONTRER L'ERREUR DOMINANTE CHEZ LES LOGICIENS ET LES CONCEPTEURS DES SYSTEMES INFORMATIQUES QUI CONSISTE A ASSIMILER DIRECTEMENT LE COORDONNANT LINGUISTIQUE AU CONNECTEUR LOGIQUE. POUR MARQUER NOTRE DISTANCE AVEC CETTE ERREUR, NOUS PRECONISONS LA SOLUTION LOGICO-SEMANTIQUE QUI MONTRE QUE LA COORDINATION LINGUISTIQUE EST PORTEUSE D'INFORMATIONS OUBLIEES PAR LES CONCEPTEURS. PARMI LES MODELES CHOISIS, NOUS AVONS SURTOUT ORIENTE NOTRE CRITIQUE SUR CEUX QUI ONT ANALYSE LE PROBLEME DE LA COORDINATION. NOTRE CHOIX EST DE REJETER LE MODELE INFORMATIQUE DE MAEGAARD&SPANG, LE MODELE FORMEL DE CHOMSKY, LE MODELE LINGUISTIQUE DE TESNIERE, ETC QUI DETRUISENT L'INFORMATION COORDINATIVE. CECI NOUS PERMET DE PROPOSER NOTRE CALCUL DES IMAGES LOGICO-SEMANTIQUES (L'INFORMATION CACHEE PORTEE PAR LES CONJONCTIONS DE COORDINATION) EN VUE D'UNE STRUCTURATION DE LA CHAINE TEXTUELLE. CETTE THESE A ETE ECRITE ESSENTIELLEMENT DANS L'OPTIQUE DE L'INFORMATIQUE ORIENTEE VERS LES SYSTEMES DOCUMENTAIRES. ELLE FAIT APPEL AUX TECHNIQUES D'EXTRACTION ET DE REPRESENTATION DES CONNAISSANCES. TOUTEFOIS LORSQUE, NOUS CONSTATONS L'EXISTENCE DE LIENS DANS L'ANALYSE D'UN PHENOMENE, NOUS ESSAYONS DE MONTRER LA PROXIMITE ENTRE LES DIFFERENTES DISCIPLINES. CETTE INTERDISCIPLINARITE NOUS A PERMIS DE S'INTERESSER A LA LOGIQUE MATHEMATIQUE, A LA LOGIQUE ANALYTIQUE, AUX LOGIQUES NON-CLASSIQUES (COMBINATOIRE, MULTIVALENTE), A LA LINGUISTIQUE (ANALYSE SYNTAXIQUE ET SEMANTIQUE), MAIS AUSSI A LA PRAGMATIQUE QUI FAIT APPEL AUX NOTIONS DE PRESUPPOSITION ET D'IMPLICITE. NOUS PROPOSERONS UNE STRUCTURATION DES DONNEES TEXTUELLES BASEE SUR LES RESULTATS ISSUS DE NOTRE RECHERCHE OU LES CONNECTEURS SYMETRIQUES SERONT ANALYSES DANS LE CADRE DES LOGIQUES INTENSIONNELLE ET EXTENSIONNELLE ALORS QUE LES CONNECTEURS ASYMETRIQUES SERONT ANALYSES UNIQUEMENT PAR LA LOGIQUE NON-CLASSIQUE (LOGIQUE MULTIVALUEE)
L'extraction de connaissances automatique à partir de textes consiste àmettre en correspondance une information bas niveau, extraite desdocuments au travers des mots et des groupes de mots, avec uneinformation de plus haut niveau. Les choix de représentation pourdécrire les documents sont alors essentiels et leurs particularitéscontraignent la définition de l'algorithme d'apprentissage mis enoeuvre. Les travaux de cette thèse considèrent ces deux problématiquesd'une part pour des informations émotionnelles, d'autre part pour desinformations dynamiques.Dans une première partie, nous considérons une tâche d'extraction desémotions pour laquelle le fossé sémantique est plus important que pourdes informations traditionnellement thématiques. Aussi, nous étudionsdes représentations destinées à capturer les nuances du langage pourdécrire une information subjective puisque émotionnelle. Nous étudionsde plus l'intégration de connaissances sémantiques qui permettent, dans unetâche de caractérisation, d'extraire la charge émotionnelle desdocuments, dans une tâche de prédiction de guider l'apprentissageréalisé.Dans une seconde partie, nous étudions la dynamique de l'information :à tout corpus de documents publié sur Internet peut être associé dessources en perpétuelle activité qui échangent des informations dansun mouvement continu. Nous explorons trois axes d'étude : les sourcesidentifiées, les communautés qu'elles forment dans un espace dynamiquetrès parcimonieux, et les thématiques remarquables qu'ellesdéveloppent. Pour chacun nous proposons des méthodes d'extractionoriginales que nous mettons en oeuvre sur un corpus réel collecté encontinu sur Internet.
This book presents new and innovative ideas on the didactics of translation and interpreting. They include assessment methods and criteria, assessment of competences, graduate employability, placements, skills labs, the perceived skills gap between training and profession, the teaching of terminology, and curriculum design.
The effective use of educational assessments is fundamental to improving learning. However, effective use does not refer only to the technical parameters or statistical methodologies. Learning assessments in use todaywhether large-scale or household surveys or hybrid (smaller, quicker, cheaper or SQC)have varied uses and purposes. The present volume provides a review of learning assessments, their status in terms of the empirical knowledge base, and some new ideas for improving their effectiveness, particularly for those children most in need. It is argued here that SQC learning assessments have the potential to enhance educational accountability, increase transparency, and support a greater engagement of stakeholders with an interest in improving learning. In addition, countries need a sustained policy to guide assessment choices, including a focus on poor and marginalized populations.