Extraction de connaissances à partir de textes structurés

Laisser un commentaire

Les dernières années, le terme de fouille de textes est apparu dans bon nombre de publications. Pourtant, la diversité des méthodes et des niveaux de traitement laisse penser qu’il n’y a pas véritablement de consensus sur la notion de fouille de textes. Nous proposons donc en premier lieu une définition de la fouille de textes en tant qu’étape particulière d’un processus plus général d’extraction de connaissances à partir de textes. Nous ne souhaitons pas prendre une position normative ou exclusive par rapport à tous ces travaux en fouille de textes. Bien au contraire, nous montrons que ces différents travaux contribuent à des niveaux différents au passage de grands volumes de textes à de la connaissance. Nous voulons notamment insister sur ce qui permet à ces travaux de contribuer à un objectif commun, faire en sorte qu’il y ait une trame commune pour extraire des textes une information plus précise, associée à une sémantique rigoureuse afin d’aider un expert à enrichir son modèle de connaissances ou à effectuer tout autre tâche de raisonnement comme la veille technologique.

L’article est structuré de la façon suivante:
Nous proposons d’abord un bref historique et une définition de la fouille de textes. Nous soulignons les spécificités de la fouille de textes par rapport à la fouille de données et abordons de ce fait la notion de structure de documents. La section 4 propose un schéma général de l’extraction de connaissances à partir de textes. La section 6 présente comment les différents niveaux d’analyse des textes permettent de contribuer à cette tâche. Enfin, nous présentons quelques méthodes de fouille de textes en insistant sur le fait que le processus de fouille de textes doit nécessairement exploiter un modèle de connaissances. ( suite sur le lien ci dessous)

Article de: Yannick Toussaint « Extraction de connaissances à partir de textes structurés », Document numérique 3/2004 (Vol. 8), p. 11-34.
URL : www.cairn.info/revue-document-numerique-2004-3-page-11.htm.

Identification automatique de paraphrases dans le corpus Wikipédia

Laisser un commentaire

Paraphrases et modifications locales
dans l’historique des révisions de Wikipédia

Camille Dutrey(1) Houda Bouamor(2,3) Delphine Bernhard(2) Aurélien Max(2,3)

Résumé:
Dans cet article, nous analysons les modifications locales disponibles dans l’historique des révisions de la version française de Wikipédia. Nous définissons tout d’abord une typologie des modifications fondée sur une étude détaillée d’un large corpus de modifications. Puis, nous détaillons l’annotation manuelle d’une partie de ce corpus afin d’évaluer le degré de complexité de la tâche d’identification automatique de paraphrases ce genre de corpus. Enfin, nous évaluons un outil d’identification de paraphrases à base de règles sur un sous-ensemble de notre corpus.

Auteurs:
(1) INALCO, Paris, France
(2) LIMSI-CNRS, Orsay, France
(3) Univ. Paris-Sud, Orsay, France
camille@dutrey.fr {prénom.nom}@limsi.fr
Lien: http://wicopaco.limsi.fr