Les dernières années, le terme de fouille de textes est apparu dans bon nombre de publications. Pourtant, la diversité des méthodes et des niveaux de traitement laisse penser qu’il n’y a pas véritablement de consensus sur la notion de fouille de textes. Nous proposons donc en premier lieu une définition de la fouille de textes en tant qu’étape particulière d’un processus plus général d’extraction de connaissances à partir de textes. Nous ne souhaitons pas prendre une position normative ou exclusive par rapport à tous ces travaux en fouille de textes. Bien au contraire, nous montrons que ces différents travaux contribuent à des niveaux différents au passage de grands volumes de textes à de la connaissance. Nous voulons notamment insister sur ce qui permet à ces travaux de contribuer à un objectif commun, faire en sorte qu’il y ait une trame commune pour extraire des textes une information plus précise, associée à une sémantique rigoureuse afin d’aider un expert à enrichir son modèle de connaissances ou à effectuer tout autre tâche de raisonnement comme la veille technologique.
L’article est structuré de la façon suivante:
Nous proposons d’abord un bref historique et une définition de la fouille de textes. Nous soulignons les spécificités de la fouille de textes par rapport à la fouille de données et abordons de ce fait la notion de structure de documents. La section 4 propose un schéma général de l’extraction de connaissances à partir de textes. La section 6 présente comment les différents niveaux d’analyse des textes permettent de contribuer à cette tâche. Enfin, nous présentons quelques méthodes de fouille de textes en insistant sur le fait que le processus de fouille de textes doit nécessairement exploiter un modèle de connaissances. ( suite sur le lien ci dessous)
Article de: Yannick Toussaint « Extraction de connaissances à partir de textes structurés », Document numérique 3/2004 (Vol. 8), p. 11-34.
URL : www.cairn.info/revue-document-numerique-2004-3-page-11.htm.