Analyse et fouille de texte

La fouille de textes ou « l’extraction de connaissances » dans les textes est une spécialisation de la fouille de données et fait partie du domaine de l’intelligence artificielle. Cette technique est souvent désignée sous l’anglicisme text mining.

Elle désigne un ensemble de traitements informatiques consistant à extraire des connaissances selon un critère de nouveauté ou de similarité dans des textes produits par des humains pour des humains. Dans la pratique, cela revient à mettre en algorithme un modèle simplifié des théories linguistiques dans des systèmes informatiques d’apprentissage et de statistiques, et des technologies de compréhension du langage naturel.

Les disciplines impliquées sont donc la linguistique calculatoire, l’ingénierie des langues, l’apprentissage artificiel, les statistiques et l’informatique.

Étape

Analyse

Type de données

Texte

Scénarios associés

Références

Jockers, M. L. et Underwood, T. (2015). Text-Mining the Humanities. Dans A New Companion to Digital Humanities (p. 291‑306). John Wiley & Sons, Ltd. https://doi.org/10.1002/9781118680605.ch20
Sinclair, S. et Rockwell, G. (2015). Text Analysis and Visualization. Dans A New Companion to Digital Humanities (p. 274‑290). John Wiley & Sons, Ltd. https://doi.org/10.1002/9781118680605.ch19
Data and Text Mining : Visualization, Inference, Classification (site web)
Analyse des données textuelles (livre numérique)
L’analyse textuelle des idées, du discours et des pratiques politiques (livre numérique)
Analyse de données textuelles informatisée : l’articulation de trois méthodologies, avantages et limites (article numérique)
Quatre approches pour l’analyse de données textuelles : lexicale, linguistique, cognitive, thématique (acte de colloque)
Text & Data Mining: What is TDM? (guide)