Reconnaissance optique des caractères / océrisation

La reconnaissance optique des caractères (OCR) ou océrisation c’est la conversion des lettres du format image vers un format texte lisible par des logiciels ce qui permet ensuite de rechercher, traiter et manipuler plus aisément le contenu (par exemple, rechercher un mot ou expression dans un texte avec la commande CTRL+F).

Le terme océrisation dérive de l’abréviation OCR : Optical Character Recognition, c’est-à-dire en français la reconnaissance optique des caractères. L’océrisation suit habituellement l’étape de numérisation des documents textuels, mais la plupart des articles et documents textuels en ligne déjà numérisés sont déjà océrisés.

Étape

Préparation

Types de données

Image
Texte

Références

Consultez aussi cette liste comparative de logiciels pour la reconnaissance optique de caractère. Note : les logiciels gratuits sont indiqués “GPL” ou “BSD” dans la colonne “License”.
Techniques et formats de conversion en mode texte (site de la Bibliothèque nationale de France)
Pour un exemple de projet d’océrisation de vieux journaux, voir l’article OCR Correction for Corpus-assisted Discourse Studies: A Case Study of Old Newspapers.