Reconnaissance optique des caractères / océrisation

La reconnaissance optique des caractères (OCR) ou océrisation c’est la conversion des lettres du format image vers un format texte lisible par des logiciels ce qui permet ensuite de rechercher, traiter et manipuler plus aisément le contenu (par exemple, rechercher un mot ou expression dans un texte avec la commande CTRL+F).

Le terme océrisation dérive de l’abréviation OCR : Optical Character Recognition, c’est-à-dire en français la reconnaissance optique des caractères. L’océrisation suit habituellement l’étape de numérisation des documents textuels, mais la plupart des articles et documents textuels en ligne déjà numérisés sont déjà océrisés.

Étape

  • Préparation

Types de données

  • Image
  • Texte

Références