Conversion de formats
Afin de pouvoir être chargés dans différents logiciels, des fichiers doivent parfois être convertis sous un nouveau format. La conversion de formats est une méthode qui consiste à réencoder un fichier sous un nouveau format. Elle permet notamment de transformer des images (JPEG, PNG, etc.) ou des enregistrements sonores (MP4, WAV) en données textuelle (TXT, PDF, etc.).
Conversion de fichiers PDF ou DOCX en TXT
Pour pouvoir analyser des documents textuels avec des outils informatiques, vous devez d’abord convertir ces documents en format TXT. Certains logiciels de fouille de texte ont un outil de conversion intégré – c’est le cas de Orange Data Mining, par exemple. Mais lorsque vous utilisez un logiciel qui ne permet de convertir vos fichiers PDF ou DOCX en TXT à même son interface, vous pouvez vous tourner vers les options suivantes :
- AntFile Converter (PDF ou DOCX vers TXT)
- XPDF Reader (PDF vers TXT)
Si vous êtes incapable de convertir vos documents PDF avec les logiciels ci-dessus, c’est probablement signe qu’ils n’ont pas encore été océrisés. De la même manière, si vous parvenez à convertir votre fichier PDF en TXT, mais que sa conversion contient beaucoup d’erreurs, c’est signe que vous devrez améliorer l’océrisation du document original. Dans les deux cas, consultez cette page.
Conversion de fichiers DOCX en PDF
LibreOffice est une suite bureautique libre et gratuite qui permet la conversion en lots de documents textuels, notamment du format .doc vers le format PDF.
Procédures
1. Exécuter CMD dans le dossier duquel on veut faire la conversion
2. Lancer la commande :
for %f in (*.doc) do (
start /wait "" "C:\Program Files\LibreOffice\program\soffice.exe" --headless --convert-to pdf --outdir C:\tmp %f
)
Note : il est possible de convertir plusieurs formats en même temps en séparant les formats d’entrée par des points-virgules :
for %f in (*.doc; *.docx; *.docm) do (
start /wait "" "C:\Program Files\LibreOffice\program\soffice.exe" --headless --convert-to pdf --outdir C:\tmp %f
)
Voir l’article pour la conversion en lot : https://www.libreofficehelp.com/batch-convert-writer-documents-pdf-libreoffice/
Conversion de tableaux PDF en fichiers CSV
Vous trouverez parfois dans des fichiers PDF des tableaux que vous aimeriez pouvoir charger dans un logiciel pour l’analyse statistique. Il est possible de convertir ces tableaux en format CSV avec le logiciel Tabula.
Conversion d’images en données textuelles
Certains projets en humanités numériques se basent sur des documents manuscrits ayant été numérisés ou photographiés. L’océrisation des images créées à partir de ces documents permettra de les convertir en format de données textuelles (PDF, TXT, etc.). Pour apprendre comment océriser une image, cliquez ici.
Conversion d’enregistrements sonores ou vidéos en données textuelles
Certains projets en humanités numériques se basent sur des enregistrements sonores ou vidéos de paroles (archives orales, entrevues, entretiens, etc.). Dans ce cas, des logiciels peuvent aider à convertir les paroles enregistrées en format audio (fichiers .wav, .mp3 par exemple) vers des formats texte (.doc,. txt, par exemple).
Transcription manuelle
Voici quelques logiciels gratuits qui permettent de transcrire manuellement le contenu d’un fichier audio en texte.
- Express Scribe
- OTranscribe : application d’aide à la transcription de fichiers audio ou vidéo (en ligne ou à télécharger).
- FTW Transcriber
- Sonal
- FromThePage
Notez que le travail de transcription manuelle peut être facilité grâce à un pédalier de transcription.
Conversion automatique
Voici quelques sites et logiciels offrant des fonctionnalités de transcription automatique du format audio ou vidéo vers le format texte.
Logiciels open source gratuits :
Logiciels propriétaires avec essai gratuit :
Conversion d’images en données géospatiales

Si vous travaillez sur un projet impliquant la géomatique, la conversion de cartes en format image (JPEG, PNG, TIFF, etc.) en données géospatiales lisibles par système d’information géographique (SIG) pourrait être utile. Nous proposons ici d’utiliser le logiciel libre et open source QGIS pour ce faire.
Pour en savoir plus, consultez : Manuel QGIS, Tutoriels QGIS (en anglais) ainsi que notre Guide sur les données géospatiales.
Étape
- Préparation
Types de données
- Texte
- Image