Corpus test pour TXM
User documentation
01/10/2015
A titre d'exemple pour importer dans TXM, voici un corpus comprenant :
- les 8 fichiers (passe OCR)
- et ceux (PDF texte) déjà transformés en .txt
avec des métadonnées très pauvres : - id (correspond au nom du fichier, clé d'identification plus courte qu'un nom)
- fichiers source (nom du fichier pdf)
- ville (nom de la commune qui a élaboré le document)
- type (texte ou image, pour distinguer les origines du fichier source)