Etape de transformation PDF vers TEXTE (RICHE ou BRUT)¶
Les sources de données sont les suivantes :Test avec le service de Huma-Num¶
Test du 28 sept. 2015 (voir la page suivante pour accéder au service et au projet)
Les "exports sont des .docx (Test OCR (format de sortie .docx)), à ouvrir uniquement avec Office de Windows, car LibreOffice n'arrive pas toujours à relire correctement.
Depuis un poste windows 7, avec Office, plusieurs autres exports ont été préparés pour ces mêmes fichiers :- Test OCR + transformation en RTF
- Test OCR + transformation en TXT (encoding UTF-8)
- Test OCR + transformation en XML office (windows)
A regarder ce qui vaut plus le coup de garder comme format d'export et si certains textes ne devraient pas être océrisés manuellement (retouche des tableaux possible), à l'ENS média (poste de Vincent Brault).
Exemple de tableau pour savoir où nous en sommes dans les versions de sortie de chaque fichier :
ID | Nom fichier source (.pdf) | sortie OCR en .docx | remarques sur sortie OCR | versions .rtf + .txt + .xml |
---|---|---|---|---|
t0002 | PEDT_Amplepuis.pdf | ok | ? | ok |
t0003 | PEDT_Anse.pdf | ok | ? | ok |
t0004 | PEDT_Avranches.pdf | ok | ? | ok |
t0005 | PEDT_Belleville.pdf | ok | ? | ok |
t0006 | PEDT_Biscarosse.pdf | ok | ? | ok |
t0007 | PEDT_Biviers.pdf | ok | ? | ok |
t0008 | PEDT_BOU.pdf | ok | ? | ok |
t0010 | PEDT_Briançon.pdf | ok | ? | ok |
- Renseigner les fichiers pour lesquels il a fallu corriger la détection de structures dans l'image source (ex: tableau).
- De même que faire un mémo sur l'utilisation de AbbyFinereaderPro, pour pouvoir revenir dans l'environnement sans problème.