Etape de transformation PDF vers TEXTE (RICHE ou BRUT)

Les sources de données sont les suivantes :

Test avec le service de Huma-Num

Test du 28 sept. 2015 (voir la page suivante pour accéder au service et au projet)

Les "exports sont des .docx (Test OCR (format de sortie .docx)), à ouvrir uniquement avec Office de Windows, car LibreOffice n'arrive pas toujours à relire correctement.

Depuis un poste windows 7, avec Office, plusieurs autres exports ont été préparés pour ces mêmes fichiers :

A regarder ce qui vaut plus le coup de garder comme format d'export et si certains textes ne devraient pas être océrisés manuellement (retouche des tableaux possible), à l'ENS média (poste de Vincent Brault).

Exemple de tableau pour savoir où nous en sommes dans les versions de sortie de chaque fichier :

ID Nom fichier source (.pdf) sortie OCR en .docx remarques sur sortie OCR versions .rtf + .txt + .xml
t0002 PEDT_Amplepuis.pdf ok ? ok
t0003 PEDT_Anse.pdf ok ? ok
t0004 PEDT_Avranches.pdf ok ? ok
t0005 PEDT_Belleville.pdf ok ? ok
t0006 PEDT_Biscarosse.pdf ok ? ok
t0007 PEDT_Biviers.pdf ok ? ok
t0008 PEDT_BOU.pdf ok ? ok
t0010 PEDT_Briançon.pdf ok ? ok
  • Renseigner les fichiers pour lesquels il a fallu corriger la détection de structures dans l'image source (ex: tableau).
  • De même que faire un mémo sur l'utilisation de AbbyFinereaderPro, pour pouvoir revenir dans l'environnement sans problème.

Etapes_projetPEDT_phases_PDFImage.png (131,19 ko) Severine Gedzelman, 15/10/2015 12:01