Etape de transformation PDF vers TEXTE (RICHE ou BRUT)¶

Les sources de données sont les suivantes :

Test avec le service de Huma-Num¶

Test du 28 sept. 2015 (voir la page suivante pour accéder au service et au projet)

Les "exports sont des .docx (Test OCR (format de sortie .docx)), à ouvrir uniquement avec Office de Windows, car LibreOffice n'arrive pas toujours à relire correctement.

Depuis un poste windows 7, avec Office, plusieurs autres exports ont été préparés pour ces mêmes fichiers :

Test OCR + transformation en RTF
Test OCR + transformation en TXT (encoding UTF-8)
Test OCR + transformation en XML office (windows)

A regarder ce qui vaut plus le coup de garder comme format d'export et si certains textes ne devraient pas être océrisés manuellement (retouche des tableaux possible), à l'ENS média (poste de Vincent Brault).

Exemple de tableau pour savoir où nous en sommes dans les versions de sortie de chaque fichier :

ID	Nom fichier source (.pdf)	sortie OCR en .docx	remarques sur sortie OCR	versions .rtf + .txt + .xml
t0002	PEDT_Amplepuis.pdf	ok	?	ok
t0003	PEDT_Anse.pdf	ok	?	ok
t0004	PEDT_Avranches.pdf	ok	?	ok
t0005	PEDT_Belleville.pdf	ok	?	ok
t0006	PEDT_Biscarosse.pdf	ok	?	ok
t0007	PEDT_Biviers.pdf	ok	?	ok
t0008	PEDT_BOU.pdf	ok	?	ok
t0010	PEDT_Briançon.pdf	ok	?	ok

Renseigner les fichiers pour lesquels il a fallu corriger la détection de structures dans l'image source (ex: tableau).
De même que faire un mémo sur l'utilisation de AbbyFinereaderPro, pour pouvoir revenir dans l'environnement sans problème.

Etapes_projetPEDT_phases_PDFImage.png (131,19 ko) Severine Gedzelman, 15/10/2015 12:01

Chantier HN Triangle » Corpus PEDT

Wiki

Etape de transformation PDF vers TEXTE (RICHE ou BRUT)¶

Test avec le service de Huma-Num¶