« Précédent - Version 8/21 (diff) - Suivant » - Version actuelle
Severine Gedzelman, 15/10/2015 07:11


Transformations pour l'exploitation d'un corpus textuel

TXT ne permet pas de rendre compte de différentes parties telles que les structures ou sections thématiques du fichier source (word ou rtf). XML en revanche peut être utilisé dans ce sens. On peut obtenir une transformation Word vers XML, avec l'utilisation d'un stylage, à voir !!!

Un premier processus de transformation des PDFs texte vers des fichiers exploitables pour TXM est le suivant :
  • a) enregistrer le PDF vers un format ODT (quand c'est possible)
    • soit en copiant le texte depuis Adobe Reader ou Aperçu (de Macintosh, que je recommande car encodage des caractères semble mieux respecter),
  • b) enregistrer le PDF vers un format TXT (moins bien car ne conserve plus les structures)
    • soit en passant par le menu de Adobe Reader (Enregistrer au format texte)
    • soit en passant par le fichier au format ODT, enregistrer sous (.txt)

Conclusion : à préférer une sortie word ou rtf pour garder la structure a minima des tableaux, etc… 

Le détail des transformations :

ID Nom fichier source (.pdf) version .odt version .txt Remarques
t0001 PEDT_Amfreville_La_mivoie.pdf ok ok
t0009 PEDT_Brest.pdf ok ok
t0012 PEDT_CC_Haute-Combraille.pdf ok ok
t0013 PEDT_CC_Astarac_Arros_en_Gascog.pdf ok ok
t0014 PEDT_CC_Piège.doc ok ok
t0016 PEDT_CC_Mugron.pdf ok ok
t0018 PEDT_CC-Haute-Combraille_DOUBLE.pdf ok ok
t0023 PEDT_Coutouvre.pdf ok ok
t0024 PEDT_Cyvrieux.doc ok ok
t0027 PEDT_Dax.pdf ok ok
t0028 PEDT_Ecuillé.pdf ok ok
t0030 PEDT_Eragny.pdf ok ok
t0031 PEDT_Faucognet.pdf ok ok
t0034 PEDT_Frontignan.pdf ok ok
t0032 PEDT_Fercé sur Sarthe.pdf ok ok fait le 15/10/2015 avec Aperçu + Openoffice
t0033 PEDT_Foix.pdf ok ok fait le 15/10/2015 avec Aperçu + Openoffice

Du Odt vers Txt

Après avoir copier le texte (de Adobe ou Aperçu), ouvrir OpenOffice ou LibreOffice ou Word pour coller le texte.

Depuis OpenOffice, on peut enregistrer au format texte brut (codé) et bien choisir l'encodage "UTF-8'

Etape2-versTxt_choixEncodage.png (27,93 ko) Severine Gedzelman, 15/10/2015 06:57

Etape2-versTxt_enregistrementDepuisOpenOffice.png (245,12 ko) Severine Gedzelman, 15/10/2015 06:57

Etapes_projetPEDT_phases_PDFTexte.png (117,7 ko) Severine Gedzelman, 15/10/2015 12:01

Oxygen_CorpusPEDTXML.png (240,17 ko) Severine Gedzelman, 15/10/2015 12:13

TXM-EncodageTxt.png (222,97 ko) Severine Gedzelman, 15/10/2015 12:13

PEDT_Foix.xml Magnifier (101,9 ko) Severine Gedzelman, 15/10/2015 12:13

pdftxt_vers_txt_avec_pdfminerpython.zip (524,85 ko) Severine Gedzelman, 08/06/2017 13:51

pdftxt_vers_txt_avecopenoffice.zip (9 Mo) Severine Gedzelman, 08/06/2017 13:51