Transformations pour l'exploitation d'un corpus textuel

TXT ne permet pas de rendre compte de différentes parties telles que les structures ou sections thématiques du fichier source (word ou rtf). XML en revanche peut être utilisé dans ce sens. On peut obtenir une transformation Word vers XML, avec l'utilisation d'un stylage, à voir !!!

Le détail des transformations :

ID Nom fichier source (.pdf) version .odt version .txt Remarques
t0001 PEDT_Amfreville_La_mivoie.pdf ok ok
t0009 PEDT_Brest.pdf ok ok
t0012 PEDT_CC_Haute-Combraille.pdf ok ok
t0013 PEDT_CC_Astarac_Arros_en_Gascog.pdf ok ok
t0014 PEDT_CC_Piège.doc ok ok
t0016 PEDT_CC_Mugron.pdf ok ok
t0018 PEDT_CC-Haute-Combraille_DOUBLE.pdf ok ok
t0023 PEDT_Coutouvre.pdf ok ok
t0024 PEDT_Cyvrieux.doc ok ok
t0027 PEDT_Dax.pdf ok ok
t0028 PEDT_Ecuillé.pdf ok ok
t0030 PEDT_Eragny.pdf ok ok
t0031 PEDT_Faucognet.pdf ok ok
t0034 PEDT_Frontignan.pdf ok ok
t0032 PEDT_Fercé sur Sarthe.pdf ok ok fait le 15/10/2015 avec Aperçu + Openoffice
t0033 PEDT_Foix.pdf ok ok fait le 15/10/2015 avec Aperçu + Openoffice

Du Txt vers Xml

Cependant, nous allons avoir besoin d’ajouter une étape supplémentaire : celle du nettoyage ou plutôt de l’encodage, afin de préciser dans chaque fichier les zones qui ne nous intéressent pas (a priori pour les écarter de l’interrogation).

La méthode que l’on utilise classiquement est d'encercler les bouts de texte qui ne nous intéressent pas, plutôt que de les supprimer définitivement du fichier (ex : la table des matières, des tableaux d’horaires/activités, etc.).

On le fait au moyen de balises. Qu’est-ce qu’une balise, c'est une portion de texte entourée de
  • <balise> marque le début
  • </balise> marque la fin

Voici un exemple de la partie du texte concernant les signataires du fichier PEDT_Foix.xml :

<signataires>
XII. SIGNATAIRES 
Fait à Foix le .......................................................... 
Le Maire de Foix 
Norbert MELER 
Le Préfet de l’Ariège 
Nathalie MARTHIEN 
L’Inspecteur d’Académie Directeur Académique des Services de l’Education Nationale 
Jacques BRIAND 
Le Président du Conseil Général de l’Ariège 
Henri NAYROU 
Le Président de la Région Midi-Pyrénées 
Martin MALVY 
Le Directeur de la Caisse d’Allocations Familiales de l’Ariège 
Alain MOUISSET 
Le Président de la Communauté de Communes du Pays de Foix 
Norbert MELER 
Martin MALVY 
43 
</signataires>

Les étapes :
1) On peut retravailler les fichiers TXT avec un éditeur spécifique comme « Oxygen » (licence gratuite à l’ENS) ou avec TXM directement (basculer sur l’explorateur de fichiers, voir autre copie écran plus bas).
2) enregistrer comme un autre fichier avec l’extension .xml.
Du coup on passe à un type d’import dans TXM, du niveau au dessus, plus intéressant qu’avec le texte brut (TXT).

Etape2-versTxt_choixEncodage.png (27,93 ko) Severine Gedzelman, 15/10/2015 06:57

Etape2-versTxt_enregistrementDepuisOpenOffice.png (245,12 ko) Severine Gedzelman, 15/10/2015 06:57

Etapes_projetPEDT_phases_PDFTexte.png (117,7 ko) Severine Gedzelman, 15/10/2015 12:01

Oxygen_CorpusPEDTXML.png (240,17 ko) Severine Gedzelman, 15/10/2015 12:13

TXM-EncodageTxt.png (222,97 ko) Severine Gedzelman, 15/10/2015 12:13

PEDT_Foix.xml Magnifier (101,9 ko) Severine Gedzelman, 15/10/2015 12:13

pdftxt_vers_txt_avec_pdfminerpython.zip (524,85 ko) Severine Gedzelman, 08/06/2017 13:51

pdftxt_vers_txt_avecopenoffice.zip (9 Mo) Severine Gedzelman, 08/06/2017 13:51