Transformations pour l'exploitation d'un corpus textuel¶
TXT ne permet pas de rendre compte de différentes parties telles que les structures ou sections thématiques du fichier source (word ou rtf). XML en revanche peut être utilisé dans ce sens. On peut obtenir une transformation Word vers XML, avec l'utilisation d'un stylage, à voir !!!
Le détail des transformations :¶
ID | Nom fichier source (.pdf) | version .odt | version .txt | Remarques |
---|---|---|---|---|
t0001 | PEDT_Amfreville_La_mivoie.pdf | ok | ok | |
t0009 | PEDT_Brest.pdf | ok | ok | |
t0012 | PEDT_CC_Haute-Combraille.pdf | ok | ok | |
t0013 | PEDT_CC_Astarac_Arros_en_Gascog.pdf | ok | ok | |
t0014 | PEDT_CC_Piège.doc | ok | ok | |
t0016 | PEDT_CC_Mugron.pdf | ok | ok | |
t0018 | PEDT_CC-Haute-Combraille_DOUBLE.pdf | ok | ok | |
t0023 | PEDT_Coutouvre.pdf | ok | ok | |
t0024 | PEDT_Cyvrieux.doc | ok | ok | |
t0027 | PEDT_Dax.pdf | ok | ok | |
t0028 | PEDT_Ecuillé.pdf | ok | ok | |
t0030 | PEDT_Eragny.pdf | ok | ok | |
t0031 | PEDT_Faucognet.pdf | ok | ok | |
t0034 | PEDT_Frontignan.pdf | ok | ok | |
t0032 | PEDT_Fercé sur Sarthe.pdf | ok | ok | fait le 15/10/2015 avec Aperçu + Openoffice |
t0033 | PEDT_Foix.pdf | ok | ok | fait le 15/10/2015 avec Aperçu + Openoffice |
Du Txt vers Xml¶
Cependant, nous allons avoir besoin d’ajouter une étape supplémentaire : celle du nettoyage ou plutôt de l’encodage, afin de préciser dans chaque fichier les zones qui ne nous intéressent pas (a priori pour les écarter de l’interrogation).
La méthode que l’on utilise classiquement est d'encercler les bouts de texte qui ne nous intéressent pas, plutôt que de les supprimer définitivement du fichier (ex : la table des matières, des tableaux d’horaires/activités, etc.).
On le fait au moyen de balises. Qu’est-ce qu’une balise, c'est une portion de texte entourée de- <balise> marque le début
- </balise> marque la fin
Voici un exemple de la partie du texte concernant les signataires du fichier PEDT_Foix.xml :
<signataires>
XII. SIGNATAIRES
Fait à Foix le ..........................................................
Le Maire de Foix
Norbert MELER
Le Préfet de l’Ariège
Nathalie MARTHIEN
L’Inspecteur d’Académie Directeur Académique des Services de l’Education Nationale
Jacques BRIAND
Le Président du Conseil Général de l’Ariège
Henri NAYROU
Le Président de la Région Midi-Pyrénées
Martin MALVY
Le Directeur de la Caisse d’Allocations Familiales de l’Ariège
Alain MOUISSET
Le Président de la Communauté de Communes du Pays de Foix
Norbert MELER
Martin MALVY
43
</signataires>
Les étapes :
1) On peut retravailler les fichiers TXT avec un éditeur spécifique comme « Oxygen » (licence gratuite à l’ENS) ou avec TXM directement (basculer sur l’explorateur de fichiers, voir autre copie écran plus bas).
2) enregistrer comme un autre fichier avec l’extension .xml.
Du coup on passe à un type d’import dans TXM, du niveau au dessus, plus intéressant qu’avec le texte brut (TXT).