Préparation d'un corpus TXM en XML

Un corpus en txt peut être encodé en xml, en ajoutant des balises pour définir à la fois
  • des parties du texte qui nous intéressent (pour l'analyse du corpus)
  • et peut-être d'autres qui auront besoin d'être ignorées (notamment par le moteur de recherche TXM).
Ou bien dans une deuxième phase, on pourra définitivement enlever ces parties non intéressantes ou qui brouillent l'analyse
  • soit manuellement
  • soit avec un script de nettoyage

La méthode préconisée est d'*encercler les bouts de texte qui ne nous intéressent pas*, plutôt que de les supprimer définitivement du fichier (ex : la table des matières, des tableaux d’horaires/activités, etc.). On le fait au moyen de balises.

Qu’est-ce qu’une balise, c'est une portion de texte entourée de marqueurs tels que des chevrons :
  • <balise> marque le début
  • </balise> marque la fin

Voici un exemple de la partie du texte concernant les signataires du fichier PEDT_Foix.xml :

<signataires>
XII. SIGNATAIRES 
Fait à Foix le .......................................................... 
Le Maire de Foix 
Norbert MELER 
Le Préfet de l’Ariège 
Nathalie MARTHIEN 
L’Inspecteur d’Académie Directeur Académique des Services de l’Education Nationale 
Jacques BRIAND 
Le Président du Conseil Général de l’Ariège 
Henri NAYROU 
Le Président de la Région Midi-Pyrénées 
Martin MALVY 
Le Directeur de la Caisse d’Allocations Familiales de l’Ariège 
Alain MOUISSET 
Le Président de la Communauté de Communes du Pays de Foix 
Norbert MELER 
Martin MALVY 
43 
</signataires>

Les étapes :
1) On peut retravailler les fichiers TXT avec un éditeur spécifique comme « Oxygen » (licence gratuite à l’ENS) ou avec TXM directement (basculer sur l’explorateur de fichiers, voir autre copie écran plus bas).
2) enregistrer comme un autre fichier avec l’extension .xml.
Du coup on passe à un type d’import dans TXM, du niveau au dessus, plus intéressant qu’avec le texte brut (TXT).

PEDT_Foix.odt (54,93 ko) Severine Gedzelman, 08/06/2017 14:13

PEDT_Foix.xml Magnifier (125,98 ko) Severine Gedzelman, 08/06/2017 14:13

Oxygen_CorpusPEDTXML.png (240,17 ko) Severine Gedzelman, 08/06/2017 14:13

TXM-EncodageTxt.png (222,97 ko) Severine Gedzelman, 08/06/2017 14:13