Préparation d'un corpus TXM en XML¶
Un corpus en txt peut être encodé en xml, en ajoutant des balises pour définir à la fois- des parties du texte qui nous intéressent (pour l'analyse du corpus)
- et peut-être d'autres qui auront besoin d'être ignorées (notamment par le moteur de recherche TXM).
- soit manuellement
- soit avec un script de nettoyage
La méthode préconisée est d'*encercler les bouts de texte qui ne nous intéressent pas*, plutôt que de les supprimer définitivement du fichier (ex : la table des matières, des tableaux d’horaires/activités, etc.). On le fait au moyen de balises.
Qu’est-ce qu’une balise, c'est une portion de texte entourée de marqueurs tels que des chevrons :- <balise> marque le début
- </balise> marque la fin
Voici un exemple de la partie du texte concernant les signataires du fichier PEDT_Foix.xml :
<signataires>
XII. SIGNATAIRES
Fait à Foix le ..........................................................
Le Maire de Foix
Norbert MELER
Le Préfet de l’Ariège
Nathalie MARTHIEN
L’Inspecteur d’Académie Directeur Académique des Services de l’Education Nationale
Jacques BRIAND
Le Président du Conseil Général de l’Ariège
Henri NAYROU
Le Président de la Région Midi-Pyrénées
Martin MALVY
Le Directeur de la Caisse d’Allocations Familiales de l’Ariège
Alain MOUISSET
Le Président de la Communauté de Communes du Pays de Foix
Norbert MELER
Martin MALVY
43
</signataires>
Les étapes :
1) On peut retravailler les fichiers TXT avec un éditeur spécifique comme « Oxygen » (licence gratuite à l’ENS) ou avec TXM directement (basculer sur l’explorateur de fichiers, voir autre copie écran plus bas).
2) enregistrer comme un autre fichier avec l’extension .xml.
Du coup on passe à un type d’import dans TXM, du niveau au dessus, plus intéressant qu’avec le texte brut (TXT).