« Précédent -
Version 12/21
(diff) -
Suivant » -
Version actuelle
Severine Gedzelman, 15/10/2015 12:14
Transformations pour l'exploitation d'un corpus textuel¶
TXT ne permet pas de rendre compte de différentes parties telles que les structures ou sections thématiques du fichier source (word ou rtf). XML en revanche peut être utilisé dans ce sens. On peut obtenir une transformation Word vers XML, avec l'utilisation d'un stylage, à voir !!!
Un premier processus de transformation des PDFs texte vers des fichiers exploitables pour TXM est le suivant :- a) enregistrer le PDF vers un format ODT (quand c'est possible)
- soit en copiant le texte depuis Adobe Reader ou Aperçu (de Macintosh, que je recommande car encodage des caractères semble mieux respecter),
- b) enregistrer le PDF vers un format TXT (moins bien car ne conserve plus les structures)
- soit en passant par le menu de Adobe Reader (Enregistrer au format texte)
- soit en passant par le fichier au format ODT, enregistrer sous (.txt)
- c) enregistrer le PDF vers un format XML
- soit en passant par un ODT, enregistrer sous (.xml docbook)
- soit en passant par un TXT, puis mettre les balises sur certaines parties du texte qui ne nous intéressent pas (à ignorer) grâce à un éditeur de texte (directement dans TXM) ou un éditeur XML
Conclusion : à préférer une sortie word ou rtf pour garder la structure a minima des tableaux, etc…
Le détail des transformations :¶
ID | Nom fichier source (.pdf) | version .odt | version .txt | Remarques |
---|---|---|---|---|
t0001 | PEDT_Amfreville_La_mivoie.pdf | ok | ok | |
t0009 | PEDT_Brest.pdf | ok | ok | |
t0012 | PEDT_CC_Haute-Combraille.pdf | ok | ok | |
t0013 | PEDT_CC_Astarac_Arros_en_Gascog.pdf | ok | ok | |
t0014 | PEDT_CC_Piège.doc | ok | ok | |
t0016 | PEDT_CC_Mugron.pdf | ok | ok | |
t0018 | PEDT_CC-Haute-Combraille_DOUBLE.pdf | ok | ok | |
t0023 | PEDT_Coutouvre.pdf | ok | ok | |
t0024 | PEDT_Cyvrieux.doc | ok | ok | |
t0027 | PEDT_Dax.pdf | ok | ok | |
t0028 | PEDT_Ecuillé.pdf | ok | ok | |
t0030 | PEDT_Eragny.pdf | ok | ok | |
t0031 | PEDT_Faucognet.pdf | ok | ok | |
t0034 | PEDT_Frontignan.pdf | ok | ok | |
t0032 | PEDT_Fercé sur Sarthe.pdf | ok | ok | fait le 15/10/2015 avec Aperçu + Openoffice |
t0033 | PEDT_Foix.pdf | ok | ok | fait le 15/10/2015 avec Aperçu + Openoffice |
Du Odt vers Txt¶
Après avoir copier le texte (de Adobe ou Aperçu), ouvrir OpenOffice ou LibreOffice ou Word pour coller le texte.
Depuis OpenOffice, on peut enregistrer au format texte brut (codé) et bien choisir l'encodage "UTF-8'
Du Txt vers Xml¶
Cependant, nous allons avoir besoin d’ajouter une étape supplémentaire : celle du nettoyage ou plutôt de l’encodage, afin de préciser dans chaque fichier les zones qui ne nous intéressent pas (a priori pour les écarter de l’interrogation).
La méthode que l’on utilise classiquement est d'encercler les bouts de texte qui ne nous intéressent pas, plutôt que de les supprimer définitivement du fichier (ex : la table des matières, des tableaux d’horaires/activités, etc.).
On le fait au moyen de balises (voici un exemple sur le fichier PEDT_Foix.xml :
Remarque : Qu’est-ce qu’une balise, c'est une portion de texte entourée de- <balise> marque le début
- </balise> marque la fin
<signataires>
XII. SIGNATAIRES
Fait à Foix le ..........................................................
Le Maire de Foix
Norbert MELER
Le Préfet de l’Ariège
Nathalie MARTHIEN
L’Inspecteur d’Académie Directeur Académique des Services de l’Education Nationale
Jacques BRIAND
Le Président du Conseil Général de l’Ariège
Henri NAYROU
Le Président de la Région Midi-Pyrénées
Martin MALVY
Le Directeur de la Caisse d’Allocations Familiales de l’Ariège
Alain MOUISSET
Le Président de la Communauté de Communes du Pays de Foix
Norbert MELER
Martin MALVY
43
</signataires>
Les étapes :
1) On peut retravailler les fichiers TXT avec un éditeur spécifique comme « Oxygen » (licence gratuite à l’ENS) ou avec TXM directement (basculer sur l’explorateur de fichiers, voir autre copie écran plus bas).
2) enregistrer comme un autre fichier avec l’extension .xml.
Du coup on passe à un type d’import dans TXM, du niveau au dessus, plus intéressant qu’avec le texte brut (TXT).