« Précédent - Version 12/21 (diff) - Suivant » - Version actuelle
Severine Gedzelman, 15/10/2015 12:14

Transformations pour l'exploitation d'un corpus textuel¶

TXT ne permet pas de rendre compte de différentes parties telles que les structures ou sections thématiques du fichier source (word ou rtf). XML en revanche peut être utilisé dans ce sens. On peut obtenir une transformation Word vers XML, avec l'utilisation d'un stylage, à voir !!!

Un premier processus de transformation des PDFs texte vers des fichiers exploitables pour TXM est le suivant :

a) enregistrer le PDF vers un format ODT (quand c'est possible)
- soit en copiant le texte depuis Adobe Reader ou Aperçu (de Macintosh, que je recommande car encodage des caractères semble mieux respecter),
b) enregistrer le PDF vers un format TXT (moins bien car ne conserve plus les structures)
- soit en passant par le menu de Adobe Reader (Enregistrer au format texte)
- soit en passant par le fichier au format ODT, enregistrer sous (.txt)
c) enregistrer le PDF vers un format XML
- soit en passant par un ODT, enregistrer sous (.xml docbook)
- soit en passant par un TXT, puis mettre les balises sur certaines parties du texte qui ne nous intéressent pas (à ignorer) grâce à un éditeur de texte (directement dans TXM) ou un éditeur XML

Conclusion : à préférer une sortie word ou rtf pour garder la structure a minima des tableaux, etc…

Le détail des transformations :¶

ID	Nom fichier source (.pdf)	version .odt	version .txt	Remarques
t0001	PEDT_Amfreville_La_mivoie.pdf	ok	ok
t0009	PEDT_Brest.pdf	ok	ok
t0012	PEDT_CC_Haute-Combraille.pdf	ok	ok
t0013	PEDT_CC_Astarac_Arros_en_Gascog.pdf	ok	ok
t0014	PEDT_CC_Piège.doc	ok	ok
t0016	PEDT_CC_Mugron.pdf	ok	ok
t0018	PEDT_CC-Haute-Combraille_DOUBLE.pdf	ok	ok
t0023	PEDT_Coutouvre.pdf	ok	ok
t0024	PEDT_Cyvrieux.doc	ok	ok
t0027	PEDT_Dax.pdf	ok	ok
t0028	PEDT_Ecuillé.pdf	ok	ok
t0030	PEDT_Eragny.pdf	ok	ok
t0031	PEDT_Faucognet.pdf	ok	ok
t0034	PEDT_Frontignan.pdf	ok	ok
t0032	PEDT_Fercé sur Sarthe.pdf	ok	ok	fait le 15/10/2015 avec Aperçu + Openoffice
t0033	PEDT_Foix.pdf	ok	ok	fait le 15/10/2015 avec Aperçu + Openoffice

Du Odt vers Txt¶

Après avoir copier le texte (de Adobe ou Aperçu), ouvrir OpenOffice ou LibreOffice ou Word pour coller le texte.

Depuis OpenOffice, on peut enregistrer au format texte brut (codé) et bien choisir l'encodage "UTF-8'

Du Txt vers Xml¶

Cependant, nous allons avoir besoin d’ajouter une étape supplémentaire : celle du nettoyage ou plutôt de l’encodage, afin de préciser dans chaque fichier les zones qui ne nous intéressent pas (a priori pour les écarter de l’interrogation).

La méthode que l’on utilise classiquement est d'encercler les bouts de texte qui ne nous intéressent pas, plutôt que de les supprimer définitivement du fichier (ex : la table des matières, des tableaux d’horaires/activités, etc.).

On le fait au moyen de balises (voici un exemple sur le fichier PEDT_Foix.xml :

Remarque : Qu’est-ce qu’une balise, c'est une portion de texte entourée de

<balise> marque le début
</balise> marque la fin

<signataires>
XII. SIGNATAIRES 
Fait à Foix le .......................................................... 
Le Maire de Foix 
Norbert MELER 
Le Préfet de l’Ariège 
Nathalie MARTHIEN 
L’Inspecteur d’Académie Directeur Académique des Services de l’Education Nationale 
Jacques BRIAND 
Le Président du Conseil Général de l’Ariège 
Henri NAYROU 
Le Président de la Région Midi-Pyrénées 
Martin MALVY 
Le Directeur de la Caisse d’Allocations Familiales de l’Ariège 
Alain MOUISSET 
Le Président de la Communauté de Communes du Pays de Foix 
Norbert MELER 
Martin MALVY 
43 
</signataires>

Les étapes :
1) On peut retravailler les fichiers TXT avec un éditeur spécifique comme « Oxygen » (licence gratuite à l’ENS) ou avec TXM directement (basculer sur l’explorateur de fichiers, voir autre copie écran plus bas).
2) enregistrer comme un autre fichier avec l’extension .xml.
Du coup on passe à un type d’import dans TXM, du niveau au dessus, plus intéressant qu’avec le texte brut (TXT).

Etape2-versTxt_choixEncodage.png (27,93 ko) Severine Gedzelman, 15/10/2015 06:57

Etape2-versTxt_enregistrementDepuisOpenOffice.png (245,12 ko) Severine Gedzelman, 15/10/2015 06:57

Etapes_projetPEDT_phases_PDFTexte.png (117,7 ko) Severine Gedzelman, 15/10/2015 12:01

Oxygen_CorpusPEDTXML.png (240,17 ko) Severine Gedzelman, 15/10/2015 12:13

TXM-EncodageTxt.png (222,97 ko) Severine Gedzelman, 15/10/2015 12:13

PEDT_Foix.xml (101,9 ko) Severine Gedzelman, 15/10/2015 12:13

pdftxt_vers_txt_avec_pdfminerpython.zip (524,85 ko) Severine Gedzelman, 08/06/2017 13:51

pdftxt_vers_txt_avecopenoffice.zip (9 Mo) Severine Gedzelman, 08/06/2017 13:51

Chantier HN Triangle » Corpus PEDT

Wiki

Transformations pour l'exploitation d'un corpus textuel¶

Le détail des transformations :¶

Du Odt vers Txt¶

Du Txt vers Xml¶