« Précédent - Version 4/12 (diff) - Suivant » - Version actuelle
Severine Gedzelman, 08/06/2017 12:44


Préparation du corpus PEDT pour TXM

Deux contraintes avec TXM :
  • il peut accepter une variété de format de fichiers, mais il faut qu'ils soient tous les mêmes au sein du même dossier "corpus" : soit du TXT (import TXT+CSV), soit du XML (import XML/w+CSV), soit du ODT/DOC (macro).
  • même remarque pour l'encodage, et par recommandation, il faudra veiller à ce que l'on est au final des textes en UTF-8.

1) Transformer les documents en texte brut

Les sources

Le corpus d'origine (après récupération des sources auprès des collectivités) est composé de fichiers avec une variété de formats :

Pour la manipulation, l'exploration, l'analyse textuelle assistée par ordinateur, selon les outils envisagés, cette non homogénéité du contenu des fichiers pose évidemment problème et il faudra recourir à différents services (OCR, utilitaire pour convertir ODT en TXT, etc...)

Les étapes de transformation

Les étapes sont les suivantes, voir éventuellement cette section détaillant les différentes possibilités pour obtenir du texte brut à partir de fichiers variés (PDF image, texte, ODT, DOC, etc...).

A) Si les documents sont à l'origine des PDF-texte, soit :
- dans AdobeReader (Fichier > enregistrer sous une autre forme (texte brut))
- en copiant le texte depuis Adobe vers un document word et enregistrement au format "texte brut"
- (nettoyer éventuellement en supprimant des parties du texte non reconnues ou inutiles pour l'analyse)

B) Si les documents sont à l'origine des PDF-image,
  1. passer par un OCR, voir la section dédiée à cette phase
  2. récupérer des ODT
  3. (nettoyer éventuellement en supprimant des parties du texte non reconnues ou inutiles pour l'analyse)
  4. ouvrir et enregistrer les fichiers au format TXT

C) Si les documents sont à l'origine des DOC ou ODT
- (nettoyer éventuellement en supprimant des parties du texte non reconnues ou inutiles pour l'analyse)
- ouvrir et enregistrer les fichiers au format TXT

2) Ajouter un fichier de métadonnées

Les métadonnées vont nous permettre de partitionner (calcul des spécificités et AFC) et de renseigner les résultats dans les concordances par exemple (ex: éditer l'affichage des références).

3) Importer dans TXM

Nous utilisons l'import TXT + CSV (aller dans le menu "Fichier" > "Importer" > "TXT + CSV")

Pour aller plus loin dans les requêtes, peut-être aurons-nous intérêt à transformer et encoder le corpus en XML.

Le paramétrage :
  • choisir l'encodage : utf-8
  • vérifier le tableau des métadonnées
  • donner une petite description (@author, @date, @title, ...)

On pourra ré-importer plusieurs fois le même corpus au fur et à mesure qu'il grossit (ajout de textes supplémentaires). Dans ce cas, bien penser à supprimer le corpus "PEDT" précédent dans TXM.

TXM_Import_Parametrages.png (205,64 ko) Severine Gedzelman, 08/06/2017 12:39

PEDT_Amplepuis.pdf (4,86 Mo) Severine Gedzelman, 08/06/2017 12:43

PEDT_CC_Mugron.pdf (896,24 ko) Severine Gedzelman, 08/06/2017 12:43

PEDT_Vitry champagne.pdf (323,82 ko) Severine Gedzelman, 08/06/2017 12:43

PEDT_Amfreville_La_mivoie.pdf (762,17 ko) Severine Gedzelman, 08/06/2017 12:43

Etapes_projetPEDT.jpg (120,02 ko) Severine Gedzelman, 08/06/2017 12:57