« Précédent - Version 10/12 (diff) - Suivant » - Version actuelle
Simon Payen De La Garanderie, 08/06/2017 14:31


Préparation du corpus PEDT pour TXM

Deux contraintes avec TXM :
  • il peut accepter une variété de format de fichiers, mais il faut qu'ils soient tous les mêmes au sein du même dossier "corpus" : soit du TXT (import TXT+CSV), soit du XML (import XML/w+CSV), soit du ODT/DOC (macro).
  • même remarque pour l'encodage, et par recommandation, il faudra veiller à ce que l'on est au final des textes en UTF-8.

1) Transformer les documents en texte brut

Les sources

Le corpus d'origine (après récupération des sources auprès des collectivités) est composé de fichiers avec une variété de formats :

Pour la manipulation, l'exploration, l'analyse textuelle assistée par ordinateur, selon les outils envisagés, cette non homogénéité du contenu des fichiers pose évidemment problème et il faudra recourir à différents services (OCR, utilitaire pour convertir ODT en TXT, etc...)

Les étapes de transformation

Les étapes sont les suivantes, voir éventuellement cette section détaillant les différentes possibilités pour obtenir du texte brut à partir de fichiers variés (PDF image, texte, ODT, DOC, etc...).

A) Si les documents sont à l'origine des PDF-texte, soit :
- dans AdobeReader (Fichier > enregistrer sous une autre forme (texte brut))
- en copiant le texte depuis Adobe vers un document word et enregistrement au format "texte brut"
- (nettoyer éventuellement en supprimant des parties du texte non reconnues ou inutiles pour l'analyse)

B) Si les documents sont à l'origine des PDF-image,
  1. passer par un OCR, voir la section dédiée à cette phase
  2. récupérer des ODT
  3. (nettoyer éventuellement en supprimant des parties du texte non reconnues ou inutiles pour l'analyse)
  4. ouvrir et enregistrer les fichiers au format TXT

C) Si les documents sont à l'origine des DOC ou ODT
- (nettoyer éventuellement en supprimant des parties du texte non reconnues ou inutiles pour l'analyse)
- ouvrir et enregistrer les fichiers au format TXT

2) Ajouter un fichier de métadonnées

TXM a besoin d'un fichier recensant quelques informations à propos de chaque texte. Les métadonnées vont nous permettre de créer des partitions, des sous-ensembles de textes basés sur une propriété commune et permettre ainsi le calcul du tableau lexical correspondant (avec n colonnes selon la division de l'ensemble). Celui-ci sera utilisé pour calculer les spécificités et in fine une représentation graphique "AFC", basée soit sur l'ensemble du tableau ou sur un sous-ensemble lexical du tableau (fmin > 10 est souvent préconisé).
Ces info sur les textes, permettent aussi de compléter le tableau résultats des recherches, notamment dans les concordances à la colonne "référence" (que l'on peut éditer avec plus ou moins d'information : Nom du texte, Nom du producteur du texte, Date du texte, etc...)

Ces variables - métadonnées sur chaque texte, ne sont pas toutes obligatoires, cependant dans une pratique de création de corpus numérique comme un objet de recherche à un instant T, on recommande toujours d'associer un texte avec entre autres des information sur sa condition de production (personne ou caractéristique sociale de la personne produisant le texte, destinataire du texte, date du texte, etc...).

Voici les variables retenues par Renaud Morel

_intitulé _variable TXM
• Situation géographique de la commune. zone
• Nombre d’habitants de la commune. habitants
• Orientation politique de la municipalité. pol
• Présence ou non d’un collège en Réseau d’Education Prioritaire sur le territoire de la commune. rep
• Appartenance ou non de la commune au Réseau Français des villes éducatrices. rfve
• La médiane du revenu disponible en 2012 revenu
• Taux de pauvreté en 2012 pauvrete

Dans un premier temps, nous aurons un fichier excel (attachment:metadata_corpus_PEDT.xls), qui sera plus riche en colonnes, que ce que nous aurons à donner à TXM, car cela nous permettra également de faire un suivi de chaque fichier dans leurs différentes étapes de transformation.

[PARTIE A REVOIR]

Il y a 10 colonnes :
  • id : identifiant pour le texte, donné de manière automatique dans excel, sera utile lors de l'utilisation dans TXM (histoire d'avoir un nom court pour l'affichage et évitant le problème d'homonymie)
  • parti : A VOIR SI PERTINENT
  • source : le nom du fichier (pas forcément tel que récupéré, car on évite de donner des noms avec diacritiques et espaces)
  • ville : nom de la ville (municipalité) ou groupe
  • villeproche : A VOIR SI PERTINENT
  • region : A VOIR SI PERTINENT
  • fichiertype : image ou texte (PDF, parfois si c'est texte, il s'agissait peut-être d'un .odt ou word)
  • ocr : si le fichier image a une version OCR
  • odt : si le fichier texte a une version OpenOffice
  • txt : si le fichier texte a une version TXT
id parti source ville villeproche region fichiertype ocr odt txt
t0001 droite PEDT_Amfreville_La_mivoie.pdf AmfrevilleLaMivoie Nord texte ok ok
t0002 gauche PEDT_Amplepuis.pdf Amplepuis Lyon Sud-Est image enattente

3) Importer dans TXM

Nous utilisons l'import TXT + CSV (aller dans le menu "Fichier" > "Importer" > "TXT + CSV")

Pour aller plus loin dans les requêtes, peut-être aurons-nous intérêt à transformer et encoder le corpus en XML (voir ce chapitre).

Le paramétrage :
  • choisir l'encodage : utf-8
  • vérifier le tableau des métadonnées
  • donner une petite description (@author, @date, @title, ...)

On pourra ré-importer plusieurs fois le même corpus au fur et à mesure qu'il grossit (ajout de textes supplémentaires). Dans ce cas, bien penser à supprimer le corpus "PEDT" précédent dans TXM.

Par rapport à la phase de lemmatisation

Elle est outre-passée (c.a.d optionnelle), si TXM ne trouve pas la ressource TreeTagger
  • à la fois le programme TT (que TXM embarque dans un de ses sous-dossiers)
  • et les modèles de langue : fr/en/... qui sont eux à télécharger sur le site de TT et à placer dans ce sous-dossier "models" du dossier TT de TXM

Parfois TT n'est pas très bon, et dans ce cas un autre lemmatiseur pourrait être utilisé en dehors de TXM, il faudra dans ce cas, faire un import plus riche que du simple TXT, soit du XML <word>.

TXM_Import_Parametrages.png (205,64 ko) Severine Gedzelman, 08/06/2017 12:39

PEDT_Amplepuis.pdf (4,86 Mo) Severine Gedzelman, 08/06/2017 12:43

PEDT_CC_Mugron.pdf (896,24 ko) Severine Gedzelman, 08/06/2017 12:43

PEDT_Vitry champagne.pdf (323,82 ko) Severine Gedzelman, 08/06/2017 12:43

PEDT_Amfreville_La_mivoie.pdf (762,17 ko) Severine Gedzelman, 08/06/2017 12:43

Etapes_projetPEDT.jpg (120,02 ko) Severine Gedzelman, 08/06/2017 12:57