PrepCorpusPEDT-TXM

Version 7 (Severine Gedzelman, 08/06/2017 13:08)

1 1 Severine Gedzelman
h1. Préparation du corpus PEDT pour TXM
2 1 Severine Gedzelman
3 1 Severine Gedzelman
Deux contraintes avec TXM :
4 1 Severine Gedzelman
* il peut accepter une variété de format de fichiers, mais il faut qu'ils soient tous les mêmes au sein du même dossier "corpus" : soit du TXT (import TXT+CSV), soit du XML (import XML/w+CSV), soit du ODT/DOC (macro).
5 1 Severine Gedzelman
* même remarque pour l'encodage, et par recommandation, il faudra veiller à ce que l'on est au final des textes en UTF-8. 
6 1 Severine Gedzelman
7 6 Severine Gedzelman
!{width:40%}Etapes_projetPEDT.jpg!
8 6 Severine Gedzelman
9 6 Severine Gedzelman
10 1 Severine Gedzelman
h2. 1) Transformer les documents en texte brut
11 1 Severine Gedzelman
12 1 Severine Gedzelman
h3. Les sources
13 1 Severine Gedzelman
14 1 Severine Gedzelman
Le corpus d'origine (après récupération des sources auprès des collectivités) est composé de fichiers avec une variété de formats :
15 1 Severine Gedzelman
* des fichiers en DOCX, convertis en TXT, (nb = 14, voir [[originaldoc_to_txt|la page de suivi]])
16 1 Severine Gedzelman
* des fichiers PDF dont certaines sont à l'état d'images, d'autres ont été enregistrés en mode texte, dont le contenu pourra être accessible sans moyen d'OCR. Même si il existe des utilitaires pour convertir PDF en TXT, cela ne sera pas applicable pour tous les fichiers.
17 1 Severine Gedzelman
** "image" (nb = 50, voir [[originalpdfimage_to_txt|la page de suivi]])
18 4 Severine Gedzelman
*** Exemple de pdf uniquement image : attachment:PEDT_Amplepuis.pdf, attachment:"PEDT_Vitry champagne.pdf"
19 1 Severine Gedzelman
** "texte" (nb = 43, voir [[originalpdftexte_totxt|la page de suivi]])
20 1 Severine Gedzelman
*** Exemple de pdf potentiellement extractable : attachment:PEDT_Amfreville_La_mivoie.pdf, attachment:PEDT_CC_Mugron.pdf
21 1 Severine Gedzelman
22 1 Severine Gedzelman
23 1 Severine Gedzelman
Pour la manipulation, l'exploration, l'analyse textuelle assistée par ordinateur, selon les outils envisagés, cette non homogénéité du contenu des fichiers pose évidemment problème et il faudra recourir à différents services (OCR, utilitaire pour convertir ODT en TXT, etc...)
24 1 Severine Gedzelman
25 1 Severine Gedzelman
h3. Les étapes de transformation
26 1 Severine Gedzelman
27 1 Severine Gedzelman
Les étapes sont les suivantes, voir éventuellement [[ToExploitableCorpus_step|cette section]]  détaillant les différentes possibilités pour obtenir du texte brut à partir de fichiers variés (PDF image, texte, ODT, DOC, etc...). 
28 1 Severine Gedzelman
29 1 Severine Gedzelman
A) +Si les documents sont à l'origine des PDF-texte+, soit :
30 1 Severine Gedzelman
- dans AdobeReader (Fichier > enregistrer sous une autre forme (texte brut))
31 1 Severine Gedzelman
- en copiant le texte depuis Adobe vers un document word et enregistrement au format "texte brut"
32 1 Severine Gedzelman
- (nettoyer éventuellement en supprimant des parties du texte non reconnues ou inutiles pour l'analyse)
33 1 Severine Gedzelman
34 1 Severine Gedzelman
B) +Si les documents sont à l'origine des PDF-image+, 
35 1 Severine Gedzelman
# passer par un OCR, voir [[OCR_step|la section dédiée à cette phase]]
36 1 Severine Gedzelman
# récupérer des ODT
37 1 Severine Gedzelman
# (nettoyer éventuellement en supprimant des parties du texte non reconnues ou inutiles pour l'analyse)
38 1 Severine Gedzelman
# ouvrir et enregistrer les fichiers au format TXT
39 1 Severine Gedzelman
40 1 Severine Gedzelman
C) +Si les documents sont à l'origine des DOC(X) ou ODT+
41 1 Severine Gedzelman
- (nettoyer éventuellement en supprimant des parties du texte non reconnues ou inutiles pour l'analyse)
42 1 Severine Gedzelman
- ouvrir et enregistrer les fichiers au format TXT
43 1 Severine Gedzelman
44 1 Severine Gedzelman
h2. 2) Ajouter un fichier de métadonnées
45 1 Severine Gedzelman
46 5 Severine Gedzelman
47 5 Severine Gedzelman
TXM a besoin d'un fichier recensant quelques informations à propos de chaque texte. Les métadonnées vont nous permettre de créer des partitions, des sous-ensembles de textes basés sur une propriété commune et permettre ainsi le calcul du tableau lexical correspondant (avec n colonnes selon la division de l'ensemble). Celui-ci sera utilisé pour calculer les spécificités et in fine une représentation graphique "AFC", basée soit sur l'ensemble du tableau ou sur un sous-ensemble lexical du tableau (fmin > 10 est souvent préconisé). 
48 5 Severine Gedzelman
Ces info sur les textes, permettent aussi de compléter le tableau résultats des recherches, notamment dans les concordances à la colonne "référence" (que l'on peut éditer avec plus ou moins d'information : Nom du texte, Nom du producteur du texte, Date du texte, etc...)
49 5 Severine Gedzelman
50 5 Severine Gedzelman
Ces variables - métadonnées sur chaque texte, ne sont pas toutes obligatoires, cependant dans une pratique de création de corpus numérique comme un objet de recherche à un instant T, on recommande toujours d'associer un texte avec entre autres des information sur sa condition de production (personne ou caractéristique sociale de la personne produisant le texte, destinataire du texte, date du texte, etc...). 
51 5 Severine Gedzelman
52 5 Severine Gedzelman
Voici les variables retenues par Renaud Morel :
53 5 Severine Gedzelman
54 5 Severine Gedzelman
55 5 Severine Gedzelman
** parti politique
56 5 Severine Gedzelman
** département ou région géographique, ou définir des zones avec "rural", "péri-urbain", "urbain"
57 5 Severine Gedzelman
** etc...
58 5 Severine Gedzelman
59 5 Severine Gedzelman
Dans un premier temps, nous aurons un fichier excel (attachment:metadata_corpus_PEDT.xls), qui sera plus riche en colonnes, que ce que nous aurons à donner à TXM, car cela nous permettra également de faire un suivi de chaque fichier dans leurs différentes étapes de transformation.
60 5 Severine Gedzelman
61 5 Severine Gedzelman
[PARTIE A REVOIR]
62 5 Severine Gedzelman
63 5 Severine Gedzelman
64 5 Severine Gedzelman
Il y a 10 colonnes :
65 5 Severine Gedzelman
* id : identifiant pour le texte, donné de manière automatique dans excel, sera utile lors de l'utilisation dans TXM (histoire d'avoir un nom court pour l'affichage et évitant le problème d'homonymie) 
66 5 Severine Gedzelman
* parti : A VOIR SI PERTINENT
67 5 Severine Gedzelman
* source : le nom du fichier (pas forcément tel que récupéré, car on évite de donner des noms avec diacritiques et espaces)
68 5 Severine Gedzelman
* ville : nom de la ville (municipalité) ou groupe
69 5 Severine Gedzelman
* villeproche : A VOIR SI PERTINENT
70 5 Severine Gedzelman
* region : A VOIR SI PERTINENT
71 5 Severine Gedzelman
* fichiertype : image ou texte (PDF, parfois si c'est texte, il s'agissait peut-être d'un .odt ou word)
72 5 Severine Gedzelman
* ocr : si le fichier image a une version OCR
73 5 Severine Gedzelman
* odt : si le fichier texte a une version OpenOffice 
74 5 Severine Gedzelman
* txt : si le fichier texte a une version TXT
75 5 Severine Gedzelman
76 5 Severine Gedzelman
|_. id	 |_. parti  |_. source  |_. ville  |_. villeproche  |_. region  |_. fichiertype  |_. ocr  |_. odt  |_. txt |
77 5 Severine Gedzelman
| t0001 | droite	| PEDT_Amfreville_La_mivoie.pdf | AmfrevilleLaMivoie |  | Nord |  texte |  | ok | ok |
78 5 Severine Gedzelman
| t0002 | gauche | PEDT_Amplepuis.pdf | Amplepuis	| Lyon | Sud-Est | image | enattente	 |  |  |
79 5 Severine Gedzelman
80 1 Severine Gedzelman
h2. 3) Importer dans TXM
81 1 Severine Gedzelman
82 3 Severine Gedzelman
Nous utilisons l'import TXT + CSV (aller dans le menu "Fichier" > "Importer" > "TXT + CSV")
83 1 Severine Gedzelman
84 1 Severine Gedzelman
Pour aller plus loin dans les requêtes, peut-être aurons-nous intérêt à transformer et encoder le corpus en XML.
85 3 Severine Gedzelman
86 3 Severine Gedzelman
Le paramétrage :
87 3 Severine Gedzelman
** choisir l'encodage : utf-8
88 3 Severine Gedzelman
** vérifier le tableau des métadonnées
89 3 Severine Gedzelman
** donner une petite description (@author, @date, @title, ...)
90 3 Severine Gedzelman
91 3 Severine Gedzelman
On pourra ré-importer plusieurs fois le même corpus au fur et à mesure qu'il grossit (ajout de textes supplémentaires). Dans ce cas, bien penser à supprimer le corpus "PEDT" précédent dans TXM.
92 3 Severine Gedzelman
93 1 Severine Gedzelman
!{width:70%}TXM_Import_Parametrages.png!
94 7 Severine Gedzelman
95 7 Severine Gedzelman
h3. Par rapport à la phase de lemmatisation
96 7 Severine Gedzelman
97 7 Severine Gedzelman
Elle est outre-passée (c.a.d optionnelle), si TXM ne trouve pas la ressource TreeTagger 
98 7 Severine Gedzelman
** à la fois le programme TT (que TXM embarque dans un de ses sous-dossiers)
99 7 Severine Gedzelman
** et les modèles de langue : fr/en/... qui sont eux à télécharger sur le site de TT et à placer dans ce sous-dossier "models" du dossier TT de TXM
100 7 Severine Gedzelman
101 7 Severine Gedzelman
Parfois TT n'est pas très bon, et dans ce cas un autre lemmatiseur pourrait être utilisé en dehors de TXM, il faudra dans ce cas, faire un import plus riche que du simple TXT, soit du XML <word>.