PrepCorpusPEDT-TXM

Version 1 (Severine Gedzelman, 08/06/2017 12:33)

1 1 Severine Gedzelman
h1. Préparation du corpus PEDT pour TXM
2 1 Severine Gedzelman
3 1 Severine Gedzelman
Deux contraintes avec TXM :
4 1 Severine Gedzelman
* il peut accepter une variété de format de fichiers, mais il faut qu'ils soient tous les mêmes au sein du même dossier "corpus" : soit du TXT (import TXT+CSV), soit du XML (import XML/w+CSV), soit du ODT/DOC (macro).
5 1 Severine Gedzelman
* même remarque pour l'encodage, et par recommandation, il faudra veiller à ce que l'on est au final des textes en UTF-8. 
6 1 Severine Gedzelman
7 1 Severine Gedzelman
h2. 1) Transformer les documents en texte brut
8 1 Severine Gedzelman
9 1 Severine Gedzelman
h3. Les sources
10 1 Severine Gedzelman
11 1 Severine Gedzelman
Le corpus d'origine (après récupération des sources auprès des collectivités) est composé de fichiers avec une variété de formats :
12 1 Severine Gedzelman
* des fichiers en DOCX, convertis en TXT, (nb = 14, voir [[originaldoc_to_txt|la page de suivi]])
13 1 Severine Gedzelman
* des fichiers PDF dont certaines sont à l'état d'images, d'autres ont été enregistrés en mode texte, dont le contenu pourra être accessible sans moyen d'OCR. Même si il existe des utilitaires pour convertir PDF en TXT, cela ne sera pas applicable pour tous les fichiers.
14 1 Severine Gedzelman
** "image" (nb = 50, voir [[originalpdfimage_to_txt|la page de suivi]])
15 1 Severine Gedzelman
*** Exemple de pdf uniquement image : attachment:PEDT_Amplepuis.pdf, attachment:PEDT_CC_Vitry_Champagne_et_Der.pdf
16 1 Severine Gedzelman
** "texte" (nb = 43, voir [[originalpdftexte_totxt|la page de suivi]])
17 1 Severine Gedzelman
*** Exemple de pdf potentiellement extractable : attachment:PEDT_Amfreville_La_mivoie.pdf, attachment:PEDT_CC_Mugron.pdf
18 1 Severine Gedzelman
19 1 Severine Gedzelman
20 1 Severine Gedzelman
Pour la manipulation, l'exploration, l'analyse textuelle assistée par ordinateur, selon les outils envisagés, cette non homogénéité du contenu des fichiers pose évidemment problème et il faudra recourir à différents services (OCR, utilitaire pour convertir ODT en TXT, etc...)
21 1 Severine Gedzelman
22 1 Severine Gedzelman
h3. Les étapes de transformation
23 1 Severine Gedzelman
24 1 Severine Gedzelman
Les étapes sont les suivantes, voir éventuellement [[ToExploitableCorpus_step|cette section]]  détaillant les différentes possibilités pour obtenir du texte brut à partir de fichiers variés (PDF image, texte, ODT, DOC, etc...). 
25 1 Severine Gedzelman
26 1 Severine Gedzelman
A) +Si les documents sont à l'origine des PDF-texte+, soit :
27 1 Severine Gedzelman
- dans AdobeReader (Fichier > enregistrer sous une autre forme (texte brut))
28 1 Severine Gedzelman
- en copiant le texte depuis Adobe vers un document word et enregistrement au format "texte brut"
29 1 Severine Gedzelman
- (nettoyer éventuellement en supprimant des parties du texte non reconnues ou inutiles pour l'analyse)
30 1 Severine Gedzelman
31 1 Severine Gedzelman
B) +Si les documents sont à l'origine des PDF-image+, 
32 1 Severine Gedzelman
# passer par un OCR, voir [[OCR_step|la section dédiée à cette phase]]
33 1 Severine Gedzelman
# récupérer des ODT
34 1 Severine Gedzelman
# (nettoyer éventuellement en supprimant des parties du texte non reconnues ou inutiles pour l'analyse)
35 1 Severine Gedzelman
# ouvrir et enregistrer les fichiers au format TXT
36 1 Severine Gedzelman
37 1 Severine Gedzelman
C) +Si les documents sont à l'origine des DOC(X) ou ODT+
38 1 Severine Gedzelman
- (nettoyer éventuellement en supprimant des parties du texte non reconnues ou inutiles pour l'analyse)
39 1 Severine Gedzelman
- ouvrir et enregistrer les fichiers au format TXT
40 1 Severine Gedzelman
41 1 Severine Gedzelman
42 1 Severine Gedzelman
h2. 2) Ajouter un fichier de métadonnées
43 1 Severine Gedzelman
44 1 Severine Gedzelman
Les métadonnées vont nous permettre de partitionner (calcul des spécificités et AFC) et de renseigner les résultats dans les concordances par exemple (ex: éditer l'affichage des références).
45 1 Severine Gedzelman
46 1 Severine Gedzelman
h2. 3) Importer dans TXM
47 1 Severine Gedzelman
48 1 Severine Gedzelman
Aller dans le menu "Fichier" > "Importer" > "TXT + CSV"
49 1 Severine Gedzelman
50 1 Severine Gedzelman
Pour aller plus loin dans les requêtes, peut-être aurons-nous intérêt à transformer et encoder le corpus en XML.
51 1 Severine Gedzelman
52 1 Severine Gedzelman
h2. Quelques utilisations sur le corpus test (2015-07-24)
53 1 Severine Gedzelman
54 1 Severine Gedzelman
h3. Importation
55 1 Severine Gedzelman
56 1 Severine Gedzelman
Le paramétrage :
57 1 Severine Gedzelman
** choisir l'encodage : utf-8
58 1 Severine Gedzelman
** vérifier le tableau des métadonnées
59 1 Severine Gedzelman
** donner une petite description (@author, @date, @title, ...)
60 1 Severine Gedzelman
61 1 Severine Gedzelman
On pourra ré-importer plusieurs fois le même corpus au fur et à mesure qu'il grossit (ajout de textes supplémentaires). Dans ce cas, bien penser à supprimer le corpus "PEDT" précédent dans TXM.
62 1 Severine Gedzelman
63 1 Severine Gedzelman
!{width:70%}TXM_Import_Parametrages.png!
64 1 Severine Gedzelman
65 1 Severine Gedzelman
h3. Des concordances possibles
66 1 Severine Gedzelman
67 1 Severine Gedzelman
Avec une interrogation sur les formes graphiques correspondant à des verbes.
68 1 Severine Gedzelman
69 1 Severine Gedzelman
!{width:70%}TXM_Corpus_ConcordanceNiveauGrammatical.png!
70 1 Severine Gedzelman
71 1 Severine Gedzelman
Avec une possibilité de mettre le concordancier dans la fenêtre du bas pour avoir le retour au texte en parallèle.
72 1 Severine Gedzelman
73 1 Severine Gedzelman
!{width:70%}TXM_Corpus_ConcodanceRetourAuTexte.png!
74 1 Severine Gedzelman
75 1 Severine Gedzelman
Avec une interrogation sur deux mots qui seraient co-présents dans une même phrase (éloignés de 10 mots max)
76 1 Severine Gedzelman
77 1 Severine Gedzelman
!{width:70%}TXM_Corpus_Concordance2motseloignes.png!
78 1 Severine Gedzelman
79 1 Severine Gedzelman
h3. Spécificités 
80 1 Severine Gedzelman
81 1 Severine Gedzelman
Sur le mot "Aptitude" (propre au texte de "PEDT_Amfreville_La_mivoie.pdf"
82 1 Severine Gedzelman
!{width:70%}TXM_Partition_Specificites_M=Aptitude.png!
83 1 Severine Gedzelman
84 1 Severine Gedzelman
85 1 Severine Gedzelman
Sur le mot "Autonomie" (propre au texte de "PEDT_Brest.pdf"
86 1 Severine Gedzelman
!{width:70%}TXM_Partition_Specificites_M=Autonomie.png!