PrepCorpusPEDT-TXM
Version 3 (Severine Gedzelman, 08/06/2017 12:39)
1 | 1 | Severine Gedzelman | h1. Préparation du corpus PEDT pour TXM |
---|---|---|---|
2 | 1 | Severine Gedzelman | |
3 | 1 | Severine Gedzelman | Deux contraintes avec TXM : |
4 | 1 | Severine Gedzelman | * il peut accepter une variété de format de fichiers, mais il faut qu'ils soient tous les mêmes au sein du même dossier "corpus" : soit du TXT (import TXT+CSV), soit du XML (import XML/w+CSV), soit du ODT/DOC (macro). |
5 | 1 | Severine Gedzelman | * même remarque pour l'encodage, et par recommandation, il faudra veiller à ce que l'on est au final des textes en UTF-8. |
6 | 1 | Severine Gedzelman | |
7 | 1 | Severine Gedzelman | h2. 1) Transformer les documents en texte brut |
8 | 1 | Severine Gedzelman | |
9 | 1 | Severine Gedzelman | h3. Les sources |
10 | 1 | Severine Gedzelman | |
11 | 1 | Severine Gedzelman | Le corpus d'origine (après récupération des sources auprès des collectivités) est composé de fichiers avec une variété de formats : |
12 | 1 | Severine Gedzelman | * des fichiers en DOCX, convertis en TXT, (nb = 14, voir [[originaldoc_to_txt|la page de suivi]]) |
13 | 1 | Severine Gedzelman | * des fichiers PDF dont certaines sont à l'état d'images, d'autres ont été enregistrés en mode texte, dont le contenu pourra être accessible sans moyen d'OCR. Même si il existe des utilitaires pour convertir PDF en TXT, cela ne sera pas applicable pour tous les fichiers. |
14 | 1 | Severine Gedzelman | ** "image" (nb = 50, voir [[originalpdfimage_to_txt|la page de suivi]]) |
15 | 1 | Severine Gedzelman | *** Exemple de pdf uniquement image : attachment:PEDT_Amplepuis.pdf, attachment:PEDT_CC_Vitry_Champagne_et_Der.pdf |
16 | 1 | Severine Gedzelman | ** "texte" (nb = 43, voir [[originalpdftexte_totxt|la page de suivi]]) |
17 | 1 | Severine Gedzelman | *** Exemple de pdf potentiellement extractable : attachment:PEDT_Amfreville_La_mivoie.pdf, attachment:PEDT_CC_Mugron.pdf |
18 | 1 | Severine Gedzelman | |
19 | 1 | Severine Gedzelman | |
20 | 1 | Severine Gedzelman | Pour la manipulation, l'exploration, l'analyse textuelle assistée par ordinateur, selon les outils envisagés, cette non homogénéité du contenu des fichiers pose évidemment problème et il faudra recourir à différents services (OCR, utilitaire pour convertir ODT en TXT, etc...) |
21 | 1 | Severine Gedzelman | |
22 | 1 | Severine Gedzelman | h3. Les étapes de transformation |
23 | 1 | Severine Gedzelman | |
24 | 1 | Severine Gedzelman | Les étapes sont les suivantes, voir éventuellement [[ToExploitableCorpus_step|cette section]] détaillant les différentes possibilités pour obtenir du texte brut à partir de fichiers variés (PDF image, texte, ODT, DOC, etc...). |
25 | 1 | Severine Gedzelman | |
26 | 1 | Severine Gedzelman | A) +Si les documents sont à l'origine des PDF-texte+, soit : |
27 | 1 | Severine Gedzelman | - dans AdobeReader (Fichier > enregistrer sous une autre forme (texte brut)) |
28 | 1 | Severine Gedzelman | - en copiant le texte depuis Adobe vers un document word et enregistrement au format "texte brut" |
29 | 1 | Severine Gedzelman | - (nettoyer éventuellement en supprimant des parties du texte non reconnues ou inutiles pour l'analyse) |
30 | 1 | Severine Gedzelman | |
31 | 1 | Severine Gedzelman | B) +Si les documents sont à l'origine des PDF-image+, |
32 | 1 | Severine Gedzelman | # passer par un OCR, voir [[OCR_step|la section dédiée à cette phase]] |
33 | 1 | Severine Gedzelman | # récupérer des ODT |
34 | 1 | Severine Gedzelman | # (nettoyer éventuellement en supprimant des parties du texte non reconnues ou inutiles pour l'analyse) |
35 | 1 | Severine Gedzelman | # ouvrir et enregistrer les fichiers au format TXT |
36 | 1 | Severine Gedzelman | |
37 | 1 | Severine Gedzelman | C) +Si les documents sont à l'origine des DOC(X) ou ODT+ |
38 | 1 | Severine Gedzelman | - (nettoyer éventuellement en supprimant des parties du texte non reconnues ou inutiles pour l'analyse) |
39 | 1 | Severine Gedzelman | - ouvrir et enregistrer les fichiers au format TXT |
40 | 1 | Severine Gedzelman | |
41 | 1 | Severine Gedzelman | |
42 | 1 | Severine Gedzelman | h2. 2) Ajouter un fichier de métadonnées |
43 | 1 | Severine Gedzelman | |
44 | 1 | Severine Gedzelman | Les métadonnées vont nous permettre de partitionner (calcul des spécificités et AFC) et de renseigner les résultats dans les concordances par exemple (ex: éditer l'affichage des références). |
45 | 1 | Severine Gedzelman | |
46 | 1 | Severine Gedzelman | h2. 3) Importer dans TXM |
47 | 1 | Severine Gedzelman | |
48 | 3 | Severine Gedzelman | Nous utilisons l'import TXT + CSV (aller dans le menu "Fichier" > "Importer" > "TXT + CSV") |
49 | 1 | Severine Gedzelman | |
50 | 1 | Severine Gedzelman | Pour aller plus loin dans les requêtes, peut-être aurons-nous intérêt à transformer et encoder le corpus en XML. |
51 | 3 | Severine Gedzelman | |
52 | 3 | Severine Gedzelman | Le paramétrage : |
53 | 3 | Severine Gedzelman | ** choisir l'encodage : utf-8 |
54 | 3 | Severine Gedzelman | ** vérifier le tableau des métadonnées |
55 | 3 | Severine Gedzelman | ** donner une petite description (@author, @date, @title, ...) |
56 | 3 | Severine Gedzelman | |
57 | 3 | Severine Gedzelman | On pourra ré-importer plusieurs fois le même corpus au fur et à mesure qu'il grossit (ajout de textes supplémentaires). Dans ce cas, bien penser à supprimer le corpus "PEDT" précédent dans TXM. |
58 | 3 | Severine Gedzelman | |
59 | 3 | Severine Gedzelman | !{width:70%}TXM_Import_Parametrages.png! |