« Précédent -
Version 6/21
(diff) -
Suivant » -
Version actuelle
Severine Gedzelman, 15/10/2015 06:48
Transformations pour l'exploitation d'un corpus textuel¶
TXT ne permet pas de rendre compte de différentes parties telles que les structures ou sections thématiques du fichier source (word ou rtf). XML en revanche peut être utilisé dans ce sens. On peut obtenir une transformation Word vers XML, avec l'utilisation d'un stylage, à voir !!!
Un premier processus de transformation des PDFs texte vers des fichiers exploitables pour TXM est le suivant :- a) enregistrer le PDF vers un format ODT (quand c'est possible)
- soit en copiant le texte depuis Adobe Reader ou Aperçu (de Macintosh, que je recommande car encodage des caractères semble mieux respecter),
- b) enregistrer le PDF vers un format TXT (moins bien car ne conserve plus les structures)
- soit en passant par le menu de Adobe Reader (Enregistrer au format texte)
- soit en passant par le fichier au format ODT, enregistrer sous (.txt)
Conclusion : à préférer une sortie word ou rtf pour garder la structure a minima des tableaux, etc…
Le détail des transformations :¶
ID | Nom fichier source (.pdf) | version .odt | version .txt | Remarques |
---|---|---|---|---|
t0001 | PEDT_Amfreville_La_mivoie.pdf | ok | ok | |
t0009 | PEDT_Brest.pdf | ok | ok | |
t0012 | PEDT_CC_Haute-Combraille.pdf | ok | ok | |
t0013 | PEDT_CC_Astarac_Arros_en_Gascog.pdf | ok | ok | |
t0014 | PEDT_CC_Piège.doc | ok | ok | |
t0016 | PEDT_CC_Mugron.pdf | ok | ok | |
t0018 | PEDT_CC-Haute-Combraille_DOUBLE.pdf | ok | ok | |
t0023 | PEDT_Coutouvre.pdf | ok | ok | |
t0024 | PEDT_Cyvrieux.doc | ok | ok | |
t0027 | PEDT_Dax.pdf | ok | ok | |
t0028 | PEDT_Ecuillé.pdf | ok | ok | |
t0030 | PEDT_Eragny.pdf | ok | ok | |
t0031 | PEDT_Faucognet.pdf | ok | ok | |
t0034 | PEDT_Frontignan.pdf | ok | ok | |
t0032 | PEDT_Fercé sur Sarthe.pdf | ok | ok | fait le 15/10/2015 avec Aperçu + Openoffice |