PrepCorpusBarcelone-TXM

Version 1 (Severine Gedzelman, 11/07/2017 18:14)

1 1 Severine Gedzelman
h1. Préparation du corpus "Barcelone" pour TXM
2 1 Severine Gedzelman
3 1 Severine Gedzelman
Revoir les étapes pour le [[PrepCorpusPEDT-TXM|corpus PEDT]] éventuellement. Sinon en résumé il y a deux choix possibles :
4 1 Severine Gedzelman
5 1 Severine Gedzelman
* CHOIX 1 : Un corpus en catalan avec uniquement les textes t1, t2, t4 + un corpus en français avec t3
6 1 Severine Gedzelman
* CHOIX 2 : Un corpus plus détaillé avec plusieurs fichiers par source de texte : t1_1, t1_2, voir le détails avec le fichier des métadonnées (document#170)
7 1 Severine Gedzelman
* CHOIX 3 : Un corpus encore plus détaillé avec un codage des titres, notes, sections à ignorer par exemple les paragraphes de présentation de l'auteur, les tableaux, les libellés dans/des graphiques, etc...
8 1 Severine Gedzelman
9 1 Severine Gedzelman
Pour l'instant je n'ai préparé que le choix 2 : 
10 1 Severine Gedzelman
* document#171
11 1 Severine Gedzelman
* document#172