PrepCorpusBarcelone-TXM
Version 1 (Severine Gedzelman, 11/07/2017 18:14)
1 | 1 | Severine Gedzelman | h1. Préparation du corpus "Barcelone" pour TXM |
---|---|---|---|
2 | 1 | Severine Gedzelman | |
3 | 1 | Severine Gedzelman | Revoir les étapes pour le [[PrepCorpusPEDT-TXM|corpus PEDT]] éventuellement. Sinon en résumé il y a deux choix possibles : |
4 | 1 | Severine Gedzelman | |
5 | 1 | Severine Gedzelman | * CHOIX 1 : Un corpus en catalan avec uniquement les textes t1, t2, t4 + un corpus en français avec t3 |
6 | 1 | Severine Gedzelman | * CHOIX 2 : Un corpus plus détaillé avec plusieurs fichiers par source de texte : t1_1, t1_2, voir le détails avec le fichier des métadonnées (document#170) |
7 | 1 | Severine Gedzelman | * CHOIX 3 : Un corpus encore plus détaillé avec un codage des titres, notes, sections à ignorer par exemple les paragraphes de présentation de l'auteur, les tableaux, les libellés dans/des graphiques, etc... |
8 | 1 | Severine Gedzelman | |
9 | 1 | Severine Gedzelman | Pour l'instant je n'ai préparé que le choix 2 : |
10 | 1 | Severine Gedzelman | * document#171 |
11 | 1 | Severine Gedzelman | * document#172 |