Transformation vers corpusHM

Version 4 (Severine Gedzelman, 26/09/2017 15:18)

1 1 Severine Gedzelman
h1. Transformation vers un corpus parallèle (alignement HM)
2 1 Severine Gedzelman
3 2 Severine Gedzelman
Le document fourni par Uetani est un fichier word, organisé avec des tableaux à 3 colonnes :
4 2 Severine Gedzelman
* col 1 : nom du segment philologique (et notes diverses, dont certains acronymes sont à élucider pour moi)
5 2 Severine Gedzelman
* col 2 : version italienne
6 2 Severine Gedzelman
* col 3 : version française correspondante
7 2 Severine Gedzelman
8 2 Severine Gedzelman
L'enregistrement du .doc vers .odt est obligatoire chez moi, car je ne possède pas de logiciel Microsoft. Pour obtenir un corpus en XML-TEI, on a besoin de passer par deux scripts :
9 2 Severine Gedzelman
* le premier est fourni par le service OXGarage (transformateur en ligne pour la communauté TEI principalement) 
10 2 Severine Gedzelman
* le deuxième a été écrit en python par moi-même dont les détails sont après.
11 2 Severine Gedzelman
12 1 Severine Gedzelman
h2. ODT vers XML-TEI
13 1 Severine Gedzelman
14 2 Severine Gedzelman
* Le document de départ : attachment:CorpusSANAZIFR_Uetani_2017.odt 
15 2 Severine Gedzelman
* Le document de sortie : attachment:CorpusSANAZIFR_Uetani_2017.xml
16 2 Severine Gedzelman
17 2 Severine Gedzelman
Les choix ont été les suivants :
18 2 Severine Gedzelman
19 2 Severine Gedzelman
!{width:80%}OXGarage_convertODT-2-TEI.png!
20 2 Severine Gedzelman
21 1 Severine Gedzelman
h2. XML-TEI vers XML-TEI-HM
22 2 Severine Gedzelman
23 1 Severine Gedzelman
Le script attachment:tei2teiHM.py permet de 
24 3 Severine Gedzelman
* récupérer uniquement le texte :
25 3 Severine Gedzelman
** sans les notes (de bas de page)
26 3 Severine Gedzelman
** sans les indications graphiques (qui sont dans des balises <hi> avec attributs : italic, bold, ...)
27 4 Severine Gedzelman
* et de préparer la structure et les noms des divisions, segments dans celles-ci, comme par exemple "Prosa_X" puis sous-division "Prosa_X_3-4" (pour plus d'info, voir le chapitre sur la [[structure philologique]], et les opérations de nettoyage) 
28 2 Severine Gedzelman
29 2 Severine Gedzelman
<pre><code>
30 2 Severine Gedzelman
$ python tei2teiHM.py CorpusSANAZIFR_Uetani_2017.xml ~/Documents/Travail_ENS/Projets/Exterieurs/CESR_Uetani/Transformations
31 2 Severine Gedzelman
</code></pre>