Transformation vers corpusHM
Version 3 (Severine Gedzelman, 26/09/2017 15:07)
1 | 1 | Severine Gedzelman | h1. Transformation vers un corpus parallèle (alignement HM) |
---|---|---|---|
2 | 1 | Severine Gedzelman | |
3 | 2 | Severine Gedzelman | Le document fourni par Uetani est un fichier word, organisé avec des tableaux à 3 colonnes : |
4 | 2 | Severine Gedzelman | * col 1 : nom du segment philologique (et notes diverses, dont certains acronymes sont à élucider pour moi) |
5 | 2 | Severine Gedzelman | * col 2 : version italienne |
6 | 2 | Severine Gedzelman | * col 3 : version française correspondante |
7 | 2 | Severine Gedzelman | |
8 | 2 | Severine Gedzelman | L'enregistrement du .doc vers .odt est obligatoire chez moi, car je ne possède pas de logiciel Microsoft. Pour obtenir un corpus en XML-TEI, on a besoin de passer par deux scripts : |
9 | 2 | Severine Gedzelman | * le premier est fourni par le service OXGarage (transformateur en ligne pour la communauté TEI principalement) |
10 | 2 | Severine Gedzelman | * le deuxième a été écrit en python par moi-même dont les détails sont après. |
11 | 2 | Severine Gedzelman | |
12 | 1 | Severine Gedzelman | h2. ODT vers XML-TEI |
13 | 1 | Severine Gedzelman | |
14 | 2 | Severine Gedzelman | * Le document de départ : attachment:CorpusSANAZIFR_Uetani_2017.odt |
15 | 2 | Severine Gedzelman | * Le document de sortie : attachment:CorpusSANAZIFR_Uetani_2017.xml |
16 | 2 | Severine Gedzelman | |
17 | 2 | Severine Gedzelman | Les choix ont été les suivants : |
18 | 2 | Severine Gedzelman | |
19 | 2 | Severine Gedzelman | !{width:80%}OXGarage_convertODT-2-TEI.png! |
20 | 2 | Severine Gedzelman | |
21 | 1 | Severine Gedzelman | h2. XML-TEI vers XML-TEI-HM |
22 | 2 | Severine Gedzelman | |
23 | 1 | Severine Gedzelman | Le script attachment:tei2teiHM.py permet de |
24 | 3 | Severine Gedzelman | * récupérer uniquement le texte : |
25 | 3 | Severine Gedzelman | ** sans les notes (de bas de page) |
26 | 3 | Severine Gedzelman | ** sans les indications graphiques (qui sont dans des balises <hi> avec attributs : italic, bold, ...) |
27 | 3 | Severine Gedzelman | * et de préparer la structure et les noms des divisions, segments dans celles-ci (voir le chapitre sur la [[structure philologique]], et les opérations de nettoyage) comme "Prosa_X_3-4" (*A NOTER CE QUE CELA SIGNIFIE !!*) |
28 | 2 | Severine Gedzelman | |
29 | 2 | Severine Gedzelman | <pre><code> |
30 | 2 | Severine Gedzelman | $ python tei2teiHM.py CorpusSANAZIFR_Uetani_2017.xml ~/Documents/Travail_ENS/Projets/Exterieurs/CESR_Uetani/Transformations |
31 | 2 | Severine Gedzelman | </code></pre> |