Transformation vers corpusHM
Version 3 (Severine Gedzelman, 26/09/2017 15:07) → Version 4/28 (Severine Gedzelman, 26/09/2017 15:18)
h1. Transformation vers un corpus parallèle (alignement HM)
Le document fourni par Uetani est un fichier word, organisé avec des tableaux à 3 colonnes :
* col 1 : nom du segment philologique (et notes diverses, dont certains acronymes sont à élucider pour moi)
* col 2 : version italienne
* col 3 : version française correspondante
L'enregistrement du .doc vers .odt est obligatoire chez moi, car je ne possède pas de logiciel Microsoft. Pour obtenir un corpus en XML-TEI, on a besoin de passer par deux scripts :
* le premier est fourni par le service OXGarage (transformateur en ligne pour la communauté TEI principalement)
* le deuxième a été écrit en python par moi-même dont les détails sont après.
h2. ODT vers XML-TEI
* Le document de départ : attachment:CorpusSANAZIFR_Uetani_2017.odt
* Le document de sortie : attachment:CorpusSANAZIFR_Uetani_2017.xml
Les choix ont été les suivants :
!{width:80%}OXGarage_convertODT-2-TEI.png!
h2. XML-TEI vers XML-TEI-HM
Le script attachment:tei2teiHM.py permet de
* récupérer uniquement le texte :
** sans les notes (de bas de page)
** sans les indications graphiques (qui sont dans des balises <hi> avec attributs : italic, bold, ...)
* et de préparer la structure et les noms des divisions, segments dans celles-ci, comme par exemple "Prosa_X" puis sous-division "Prosa_X_3-4" (pour plus d'info, voir celles-ci (voir le chapitre sur la [[structure philologique]], et les opérations de nettoyage)
comme "Prosa_X_3-4" (*A NOTER CE QUE CELA SIGNIFIE !!*)
<pre><code>
$ python tei2teiHM.py CorpusSANAZIFR_Uetani_2017.xml ~/Documents/Travail_ENS/Projets/Exterieurs/CESR_Uetani/Transformations
</code></pre>
Le document fourni par Uetani est un fichier word, organisé avec des tableaux à 3 colonnes :
* col 1 : nom du segment philologique (et notes diverses, dont certains acronymes sont à élucider pour moi)
* col 2 : version italienne
* col 3 : version française correspondante
L'enregistrement du .doc vers .odt est obligatoire chez moi, car je ne possède pas de logiciel Microsoft. Pour obtenir un corpus en XML-TEI, on a besoin de passer par deux scripts :
* le premier est fourni par le service OXGarage (transformateur en ligne pour la communauté TEI principalement)
* le deuxième a été écrit en python par moi-même dont les détails sont après.
h2. ODT vers XML-TEI
* Le document de départ : attachment:CorpusSANAZIFR_Uetani_2017.odt
* Le document de sortie : attachment:CorpusSANAZIFR_Uetani_2017.xml
Les choix ont été les suivants :
!{width:80%}OXGarage_convertODT-2-TEI.png!
h2. XML-TEI vers XML-TEI-HM
Le script attachment:tei2teiHM.py permet de
* récupérer uniquement le texte :
** sans les notes (de bas de page)
** sans les indications graphiques (qui sont dans des balises <hi> avec attributs : italic, bold, ...)
* et de préparer la structure et les noms des divisions, segments dans celles-ci, comme par exemple "Prosa_X" puis sous-division "Prosa_X_3-4" (pour plus d'info, voir celles-ci (voir le chapitre sur la [[structure philologique]], et les opérations de nettoyage)
comme "Prosa_X_3-4" (*A NOTER CE QUE CELA SIGNIFIE !!*)
<pre><code>
$ python tei2teiHM.py CorpusSANAZIFR_Uetani_2017.xml ~/Documents/Travail_ENS/Projets/Exterieurs/CESR_Uetani/Transformations
</code></pre>