« Précédent - Version 3/28 (diff) - Suivant » - Version actuelle
Severine Gedzelman, 26/09/2017 15:07

Transformation vers un corpus parallèle (alignement HM)¶

Le document fourni par Uetani est un fichier word, organisé avec des tableaux à 3 colonnes :

col 1 : nom du segment philologique (et notes diverses, dont certains acronymes sont à élucider pour moi)
col 2 : version italienne
col 3 : version française correspondante

L'enregistrement du .doc vers .odt est obligatoire chez moi, car je ne possède pas de logiciel Microsoft. Pour obtenir un corpus en XML-TEI, on a besoin de passer par deux scripts :

le premier est fourni par le service OXGarage (transformateur en ligne pour la communauté TEI principalement)
le deuxième a été écrit en python par moi-même dont les détails sont après.

ODT vers XML-TEI¶

Le document de départ : CorpusSANAZIFR_Uetani_2017.odt
Le document de sortie : CorpusSANAZIFR_Uetani_2017.xml

Les choix ont été les suivants :

XML-TEI vers XML-TEI-HM¶

Le script tei2teiHM.py permet de

récupérer uniquement le texte :
- sans les notes (de bas de page)
- sans les indications graphiques (qui sont dans des balises <hi> avec attributs : italic, bold, ...)
et de préparer la structure et les noms des divisions, segments dans celles-ci (voir le chapitre sur la structure philologique, et les opérations de nettoyage) comme "Prosa_X_3-4" (A NOTER CE QUE CELA SIGNIFIE !!)


$ python tei2teiHM.py CorpusSANAZIFR_Uetani_2017.xml ~/Documents/Travail_ENS/Projets/Exterieurs/CESR_Uetani/Transformations

OXGarage_convertODT-2-TEI.png (145,59 ko) Severine Gedzelman, 26/09/2017 15:00

tei2teiHM.py (15,09 ko) Severine Gedzelman, 26/09/2017 15:00

CorpusSANAZIFR_Uetani_2017.xml (751,7 ko) Severine Gedzelman, 26/09/2017 15:00

CorpusSANAZIFR_Uetani_2017.odt (302,79 ko) Severine Gedzelman, 26/09/2017 15:00

HM_HyperArcadia_AnnotateTranslationEquivalences.png (121,23 ko) Severine Gedzelman, 27/09/2017 12:16

HM_HyperArcadia_ItalianLexicon_list.png (65,92 ko) Severine Gedzelman, 28/09/2017 14:03

HM_HyperArcadia_ItalianLexicon_selection.png (68,07 ko) Severine Gedzelman, 28/09/2017 14:03

HM_HyperArcadia_KWIC_example.png (139,98 ko) Severine Gedzelman, 28/09/2017 14:03

Column.gif (953 octet) Severine Gedzelman, 28/09/2017 14:09

CorpusSANAZIFR_Uetani_2017_modifTable.xml (751,17 ko) Severine Gedzelman, 28/09/2017 14:22

HyperPrince.xml (150,82 ko) Severine Gedzelman, 28/09/2017 14:24

Chantier HN Triangle » HyperMachiavel » HyperArcadia

Wiki

Transformation vers un corpus parallèle (alignement HM)¶

ODT vers XML-TEI¶

XML-TEI vers XML-TEI-HM¶