« Précédent -
Version 6/28
(diff) -
Suivant » -
Version actuelle
Severine Gedzelman, 26/09/2017 15:27
Transformation vers un corpus parallèle (alignement HM)¶
Le document fourni par Uetani est un fichier word, organisé avec des tableaux à 3 colonnes :- col 1 : nom du segment philologique (et notes diverses, dont certains acronymes sont à élucider pour moi)
- col 2 : version italienne
- col 3 : version française correspondante
- le premier est fourni par le service OXGarage (transformateur en ligne pour la communauté TEI principalement)
- le deuxième a été écrit en python par moi-même dont les détails sont après.
ODT vers XML-TEI¶
- Le document de départ : CorpusSANAZIFR_Uetani_2017.odt
- Le document de sortie : CorpusSANAZIFR_Uetani_2017.xml
Les choix ont été les suivants sur OxGarage : OpenOffice texte (odt) en entrée, TEI P5 XML Document en sortie
Les tableaux sont restitués avec également les éléments de forme et les notes de bas de page, un exemple sur la dernière ligne du dernier tableau :
<table rend="frame" xml:id="Tableau4">
<row>
<cell>Ecloga II, vv. 1-12</cell>
<cell>....</cell>
<cell>....</cell>
</row>
...
</table>
<table>
...
<row>
<cell>A la Sampogna, 19-20</cell>
<cell rend="justify"><hi rend="bold italic">Benché</hi><hi rend="italic"> mi
pare esser certo che tal fatica a tenon fia necessaria, se tu tra le
selve, sí come io ti impongo, secretamente e senza pompe star ti vorrai.
Con ciò sia cosa che chi non sale, non teme di cadere ; e chi cade nel
piano, il che rare volte adiviene, con picciolo agiuto</hi><hi
rend="italic"><note xml:id="ftn529" place="foot" n="529">
<hi rend="italic">agiuto</hi> : aiuto (E).</note></hi><hi
rend="italic"> de la propria mano senza danno si rileva</hi><hi
rend="italic"><note xml:id="ftn530" place="foot" n="530"><hi
rend="italic"> rileva</hi> : risolleva, rialza
(E).</note></hi><hi rend="italic">. Onde per cosa vera e indubitata
tener ti puoi che chi piú di nascoso e piú lontano da la moltitudine
vive, miglior vive ; e colui tra' mortali si può con piú verità chiamar
beato che, senza invidia de le altrui grandezze, </hi><hi
rend="bold italic">con modesto animo</hi><hi rend="italic"> de la sua
fortuna si contenta (p. 241).</hi></cell>
<cell rend="justify"><hi rend="bold">Nonobstant</hi> je pense estre aßeuré que
n'auras besoing de ce faire, si suyvant mon conseil, tu te veul tenir en ces
boys secretement, & sans aucune pompe : Car qui ne saulte, n'a peur de
tumber : & qui chet en la plaine (ce que n'advient gueres) se relieve
sans dommage, seulement avec un peu de secours de ses propres mains. Parquoy
tu peux tenir pour chose indubitable, que celuy peult vivre en plus grand
repos, qui est plus loingtain & retiré de la multitude confuse. Et entre
les hommes se peult plus veritablement estimer bien heureux celuy qui sans
envie des grandeßes d'aultruy,<hi rend="bold">par </hi><hi
rend="bold italic">modestie</hi><hi rend="bold"> de courage</hi> se
contente de sa fortune (fol. 114 v°).</cell>
</row>
</table>
XML-TEI vers XML-TEI-HM¶
Le script tei2teiHM.py permet de- récupérer uniquement le texte :
- sans les notes (de bas de page)
- sans les indications graphiques (qui sont dans des balises <hi> avec attributs : italic, bold, ...)
- et de préparer la structure et les noms des divisions, segments dans celles-ci, comme par exemple "Prosa_X" puis sous-division "Prosa_X_3-4" (pour plus d'info, voir le chapitre sur la structure philologique, et les opérations de nettoyage)
$ python tei2teiHM.py CorpusSANAZIFR_Uetani_2017.xml ~/Documents/Travail_ENS/Projets/Exterieurs/CESR_Uetani/Transformations