Transformation vers corpusHM
Version 10 (Severine Gedzelman, 26/09/2017 15:49)
1 | 1 | Severine Gedzelman | h1. Transformation vers un corpus parallèle (alignement HM) |
---|---|---|---|
2 | 1 | Severine Gedzelman | |
3 | 2 | Severine Gedzelman | Le document fourni par Uetani est un fichier word, organisé avec des tableaux à 3 colonnes : |
4 | 7 | Severine Gedzelman | ** col 1 : nom du segment philologique (et notes diverses, dont certains acronymes sont à élucider pour moi) |
5 | 7 | Severine Gedzelman | ** col 2 : version italienne |
6 | 7 | Severine Gedzelman | ** col 3 : version française correspondante |
7 | 2 | Severine Gedzelman | |
8 | 2 | Severine Gedzelman | L'enregistrement du .doc vers .odt est obligatoire chez moi, car je ne possède pas de logiciel Microsoft. Pour obtenir un corpus en XML-TEI, on a besoin de passer par deux scripts : |
9 | 7 | Severine Gedzelman | # le premier est fourni par le service "OXGarage":http://www.tei-c.org/oxgarage/ (transformateur en ligne pour la communauté TEI principalement) |
10 | 7 | Severine Gedzelman | # le deuxième a été écrit en python par moi-même dont les détails sont après. |
11 | 2 | Severine Gedzelman | |
12 | 1 | Severine Gedzelman | h2. ODT vers XML-TEI |
13 | 1 | Severine Gedzelman | |
14 | 2 | Severine Gedzelman | * Le document de départ : attachment:CorpusSANAZIFR_Uetani_2017.odt |
15 | 2 | Severine Gedzelman | * Le document de sortie : attachment:CorpusSANAZIFR_Uetani_2017.xml |
16 | 2 | Severine Gedzelman | |
17 | 6 | Severine Gedzelman | Les choix ont été les suivants sur "OxGarage":http://www.tei-c.org/oxgarage/ : OpenOffice texte (odt) en entrée, TEI P5 XML Document en sortie |
18 | 2 | Severine Gedzelman | |
19 | 2 | Severine Gedzelman | !{width:80%}OXGarage_convertODT-2-TEI.png! |
20 | 2 | Severine Gedzelman | |
21 | 8 | Severine Gedzelman | Les tableaux sont restitués avec également les éléments de forme et les notes de bas de page, un exemple de la dernière ligne (<row>) du dernier tableau (<table>) : |
22 | 5 | Severine Gedzelman | |
23 | 5 | Severine Gedzelman | <pre><code> |
24 | 5 | Severine Gedzelman | <table rend="frame" xml:id="Tableau4"> |
25 | 5 | Severine Gedzelman | <row> |
26 | 5 | Severine Gedzelman | <cell>Ecloga II, vv. 1-12</cell> |
27 | 5 | Severine Gedzelman | <cell>....</cell> |
28 | 5 | Severine Gedzelman | <cell>....</cell> |
29 | 5 | Severine Gedzelman | </row> |
30 | 5 | Severine Gedzelman | ... |
31 | 5 | Severine Gedzelman | </table> |
32 | 5 | Severine Gedzelman | <table> |
33 | 5 | Severine Gedzelman | ... |
34 | 5 | Severine Gedzelman | <row> |
35 | 5 | Severine Gedzelman | <cell>A la Sampogna, 19-20</cell> |
36 | 5 | Severine Gedzelman | <cell rend="justify"><hi rend="bold italic">Benché</hi><hi rend="italic"> mi |
37 | 5 | Severine Gedzelman | pare esser certo che tal fatica a tenon fia necessaria, se tu tra le |
38 | 5 | Severine Gedzelman | selve, sí come io ti impongo, secretamente e senza pompe star ti vorrai. |
39 | 5 | Severine Gedzelman | Con ciò sia cosa che chi non sale, non teme di cadere ; e chi cade nel |
40 | 5 | Severine Gedzelman | piano, il che rare volte adiviene, con picciolo agiuto</hi><hi |
41 | 5 | Severine Gedzelman | rend="italic"><note xml:id="ftn529" place="foot" n="529"> |
42 | 5 | Severine Gedzelman | <hi rend="italic">agiuto</hi> : aiuto (E).</note></hi><hi |
43 | 5 | Severine Gedzelman | rend="italic"> de la propria mano senza danno si rileva</hi><hi |
44 | 5 | Severine Gedzelman | rend="italic"><note xml:id="ftn530" place="foot" n="530"><hi |
45 | 5 | Severine Gedzelman | rend="italic"> rileva</hi> : risolleva, rialza |
46 | 5 | Severine Gedzelman | (E).</note></hi><hi rend="italic">. Onde per cosa vera e indubitata |
47 | 5 | Severine Gedzelman | tener ti puoi che chi piú di nascoso e piú lontano da la moltitudine |
48 | 5 | Severine Gedzelman | vive, miglior vive ; e colui tra' mortali si può con piú verità chiamar |
49 | 5 | Severine Gedzelman | beato che, senza invidia de le altrui grandezze, </hi><hi |
50 | 5 | Severine Gedzelman | rend="bold italic">con modesto animo</hi><hi rend="italic"> de la sua |
51 | 5 | Severine Gedzelman | fortuna si contenta (p. 241).</hi></cell> |
52 | 5 | Severine Gedzelman | <cell rend="justify"><hi rend="bold">Nonobstant</hi> je pense estre aßeuré que |
53 | 5 | Severine Gedzelman | n'auras besoing de ce faire, si suyvant mon conseil, tu te veul tenir en ces |
54 | 5 | Severine Gedzelman | boys secretement, & sans aucune pompe : Car qui ne saulte, n'a peur de |
55 | 5 | Severine Gedzelman | tumber : & qui chet en la plaine (ce que n'advient gueres) se relieve |
56 | 5 | Severine Gedzelman | sans dommage, seulement avec un peu de secours de ses propres mains. Parquoy |
57 | 5 | Severine Gedzelman | tu peux tenir pour chose indubitable, que celuy peult vivre en plus grand |
58 | 5 | Severine Gedzelman | repos, qui est plus loingtain & retiré de la multitude confuse. Et entre |
59 | 5 | Severine Gedzelman | les hommes se peult plus veritablement estimer bien heureux celuy qui sans |
60 | 5 | Severine Gedzelman | envie des grandeßes d'aultruy,<hi rend="bold">par </hi><hi |
61 | 5 | Severine Gedzelman | rend="bold italic">modestie</hi><hi rend="bold"> de courage</hi> se |
62 | 5 | Severine Gedzelman | contente de sa fortune (fol. 114 v°).</cell> |
63 | 5 | Severine Gedzelman | </row> |
64 | 5 | Severine Gedzelman | </table> |
65 | 5 | Severine Gedzelman | </code></pre> |
66 | 5 | Severine Gedzelman | |
67 | 1 | Severine Gedzelman | h2. XML-TEI vers XML-TEI-HM |
68 | 2 | Severine Gedzelman | |
69 | 9 | Severine Gedzelman | |
70 | 1 | Severine Gedzelman | Le script attachment:tei2teiHM.py permet de |
71 | 9 | Severine Gedzelman | * récupérer l'ensemble des deux textes : |
72 | 1 | Severine Gedzelman | ** sans les notes (de bas de page) |
73 | 3 | Severine Gedzelman | ** sans les indications graphiques (qui sont dans des balises <hi> avec attributs : italic, bold, ...) |
74 | 9 | Severine Gedzelman | * et de préparer la structure et les noms des divisions, et des segments contenus dans celles-ci. Par exemple la division est "Prosa_X" et les segments sont "Prosa_X_1", "Prosa_X_2", ... |
75 | 1 | Severine Gedzelman | |
76 | 9 | Severine Gedzelman | Pour plus d'info, voir le chapitre dédié à la [[structure philologique]], et les opérations de nettoyage effectuées jusqu'à présent. |
77 | 9 | Severine Gedzelman | |
78 | 9 | Severine Gedzelman | Le document XML-TEI a été légèrement modifié |
79 | 9 | Severine Gedzelman | # pour substituer "Ecloga" à "Egloga" (si nécessaire refaire la modification dans le sens inverse) |
80 | 9 | Severine Gedzelman | # pour récupérer les bonnes divisions, notamment un remplacement plus sémantique et logique des xml:id des tableaux. Cet attribut notait jusqu'à présent l'incrémentation ansi : "Tableau1", "Tableau2". Le remplacement donne par exemple : |
81 | 9 | Severine Gedzelman | |
82 | 1 | Severine Gedzelman | <pre><code> |
83 | 9 | Severine Gedzelman | <table rend="frame" xml:id="Prologo I"> ### anciennement xml:id="Tableau1" |
84 | 9 | Severine Gedzelman | </code></pre> |
85 | 9 | Severine Gedzelman | |
86 | 10 | Severine Gedzelman | <pre><code> |
87 | 10 | Severine Gedzelman | <table rend="frame" xml:id="Ecloga_XI"> |
88 | 10 | Severine Gedzelman | <row> |
89 | 10 | Severine Gedzelman | <cell>Ecloga XI, 0</cell> ### deviendra <head> |
90 | 10 | Severine Gedzelman | <cell rend="center">ERGASTO<hi rend="italic"> solo</hi></cell> |
91 | 10 | Severine Gedzelman | <cell>ERGASTO SEVL.</cell> |
92 | 10 | Severine Gedzelman | </row> |
93 | 10 | Severine Gedzelman | </code></pre> |
94 | 10 | Severine Gedzelman | |
95 | 9 | Severine Gedzelman | Pour appeler le script, il faut installer le programme "python" sur notre machine (par défaut, il existe une version sur les Mac, comme pour Java) et mettre les ressources côte à côte (fichier source de donnée .xml et fichier script .py) et indiquer le chemin du dossier où se trouve ces dernières : |
96 | 9 | Severine Gedzelman | |
97 | 9 | Severine Gedzelman | <pre><code> |
98 | 1 | Severine Gedzelman | $ python tei2teiHM.py CorpusSANAZIFR_Uetani_2017.xml ~/Documents/Travail_ENS/Projets/Exterieurs/CESR_Uetani/Transformations |
99 | 9 | Severine Gedzelman | </code></pre> |
100 | 9 | Severine Gedzelman | |
101 | 9 | Severine Gedzelman | Le résultat avec le même extrait 'XML-TEI' plus haut : |
102 | 9 | Severine Gedzelman | |
103 | 9 | Severine Gedzelman | <pre><code> |
104 | 9 | Severine Gedzelman | <seg n="69" type="Segment" xml:id="fr1_Ch13-Seg69" rend="A_la_Sampogna_19-20">Nonobstant je pense estre |
105 | 9 | Severine Gedzelman | aßeuré que n'auras besoing de ce faire, si suyvant mon conseil, tu |
106 | 9 | Severine Gedzelman | te veul tenir en ces boys secretement, & sans aucune pompe : Car qui ne |
107 | 9 | Severine Gedzelman | saulte, n'a peur de tumber : & qui chet en la plaine (ce que n'advient |
108 | 9 | Severine Gedzelman | gueres) se relieve sans dommage, seulement avec un peu de secours de ses |
109 | 9 | Severine Gedzelman | propres mains. Parquoy tu peux tenir pour chose indubitable, que celuy peult |
110 | 9 | Severine Gedzelman | vivre en plus grand repos, qui est plus loingtain & retiré de la |
111 | 9 | Severine Gedzelman | multitude confuse. Et entre les hommes se peult plus veritablement estimer |
112 | 9 | Severine Gedzelman | bien heureux celuy qui sans envie des grandeßes d'aultruy,par modestie |
113 | 9 | Severine Gedzelman | de courage se contente de sa fortune (fol. 114 v°).</seg> |
114 | 9 | Severine Gedzelman | </div> |
115 | 9 | Severine Gedzelman | </body> |
116 | 9 | Severine Gedzelman | </text> |
117 | 9 | Severine Gedzelman | </TEI> |
118 | 9 | Severine Gedzelman | </TeiCorpus> |
119 | 2 | Severine Gedzelman | </code></pre> |