Transformation vers corpusHM
Version 8 (Severine Gedzelman, 26/09/2017 15:28)
1 | 1 | Severine Gedzelman | h1. Transformation vers un corpus parallèle (alignement HM) |
---|---|---|---|
2 | 1 | Severine Gedzelman | |
3 | 2 | Severine Gedzelman | Le document fourni par Uetani est un fichier word, organisé avec des tableaux à 3 colonnes : |
4 | 7 | Severine Gedzelman | ** col 1 : nom du segment philologique (et notes diverses, dont certains acronymes sont à élucider pour moi) |
5 | 7 | Severine Gedzelman | ** col 2 : version italienne |
6 | 7 | Severine Gedzelman | ** col 3 : version française correspondante |
7 | 2 | Severine Gedzelman | |
8 | 2 | Severine Gedzelman | L'enregistrement du .doc vers .odt est obligatoire chez moi, car je ne possède pas de logiciel Microsoft. Pour obtenir un corpus en XML-TEI, on a besoin de passer par deux scripts : |
9 | 7 | Severine Gedzelman | # le premier est fourni par le service "OXGarage":http://www.tei-c.org/oxgarage/ (transformateur en ligne pour la communauté TEI principalement) |
10 | 7 | Severine Gedzelman | # le deuxième a été écrit en python par moi-même dont les détails sont après. |
11 | 2 | Severine Gedzelman | |
12 | 1 | Severine Gedzelman | h2. ODT vers XML-TEI |
13 | 1 | Severine Gedzelman | |
14 | 2 | Severine Gedzelman | * Le document de départ : attachment:CorpusSANAZIFR_Uetani_2017.odt |
15 | 2 | Severine Gedzelman | * Le document de sortie : attachment:CorpusSANAZIFR_Uetani_2017.xml |
16 | 2 | Severine Gedzelman | |
17 | 6 | Severine Gedzelman | Les choix ont été les suivants sur "OxGarage":http://www.tei-c.org/oxgarage/ : OpenOffice texte (odt) en entrée, TEI P5 XML Document en sortie |
18 | 2 | Severine Gedzelman | |
19 | 2 | Severine Gedzelman | !{width:80%}OXGarage_convertODT-2-TEI.png! |
20 | 2 | Severine Gedzelman | |
21 | 8 | Severine Gedzelman | Les tableaux sont restitués avec également les éléments de forme et les notes de bas de page, un exemple de la dernière ligne (<row>) du dernier tableau (<table>) : |
22 | 5 | Severine Gedzelman | |
23 | 5 | Severine Gedzelman | <pre><code> |
24 | 5 | Severine Gedzelman | <table rend="frame" xml:id="Tableau4"> |
25 | 5 | Severine Gedzelman | <row> |
26 | 5 | Severine Gedzelman | <cell>Ecloga II, vv. 1-12</cell> |
27 | 5 | Severine Gedzelman | <cell>....</cell> |
28 | 5 | Severine Gedzelman | <cell>....</cell> |
29 | 5 | Severine Gedzelman | </row> |
30 | 5 | Severine Gedzelman | ... |
31 | 5 | Severine Gedzelman | </table> |
32 | 5 | Severine Gedzelman | <table> |
33 | 5 | Severine Gedzelman | ... |
34 | 5 | Severine Gedzelman | <row> |
35 | 5 | Severine Gedzelman | <cell>A la Sampogna, 19-20</cell> |
36 | 5 | Severine Gedzelman | <cell rend="justify"><hi rend="bold italic">Benché</hi><hi rend="italic"> mi |
37 | 5 | Severine Gedzelman | pare esser certo che tal fatica a tenon fia necessaria, se tu tra le |
38 | 5 | Severine Gedzelman | selve, sí come io ti impongo, secretamente e senza pompe star ti vorrai. |
39 | 5 | Severine Gedzelman | Con ciò sia cosa che chi non sale, non teme di cadere ; e chi cade nel |
40 | 5 | Severine Gedzelman | piano, il che rare volte adiviene, con picciolo agiuto</hi><hi |
41 | 5 | Severine Gedzelman | rend="italic"><note xml:id="ftn529" place="foot" n="529"> |
42 | 5 | Severine Gedzelman | <hi rend="italic">agiuto</hi> : aiuto (E).</note></hi><hi |
43 | 5 | Severine Gedzelman | rend="italic"> de la propria mano senza danno si rileva</hi><hi |
44 | 5 | Severine Gedzelman | rend="italic"><note xml:id="ftn530" place="foot" n="530"><hi |
45 | 5 | Severine Gedzelman | rend="italic"> rileva</hi> : risolleva, rialza |
46 | 5 | Severine Gedzelman | (E).</note></hi><hi rend="italic">. Onde per cosa vera e indubitata |
47 | 5 | Severine Gedzelman | tener ti puoi che chi piú di nascoso e piú lontano da la moltitudine |
48 | 5 | Severine Gedzelman | vive, miglior vive ; e colui tra' mortali si può con piú verità chiamar |
49 | 5 | Severine Gedzelman | beato che, senza invidia de le altrui grandezze, </hi><hi |
50 | 5 | Severine Gedzelman | rend="bold italic">con modesto animo</hi><hi rend="italic"> de la sua |
51 | 5 | Severine Gedzelman | fortuna si contenta (p. 241).</hi></cell> |
52 | 5 | Severine Gedzelman | <cell rend="justify"><hi rend="bold">Nonobstant</hi> je pense estre aßeuré que |
53 | 5 | Severine Gedzelman | n'auras besoing de ce faire, si suyvant mon conseil, tu te veul tenir en ces |
54 | 5 | Severine Gedzelman | boys secretement, & sans aucune pompe : Car qui ne saulte, n'a peur de |
55 | 5 | Severine Gedzelman | tumber : & qui chet en la plaine (ce que n'advient gueres) se relieve |
56 | 5 | Severine Gedzelman | sans dommage, seulement avec un peu de secours de ses propres mains. Parquoy |
57 | 5 | Severine Gedzelman | tu peux tenir pour chose indubitable, que celuy peult vivre en plus grand |
58 | 5 | Severine Gedzelman | repos, qui est plus loingtain & retiré de la multitude confuse. Et entre |
59 | 5 | Severine Gedzelman | les hommes se peult plus veritablement estimer bien heureux celuy qui sans |
60 | 5 | Severine Gedzelman | envie des grandeßes d'aultruy,<hi rend="bold">par </hi><hi |
61 | 5 | Severine Gedzelman | rend="bold italic">modestie</hi><hi rend="bold"> de courage</hi> se |
62 | 5 | Severine Gedzelman | contente de sa fortune (fol. 114 v°).</cell> |
63 | 5 | Severine Gedzelman | </row> |
64 | 5 | Severine Gedzelman | </table> |
65 | 5 | Severine Gedzelman | </code></pre> |
66 | 5 | Severine Gedzelman | |
67 | 1 | Severine Gedzelman | h2. XML-TEI vers XML-TEI-HM |
68 | 2 | Severine Gedzelman | |
69 | 1 | Severine Gedzelman | Le script attachment:tei2teiHM.py permet de |
70 | 3 | Severine Gedzelman | * récupérer uniquement le texte : |
71 | 3 | Severine Gedzelman | ** sans les notes (de bas de page) |
72 | 3 | Severine Gedzelman | ** sans les indications graphiques (qui sont dans des balises <hi> avec attributs : italic, bold, ...) |
73 | 4 | Severine Gedzelman | * et de préparer la structure et les noms des divisions, segments dans celles-ci, comme par exemple "Prosa_X" puis sous-division "Prosa_X_3-4" (pour plus d'info, voir le chapitre sur la [[structure philologique]], et les opérations de nettoyage) |
74 | 2 | Severine Gedzelman | |
75 | 2 | Severine Gedzelman | <pre><code> |
76 | 2 | Severine Gedzelman | $ python tei2teiHM.py CorpusSANAZIFR_Uetani_2017.xml ~/Documents/Travail_ENS/Projets/Exterieurs/CESR_Uetani/Transformations |
77 | 2 | Severine Gedzelman | </code></pre> |