Transformation vers corpusHM

Version 6 (Severine Gedzelman, 26/09/2017 15:27)

1 1 Severine Gedzelman
h1. Transformation vers un corpus parallèle (alignement HM)
2 1 Severine Gedzelman
3 2 Severine Gedzelman
Le document fourni par Uetani est un fichier word, organisé avec des tableaux à 3 colonnes :
4 2 Severine Gedzelman
* col 1 : nom du segment philologique (et notes diverses, dont certains acronymes sont à élucider pour moi)
5 2 Severine Gedzelman
* col 2 : version italienne
6 2 Severine Gedzelman
* col 3 : version française correspondante
7 2 Severine Gedzelman
8 2 Severine Gedzelman
L'enregistrement du .doc vers .odt est obligatoire chez moi, car je ne possède pas de logiciel Microsoft. Pour obtenir un corpus en XML-TEI, on a besoin de passer par deux scripts :
9 2 Severine Gedzelman
* le premier est fourni par le service OXGarage (transformateur en ligne pour la communauté TEI principalement) 
10 2 Severine Gedzelman
* le deuxième a été écrit en python par moi-même dont les détails sont après.
11 2 Severine Gedzelman
12 1 Severine Gedzelman
h2. ODT vers XML-TEI
13 1 Severine Gedzelman
14 2 Severine Gedzelman
* Le document de départ : attachment:CorpusSANAZIFR_Uetani_2017.odt 
15 2 Severine Gedzelman
* Le document de sortie : attachment:CorpusSANAZIFR_Uetani_2017.xml
16 2 Severine Gedzelman
17 6 Severine Gedzelman
Les choix ont été les suivants sur "OxGarage":http://www.tei-c.org/oxgarage/ : OpenOffice texte (odt) en entrée, TEI P5 XML Document en sortie
18 2 Severine Gedzelman
19 2 Severine Gedzelman
!{width:80%}OXGarage_convertODT-2-TEI.png!
20 2 Severine Gedzelman
21 5 Severine Gedzelman
Les tableaux sont restitués avec également les éléments de forme et les notes de bas de page, un exemple sur la dernière ligne du dernier tableau :
22 5 Severine Gedzelman
23 5 Severine Gedzelman
<pre><code> 
24 5 Severine Gedzelman
       <table rend="frame" xml:id="Tableau4">
25 5 Severine Gedzelman
                <row>
26 5 Severine Gedzelman
                    <cell>Ecloga II, vv. 1-12</cell>
27 5 Severine Gedzelman
                    <cell>....</cell>
28 5 Severine Gedzelman
                    <cell>....</cell>
29 5 Severine Gedzelman
               </row>
30 5 Severine Gedzelman
              ...
31 5 Severine Gedzelman
      </table>
32 5 Severine Gedzelman
      <table>
33 5 Severine Gedzelman
              ...
34 5 Severine Gedzelman
               <row>
35 5 Severine Gedzelman
                    <cell>A la Sampogna, 19-20</cell>
36 5 Severine Gedzelman
                    <cell rend="justify"><hi rend="bold italic">Benché</hi><hi rend="italic"> mi
37 5 Severine Gedzelman
                            pare esser certo che tal fatica a tenon fia necessaria, se tu tra le
38 5 Severine Gedzelman
                            selve, sí come io ti impongo, secretamente e senza pompe star ti vorrai.
39 5 Severine Gedzelman
                            Con ciò sia cosa che chi non sale, non teme di cadere ; e chi cade nel
40 5 Severine Gedzelman
                            piano, il che rare volte adiviene, con picciolo agiuto</hi><hi
41 5 Severine Gedzelman
                            rend="italic"><note xml:id="ftn529" place="foot" n="529">
42 5 Severine Gedzelman
                                <hi rend="italic">agiuto</hi> : aiuto (E).</note></hi><hi
43 5 Severine Gedzelman
                            rend="italic"> de la propria mano senza danno si rileva</hi><hi
44 5 Severine Gedzelman
                            rend="italic"><note xml:id="ftn530" place="foot" n="530"><hi
45 5 Severine Gedzelman
                                    rend="italic"> rileva</hi> : risolleva, rialza
46 5 Severine Gedzelman
                            (E).</note></hi><hi rend="italic">. Onde per cosa vera e indubitata
47 5 Severine Gedzelman
                            tener ti puoi che chi piú di nascoso e piú lontano da la moltitudine
48 5 Severine Gedzelman
                            vive, miglior vive ; e colui tra' mortali si può con piú verità chiamar
49 5 Severine Gedzelman
                            beato che, senza invidia de le altrui grandezze, </hi><hi
50 5 Severine Gedzelman
                            rend="bold italic">con modesto animo</hi><hi rend="italic"> de la sua
51 5 Severine Gedzelman
                            fortuna si contenta (p. 241).</hi></cell>
52 5 Severine Gedzelman
                    <cell rend="justify"><hi rend="bold">Nonobstant</hi> je pense estre aßeuré que
53 5 Severine Gedzelman
                        n'auras besoing de ce faire, si suyvant mon conseil, tu te veul tenir en ces
54 5 Severine Gedzelman
                        boys secretement, &amp; sans aucune pompe : Car qui ne saulte, n'a peur de
55 5 Severine Gedzelman
                        tumber : &amp; qui chet en la plaine (ce que n'advient gueres) se relieve
56 5 Severine Gedzelman
                        sans dommage, seulement avec un peu de secours de ses propres mains. Parquoy
57 5 Severine Gedzelman
                        tu peux tenir pour chose indubitable, que celuy peult vivre en plus grand
58 5 Severine Gedzelman
                        repos, qui est plus loingtain &amp; retiré de la multitude confuse. Et entre
59 5 Severine Gedzelman
                        les hommes se peult plus veritablement estimer bien heureux celuy qui sans
60 5 Severine Gedzelman
                        envie des grandeßes d'aultruy,<hi rend="bold">par </hi><hi
61 5 Severine Gedzelman
                            rend="bold italic">modestie</hi><hi rend="bold"> de courage</hi> se
62 5 Severine Gedzelman
                        contente de sa fortune (fol. 114 v°).</cell>
63 5 Severine Gedzelman
                </row>
64 5 Severine Gedzelman
     </table>
65 5 Severine Gedzelman
</code></pre>
66 5 Severine Gedzelman
67 1 Severine Gedzelman
h2. XML-TEI vers XML-TEI-HM
68 2 Severine Gedzelman
69 1 Severine Gedzelman
Le script attachment:tei2teiHM.py permet de 
70 3 Severine Gedzelman
* récupérer uniquement le texte :
71 3 Severine Gedzelman
** sans les notes (de bas de page)
72 3 Severine Gedzelman
** sans les indications graphiques (qui sont dans des balises <hi> avec attributs : italic, bold, ...)
73 4 Severine Gedzelman
* et de préparer la structure et les noms des divisions, segments dans celles-ci, comme par exemple "Prosa_X" puis sous-division "Prosa_X_3-4" (pour plus d'info, voir le chapitre sur la [[structure philologique]], et les opérations de nettoyage) 
74 2 Severine Gedzelman
75 2 Severine Gedzelman
<pre><code>
76 2 Severine Gedzelman
$ python tei2teiHM.py CorpusSANAZIFR_Uetani_2017.xml ~/Documents/Travail_ENS/Projets/Exterieurs/CESR_Uetani/Transformations
77 2 Severine Gedzelman
</code></pre>