« Précédent - Version 10/28 (diff) - Suivant » - Version actuelle
Severine Gedzelman, 26/09/2017 15:49


Transformation vers un corpus parallèle (alignement HM)

Le document fourni par Uetani est un fichier word, organisé avec des tableaux à 3 colonnes :
  • col 1 : nom du segment philologique (et notes diverses, dont certains acronymes sont à élucider pour moi)
  • col 2 : version italienne
  • col 3 : version française correspondante
L'enregistrement du .doc vers .odt est obligatoire chez moi, car je ne possède pas de logiciel Microsoft. Pour obtenir un corpus en XML-TEI, on a besoin de passer par deux scripts :
  1. le premier est fourni par le service OXGarage (transformateur en ligne pour la communauté TEI principalement)
  2. le deuxième a été écrit en python par moi-même dont les détails sont après.

ODT vers XML-TEI

Les choix ont été les suivants sur OxGarage : OpenOffice texte (odt) en entrée, TEI P5 XML Document en sortie

Les tableaux sont restitués avec également les éléments de forme et les notes de bas de page, un exemple de la dernière ligne (<row>) du dernier tableau (<table>) :

 
       <table rend="frame" xml:id="Tableau4">
                <row>
                    <cell>Ecloga II, vv. 1-12</cell>
                    <cell>....</cell>
                    <cell>....</cell>
               </row>
              ...
      </table>
      <table>
              ...
               <row>
                    <cell>A la Sampogna, 19-20</cell>
                    <cell rend="justify"><hi rend="bold italic">Benché</hi><hi rend="italic"> mi
                            pare esser certo che tal fatica a tenon fia necessaria, se tu tra le
                            selve, sí come io ti impongo, secretamente e senza pompe star ti vorrai.
                            Con ciò sia cosa che chi non sale, non teme di cadere ; e chi cade nel
                            piano, il che rare volte adiviene, con picciolo agiuto</hi><hi
                            rend="italic"><note xml:id="ftn529" place="foot" n="529">
                                <hi rend="italic">agiuto</hi> : aiuto (E).</note></hi><hi
                            rend="italic"> de la propria mano senza danno si rileva</hi><hi
                            rend="italic"><note xml:id="ftn530" place="foot" n="530"><hi
                                    rend="italic"> rileva</hi> : risolleva, rialza
                            (E).</note></hi><hi rend="italic">. Onde per cosa vera e indubitata
                            tener ti puoi che chi piú di nascoso e piú lontano da la moltitudine
                            vive, miglior vive ; e colui tra' mortali si può con piú verità chiamar
                            beato che, senza invidia de le altrui grandezze, </hi><hi
                            rend="bold italic">con modesto animo</hi><hi rend="italic"> de la sua
                            fortuna si contenta (p. 241).</hi></cell>
                    <cell rend="justify"><hi rend="bold">Nonobstant</hi> je pense estre aßeuré que
                        n'auras besoing de ce faire, si suyvant mon conseil, tu te veul tenir en ces
                        boys secretement, &amp; sans aucune pompe : Car qui ne saulte, n'a peur de
                        tumber : &amp; qui chet en la plaine (ce que n'advient gueres) se relieve
                        sans dommage, seulement avec un peu de secours de ses propres mains. Parquoy
                        tu peux tenir pour chose indubitable, que celuy peult vivre en plus grand
                        repos, qui est plus loingtain &amp; retiré de la multitude confuse. Et entre
                        les hommes se peult plus veritablement estimer bien heureux celuy qui sans
                        envie des grandeßes d'aultruy,<hi rend="bold">par </hi><hi
                            rend="bold italic">modestie</hi><hi rend="bold"> de courage</hi> se
                        contente de sa fortune (fol. 114 v°).</cell>
                </row>
     </table>

XML-TEI vers XML-TEI-HM

Le script tei2teiHM.py permet de
  • récupérer l'ensemble des deux textes :
    • sans les notes (de bas de page)
    • sans les indications graphiques (qui sont dans des balises <hi> avec attributs : italic, bold, ...)
  • et de préparer la structure et les noms des divisions, et des segments contenus dans celles-ci. Par exemple la division est "Prosa_X" et les segments sont "Prosa_X_1", "Prosa_X_2", ...

Pour plus d'info, voir le chapitre dédié à la structure philologique, et les opérations de nettoyage effectuées jusqu'à présent.

Le document XML-TEI a été légèrement modifié
  1. pour substituer "Ecloga" à "Egloga" (si nécessaire refaire la modification dans le sens inverse)
  2. pour récupérer les bonnes divisions, notamment un remplacement plus sémantique et logique des xml:id des tableaux. Cet attribut notait jusqu'à présent l'incrémentation ansi : "Tableau1", "Tableau2". Le remplacement donne par exemple :

  <table rend="frame" xml:id="Prologo I"> ### anciennement xml:id="Tableau1" 

<table rend="frame" xml:id="Ecloga_XI">
                <row>
                    <cell>Ecloga XI, 0</cell> ### deviendra <head>
                    <cell rend="center">ERGASTO<hi rend="italic"> solo</hi></cell>
                    <cell>ERGASTO SEVL.</cell>
                </row>

Pour appeler le script, il faut installer le programme "python" sur notre machine (par défaut, il existe une version sur les Mac, comme pour Java) et mettre les ressources côte à côte (fichier source de donnée .xml et fichier script .py) et indiquer le chemin du dossier où se trouve ces dernières :


$ python tei2teiHM.py CorpusSANAZIFR_Uetani_2017.xml ~/Documents/Travail_ENS/Projets/Exterieurs/CESR_Uetani/Transformations

Le résultat avec le même extrait 'XML-TEI' plus haut :


 <seg n="69" type="Segment" xml:id="fr1_Ch13-Seg69" rend="A_la_Sampogna_19-20">Nonobstant je pense estre
                        a&#223;eur&#233; que n'auras besoing de ce faire, si suyvant mon conseil, tu
                        te veul tenir en ces boys secretement, &amp; sans aucune pompe : Car qui ne
                        saulte, n'a peur de tumber : &amp; qui chet en la plaine (ce que n'advient
                        gueres) se relieve sans dommage, seulement avec un peu de secours de ses
                        propres mains. Parquoy tu peux tenir pour chose indubitable, que celuy peult
                        vivre en plus grand repos, qui est plus loingtain &amp; retir&#233; de la
                        multitude confuse. Et entre les hommes se peult plus veritablement estimer
                        bien heureux celuy qui sans envie des grande&#223;es d'aultruy,par modestie
                        de courage se contente de sa fortune (fol. 114 v&#176;).</seg>
                </div>
            </body>
        </text>
    </TEI>
</TeiCorpus>

OXGarage_convertODT-2-TEI.png (145,59 ko) Severine Gedzelman, 26/09/2017 15:00

tei2teiHM.py Magnifier (15,09 ko) Severine Gedzelman, 26/09/2017 15:00

CorpusSANAZIFR_Uetani_2017.xml Magnifier (751,7 ko) Severine Gedzelman, 26/09/2017 15:00

CorpusSANAZIFR_Uetani_2017.odt (302,79 ko) Severine Gedzelman, 26/09/2017 15:00

HM_HyperArcadia_AnnotateTranslationEquivalences.png (121,23 ko) Severine Gedzelman, 27/09/2017 12:16

HM_HyperArcadia_ItalianLexicon_list.png (65,92 ko) Severine Gedzelman, 28/09/2017 14:03

HM_HyperArcadia_ItalianLexicon_selection.png (68,07 ko) Severine Gedzelman, 28/09/2017 14:03

HM_HyperArcadia_KWIC_example.png (139,98 ko) Severine Gedzelman, 28/09/2017 14:03

Column.gif (953 octet) Severine Gedzelman, 28/09/2017 14:09

CorpusSANAZIFR_Uetani_2017_modifTable.xml Magnifier (751,17 ko) Severine Gedzelman, 28/09/2017 14:22

HyperPrince.xml Magnifier (150,82 ko) Severine Gedzelman, 28/09/2017 14:24