Transformation vers corpusHM avec XMLBVH¶
D'après Toshinori, une version en TEI-XML du texte français est en ligne, et fera l'objet d'une révision : http://xtf.bvh.univ-tours.fr/xtf/data/tei/B751131011_RES_YD_1184/B751131011_RES_YD_1184_tei.xml
A l'origine, ce texte en ligne provient de la même saisie manuelle, mais il n'est que partiellement transformé, l'état graphique est légèrement différent de celui de la version word bilingue.
Le modèle de données TEI du portail des BVH est riche et des choix seront faits pour supprimer ou non ces enrichissements :- marquage de la structure physique (line break, page break)
- marquage des entités nommés
- marquage de transcriptions concurrentes
Le contenu texte est vite récupérable depuis le fichier XML grâce à OxGarage, en inversant la procédure de transformation par rapport à notre première expérience sur le document bi-texte word : tei P5 vers OpenOffice (odt). Il est cependant nécessaire de faire une modification au fichier XML faisant référence à l'image de la préface, il suffit d'enlever <figure> et les sous-balises qu'elle contient :
<text type="Pastorale" xml:lang="frm">
<front>
<front>
<pb n="1" xml:id="B751131011_RES_YD_1184_001"/>
<titlePage>
<figure>
<graphic url="B751131011_RES_YD_1184.jpg"/>
<figDesc>
<ref target="http://gallica.bnf.fr/ark:/12148/bpt6k110564j">Courtesy of Gallica</ref>
</figDesc>
</figure>
...
</front>
....
</text>
Marques de l'édition/structure physique¶
J'entend- toutes les ruptures provenant de l'organisation de l'édition du texte : <lb>,<pb>, <fw>
- toutes les marques pour rendre compte de la forme de l'édition : <hi rend="spaceletter">
Marques d'entités¶
<geogName>, <persName>
Marques de transcriptions concurrentes¶
On préférera retenir seulement l'option <reg> (régularisé => normalisé)
<choice><orig>IAQVES</orig><reg>JAQUES</reg></choice>
Exemple complet d'une strophe / d'un tour de parole¶
Extrait provient de cette ressource : http://xtf.bvh.univ-tours.fr/xtf/data/tei/B751131011_RES_YD_1184/B751131011_RES_YD_1184_tei.xml
<sp who="#Uranio">
<lb/><speaker rend="center"><persName><choice><orig>Vranio</orig><reg>Uranio</reg></choice></persName>.</speaker>
<lg>
<l><persName>Nenny</persName>, mais <choice><orig>ie</orig><reg>je</reg></choice> te requier, dy</l>
<l>Celle qu’<choice><orig>auant</orig><reg>avant</reg></choice> hier a midy</l>
<l>Tu chantois emmy ce bourget:</l>
<l>Ell’ est doulce, et de bon <choice><orig>subiect</orig><reg>subject</reg></choice>.</l>
</lg>
</sp>
Apres transformation, l'extrait devrait ressembler à cela :
<sp who="#Uranio">
<lb/><speaker rend="center"><persName>Uranio</persName>.</speaker>
<lg>
<l>Nenny, mais je te requier, dy</l>
<l>Celle qu’avant hier a midy</l>
<l>Tu chantois emmy ce bourget:</l>
<l>Ell’ est doulce, et de bon subject.</l>
</lg>
</sp>