Structure philologique¶
Cette structure a été extraite du fichier de travail de Uetani (SANAZIFR 2017.doc) qui a été enregistré au format ODT (attachment:CorpusSANAZIFR_Uetani_2017.odt) pour pouvoir le modifier sur ma machine et être transformé en XML-TEI avec le service OxGarage. La transformation est discutée sur cette page car elle comprend deux étapes (ODT vers XML-TEI, XML-TEI vers XML-HM)
Dans les premières colonnes de chaque tableau est indiqué la nature et positionnement du texte,- avec d'abord une description parmi : "Prologo", "Prosa", "Ecloga" ou "A la Sampogna"
- suivie d'une numérotation en chiffre romain (de I à XII),
- puis d'un nombre (ex : 8) ou d'un intervalle (ex : 13-21).
Il faudrait une description plus complète sur la correspondance de ces numérotations et parties du texte.
Des premières corrections ont été effectuées sur ce fichier ODT (source de la transformation vers un corpus parallèle HM) grâce à la mise en évidence des manques dans la structure philologique. Cependant demander à Uetani si c'est bien correcte et pour les manques notés ci-dessous. Par exemple, il est impossible pour moi de compléter les intervalles qui sont parfois incomplets, Ex : Egloga_II_31-, ANOMALIE faut-il un nombre après le tiret ?
Question : doit-on mettre Prosa I et Ecloga I ensemble sous une division "Div I" ou doit-on dédier une division / chapitre à chacun ?
Remarque : Toute forme de texte a été éliminé après la numérotation (commentaire, note)
Voici les types d'anomalies ou types de texte apparaissant après le nom des divisions (consulter surtout le tableau de correspondances (TitresPourHM.xls) entre ce qui vient du fichier tableau d'origine et les titres pour HM) :
Titre originel (fichier tableau) | Titre en proposition pour HM | Remarque |
---|---|---|
Egloga XI, 97-íòú | Egloga_XI_97- | manque le reste de l'intervalle ?, que signifie "íòú", doit-on le restituer à un niveau de titre de la division ? |
Ecloga II, vv. 27-30 | Ecloga_II_27-30 | que signifie "vv." ? |
Ecloga_IVLogisto | Ecloga_IV_??? | n'a pas pu extraire la chaine, ni numéroté car ni virgule, ni chiffre comme séparateur pour le script |
- 1 fois sur "Ecloga_III"
- 1 fois sur "Ecloga_IV"
- 1 fois sur "Ecloga_V"
- 5 fois sur "Ecloga_IX"
- 2 fois sur "Ecloga_X"
- 2 fois sur "Prosa_", après "Prosa_X_39-40" et après "Prosa_XI_5"
- "Prologo_1", qui est devenu "Prologo_I_1"
- "19-20" parmi les "A_la_Sampogna" qui est devenu "A_la_Sampogna_19-20"
- "I_61-" , après "Egloga_I_55", qui est donc devenu "Egloga_I_61",
- "III_8 jusqu'à III_15", correction en "Prosa_III_8", etc ...
- "IV_5 jusqu'à IV_19", correction en "Prosa_IV_5", etc ...
- "V_9 jusqu'à V_36", correction en "Prosa_V_9", etc ...
- "XI_115- jusqu'à XI_142", correction en Egloga_XI_115", etc ...
- toute une série parmi les "Prosa VI" a été corrigée car il y avait une virgule entre "Prosa" et le chiffre romain
- toute une série parmi les "Ecloga_IX" n'avait pas le chiffre romain, il manque également la numérotation entre "Ecloga_IX_103-108" et "Ecloga_IX_130-132"
- certaines chaînes "Prosa" ou "Ecloga" avait le chiffre romain tout collé à eux, comme "EclogaIX_139-", ...
Question : doit-on prendre la forme "Ecloga" (ex : Egloga I de 1 à 55) ou "Egloga" (ex : Ecloga I de 71 à 97) ?
Remarque : il existe des doublons, peut-être à cause d'une sous-division voulue, ou encore ??? Que fait-on, renumérotation ou fusion des segments ?- Par exemple, "Prose_III_1-2", alors qu'existent "Prose_III_1" et "Prose_III_2",
- idem pour "Prosa_V_1", présent deux fois
- idem pour "Prosa_X_20", présent deux fois