Feature #1061

MB: teiHeader metadata

Added by Serge Heiden about 5 years ago. Updated about 5 years ago.

Status:New Start date:10/16/2014
Priority:Normal Due date:
Assignee:- % Done:

0%

Category:Import Spent time: -
Target version:TXM X.X

Description

Currently, there is only the 'XML-TEI BFM' import module that manages teiHeader encoded text metadata.

For some users using the 'XML/w+CSV' import module, it could be interesting to allow them to be able to encode metadata also in the XML sources, for example in teiHeader elements.

Currently the 'XML/w+CSV' import module allows two strategies to encode metadata:
  • CSV table
  • text element attributes

We could add a third strategy using a 'metadata_name / XPath access' path list.

The request comes from the following message:
MB:

- d'autre part, j'ai participé à une formation sur le XML-TEI avec LB, au début du mois de septembre. J'avais pensé travailler avec la TEI, mais, si j'ai compris, il y a tellement de façons différentes d'adapter la TEI à son projet, qu'il est impossible de programmer un logiciel pouvant gérer tous les cas de figure. J'ai vu que vous avez développé l'import XML-TEI de TXM dans le cadre des projets sur le français médiéval (BFM) et sur le français moderne (Frantext). Comme mon jeu de balises est sûrement différent de celui utilisé pour ces projets, j'ai trouvé que le compte des mots est moins précis si je passe par un import XML-TEI plutôt que par un import XML classique. De plus, ce qui est vraiment problématique, c'est que, la TEI m'obligeant à mettre les métadonnées concernant le lieu et l'époque de rédaction des textes dans l'en-tête, je ne peux plus récupérer ces informations comme critère de différenciation lors de la création des sous-corpus dans TXM. Je ne sais pas s'il est possible de contourner le problème.

History

#1 Updated by Serge Heiden about 5 years ago

  • Target version changed from Support to TXM X.X

Also available in: Atom PDF