Bug #2220

TBX: 0.7.8, XTZ import, "out-of text-to-edit" elements tokenised and indexed if an OTTO elements contains sub-elements

Ajouté par Alexey Lavrentev il y a plus de 8 ans. Mis à jour il y a plus de 6 ans.

Statut:New Début:16/06/2017
Priorité:High Echéance:
Assigné à:- % réalisé:

0%

Catégorie:Import Temps passé: -
Version cible:TXM 0.X.X

Description

If one declares two out-of-text-to-edit elements that may be nested in the document, tokenisation and indexing resume after the nested element inside the out-of-text-to-edit ancestor.

This happens with identical (note // note) or different (teiHeader // note) elements or if an OTTO element contains any other element (head // sic or head //hi).

The reason probably is that tokenization resumes at any end tag of OTTO element.


Demandes liées

lié à Bug #2098: TBX: 0.7.8, XTZ import, <num> and <w> tags indexed even i... New 04/10/2016

Historique

#1 Mis à jour par Alexey Lavrentev il y a environ 8 ans

  • Sujet changé de TBX: 0.7.8, XTZ import, "out-of text-to-edit" elements tokenised and indexed if nested à TBX: 0.7.8, XTZ import, "out-of text-to-edit" elements tokenised and indexed if nested (or if one OTTO element contains another)
  • Description mis à jour (diff)

#2 Mis à jour par Alexey Lavrentev il y a plus de 7 ans

  • Sujet changé de TBX: 0.7.8, XTZ import, "out-of text-to-edit" elements tokenised and indexed if nested (or if one OTTO element contains another) à TBX: 0.7.8, XTZ import, "out-of text-to-edit" elements tokenised and indexed if an OTTO elements contains sub-elements
  • Description mis à jour (diff)
  • Priorité changé de Normal à High

The bug persists in TXM 0.7.9
To reproduce the bug, take the CHARTES_HAIN13 corpus sources from sharedocs/[...]/Cactus/Projets/Textométrie/Corpus/src and import using.
The content of <head> declared as OTTO will be tokenized after <sic> (w/@id="w_chartes_hain13_1")

#3 Mis à jour par Sebastien Jacquot il y a plus de 7 ans

  • Version cible changé de TXM 0.8.0a (split/restructuration) à TXM 0.8.0

#4 Mis à jour par Sebastien Jacquot il y a environ 7 ans

  • Catégorie mis à Import

#5 Mis à jour par Alexey Lavrentev il y a presque 7 ans

  • Description mis à jour (diff)

#6 Mis à jour par Matthieu Decorde il y a plus de 6 ans

  • Version cible changé de TXM 0.8.0 à TXM 0.X.X

Formats disponibles : Atom PDF