Bug #2098

TBX: 0.7.8, XTZ import, <num> and <w> tags indexed even if they are located in an element declared in the 'out-of text-to-edit' plan

Ajouté par Alexey Lavrentev il y a plus de 8 ans. Mis à jour il y a plus de 6 ans.

Statut:New Début:04/10/2016
Priorité:High Echéance:
Assigné à:- % réalisé:

0%

Catégorie:Import Temps passé: -
Version cible:TXM 0.X.X

Description

To reproduce the bug, take strasbBfm.xml from BFM repository, import via XTZ with teiHeader in out-of-text-to-edit and search for [word="[0-9]+"].

  1. <num> element should not be transformed into <w>
  2. no element placed inside "out-of-text-to-edit" should be indexed

Currently to implement the "out-of-text-to-edit" plan, the compiler and the pager steps use the words (w elements) identified by the Tokenizer. So if an "out-of-text-to-edit" plan contains already word tags (<w> or <num>), these are indexed by the search engine.

Solution

The pager and compiler steps must use the "out-of-text-to-edit" plan import parameter instead of relying on the Tokenizer result.


Demandes liées

lié à Bug #2220: TBX: 0.7.8, XTZ import, "out-of text-to-edit" elements to... New 16/06/2017

Historique

#1 Mis à jour par Alexey Lavrentev il y a plus de 8 ans

  • Fichier cleve-edition.png supprimé

#2 Mis à jour par Matthieu Decorde il y a plus de 8 ans

  • Sujet changé de TBX: 0.7.8, XTZ import, <num> and <w> tags indexed in 'out-of text-to-edit' plan à TBX: 0.7.8, XTZ import, <num> and <w> tags indexed even if they are declared in the 'out-of text-to-edit' plan
  • Description mis à jour (diff)
  • Priorité changé de Normal à High

#3 Mis à jour par Alexey Lavrentev il y a environ 8 ans

  • Sujet changé de TBX: 0.7.8, XTZ import, <num> and <w> tags indexed even if they are declared in the 'out-of text-to-edit' plan à TBX: 0.7.8, XTZ import, <num>, <w> and <author> tags indexed even if they are located in an element declared in the 'out-of text-to-edit' plan

Similar behavior is caused by the <note> element. The text nodes followind </note> are tokenized and idexed even if they are inside an element declared as out-of-text-to-edit. See the related ticket.

#4 Mis à jour par Alexey Lavrentev il y a environ 8 ans

  • Sujet changé de TBX: 0.7.8, XTZ import, <num>, <w> and <author> tags indexed even if they are located in an element declared in the 'out-of text-to-edit' plan à TBX: 0.7.8, XTZ import, <num> and <w> tags indexed even if they are located in an element declared in the 'out-of text-to-edit' plan

#5 Mis à jour par Sebastien Jacquot il y a plus de 7 ans

  • Version cible changé de TXM 0.8.0a (split/restructuration) à TXM 0.8.0

#6 Mis à jour par Matthieu Decorde il y a plus de 6 ans

  • Version cible changé de TXM 0.8.0 à TXM 0.X.X

Formats disponibles : Atom PDF