Bug #2160

RCP: X.X, words not highlighted in editions

Ajouté par Matthieu Decorde il y a plus de 8 ans. Mis à jour il y a plus d'un an.

Statut:Closed Début:19/04/2017
Priorité:High Echéance:
Assigné à:- % réalisé:

100%

Catégorie:Import Temps passé: -
Version cible:TXM 0.8.2

Description

For some texts, words are not highlighted in editions.

The IDS of those words not highlighted contain characters that broke the CSS ID syntax rules (e.g " ", "(" and more)

Discussion

Word IDs are built with <text identifier + number> or come from the sources.

If we forge the word ids in import modules, we must normalize/reduce text names to a text identifier, at the level of the corpus.

Three strategies:
  • a) normalize/reduce characters or morphemes
  • b) escape characters
  • c) manage <text name>:<automatic text identifier> hash

b) suppose to escape with respect to the syntax reading the identifier: for example CSS syntax. So different escape algorithms may need to be used depending on context. See the XXX Java library to escape for a lot of different syntaxes.

c) suppose to use the hash in various contexts: eg concordance references, etc.

Solution

Define the most simple common compatible syntax compatible with CSS ID syntax and CQL syntax.

Do a) fix the XMLw to XML-TXM step of import modules, in the XML2Ana class:
  • normalize/reduce the word ID to the CSS id syntax (= the syntax of xml:id)

Solution 2 (not done, see #2364)

  • add a new import option "force word id generation" for corpora having already word IDs.
  • add a new load option "force word id generation" for corpora having already word IDs.

Demandes liées

lié à Bug #2353: DOC: X.X, Windows words not highlighted in editions Rejected 19/04/2017
lié à Bug #2354: RCP: X.X, page break: words not highlighted in editions Closed 19/04/2017
lié à Bug #2364: TBX: 0.7.9, build word IDs if not present in w tags for b... New 10/04/2018

Historique

#1 Mis à jour par Matthieu Decorde il y a environ 8 ans

  • Description mis à jour (diff)

#2 Mis à jour par Matthieu Decorde il y a presque 8 ans

  • Description mis à jour (diff)
  • % réalisé changé de 80 à 60

#3 Mis à jour par Serge Heiden il y a plus de 7 ans

  • Description mis à jour (diff)
  • Priorité changé de Normal à High
  • Version cible changé de TXM 0.7.8 à TXM 0.8.0a (split/restructuration)

#4 Mis à jour par Sebastien Jacquot il y a plus de 7 ans

  • Version cible changé de TXM 0.8.0a (split/restructuration) à TXM 0.8.0

#5 Mis à jour par Matthieu Decorde il y a plus de 6 ans

  • Version cible changé de TXM 0.8.0 à TXM 0.8.2

#6 Mis à jour par Matthieu Decorde il y a plus de 4 ans

  • Description mis à jour (diff)
  • % réalisé changé de 60 à 80

#7 Mis à jour par Matthieu Decorde il y a plus de 4 ans

  • Description mis à jour (diff)

#8 Mis à jour par Matthieu Decorde il y a plus de 4 ans

  • Description mis à jour (diff)

#9 Mis à jour par Sebastien Jacquot il y a plus d'un an

  • % réalisé changé de 80 à 100

#10 Mis à jour par Sebastien Jacquot il y a plus d'un an

  • Statut changé de New à Closed

Formats disponibles : Atom PDF