Bug #2258

RCP: 0.7.8, XMLW and XTZ import modules, line breaks trimmed causing tokenization errors

Ajouté par Alexey Lavrentev il y a presque 8 ans. Mis à jour il y a plus d'un an.

Statut:Closed Début:09/10/2017
Priorité:Urgent Echéance:
Assigné à:- % réalisé:

100%

Catégorie:Import Temps passé: -
Version cible:TXM 0.8.2

Description

In text nodes the new lines are trimmed and hense words on different lines are merged unless there is a white space before the new line.
To reproduce the bug, use the following test file to see that "ouperaction" appears in the lexicon:

<text>
Tout art et toute doctrine et semblablement tout fait ou
operacion et eleccion appetent et desirent aucun bien. Pour
ce parloient bien les anciens en disant ainsi: " Bien est ce
que toutes choses desirent. " Et semble que il est difference
de fins; car les unes fins sont les operacions, les autres sont
</text>

It looks like the trimming happens before the file is sent to XSL filters, so it is impossible to use XSL to fix the problem.

Solution

  1. Replace the new line with a space (ideally unless preceded or followed by another white space)
  2. Trim the new lines after XSLT filters application

Historique

#1 Mis à jour par Alexey Lavrentev il y a presque 8 ans

  • Description mis à jour (diff)

#2 Mis à jour par Alexey Lavrentev il y a presque 8 ans

Le bug semble résolu (TXM 0.7.8.201712011718). Mettre à jour l'état d'avancement ?

#3 Mis à jour par Alexey Lavrentev il y a plus de 7 ans

The test file works fine but the problem persist when trying to catch line breaks in XTZ XSL filters

#4 Mis à jour par Sebastien Jacquot il y a plus de 7 ans

  • Version cible changé de TXM 0.8.0a (split/restructuration) à TXM 0.8.0

#5 Mis à jour par Matthieu Decorde il y a plus de 6 ans

  • Version cible changé de TXM 0.8.0 à TXM 0.8.2

#6 Mis à jour par Matthieu Decorde il y a environ 5 ans

  • Catégorie mis à Import

#7 Mis à jour par Matthieu Decorde il y a plus de 4 ans

  • % réalisé changé de 0 à 80

#8 Mis à jour par Sebastien Jacquot il y a plus d'un an

  • % réalisé changé de 80 à 100

#9 Mis à jour par Sebastien Jacquot il y a plus d'un an

  • Statut changé de New à Closed

Formats disponibles : Atom PDF