Bug #1179

TBX: x.x, end of line in word forms encoded with <w> tag

Ajouté par Serge Heiden il y a presque 11 ans. Mis à jour il y a plus d'un an.

Statut:Feedback Début:10/12/2014
Priorité:Normal Echéance:
Assigné à:- % réalisé:

70%

Catégorie:Import Temps passé: -
Version cible:TXM 0.8.4

Description

In XML format sources, when a word is pre-encoded with a <w>...</w> tag
and the word form contains an end of line, the resulting word form is incorrect
because the end of line is just removed from the graphic form.

For example: <w>parce
que</w> gives 'parceque' word form, instead of 'parce que'.

Solution 1

Replace any 'new-line' and 'tabulation' by 'space' character at tokenization level.

MD: 80% -> 70% must check if the unicode class are used

Solution 2

Replace any white character as defined by Java by a 'space' character.

Java white characters are defined by the "isWhitespace method":(http://docs.oracle.com/javase/8/docs/api/java/lang/Character.html#isWhitespace-int-)

Historique

#1 Mis à jour par Serge Heiden il y a presque 11 ans

  • Description mis à jour (diff)

#2 Mis à jour par Matthieu Decorde il y a presque 11 ans

  • % réalisé changé de 0 à 80

#3 Mis à jour par Matthieu Decorde il y a presque 11 ans

  • Statut changé de New à Feedback

#4 Mis à jour par Serge Heiden il y a plus de 10 ans

  • Description mis à jour (diff)

#5 Mis à jour par Matthieu Decorde il y a plus de 10 ans

  • Description mis à jour (diff)
  • Version cible changé de TXM 0.7.7 à TXM 0.7.8
  • % réalisé changé de 80 à 70

#6 Mis à jour par Matthieu Decorde il y a environ 10 ans

  • Version cible changé de TXM 0.7.8 à TXM 0.8.0a (split/restructuration)

#7 Mis à jour par Sebastien Jacquot il y a plus de 7 ans

  • Version cible changé de TXM 0.8.0a (split/restructuration) à TXM 0.8.0

#8 Mis à jour par Sebastien Jacquot il y a plus d'un an

  • Version cible changé de TXM 0.8.0 à TXM 0.8.4

Formats disponibles : Atom PDF