Bug #1179
TBX: x.x, end of line in word forms encoded with <w> tag
Statut: | Feedback | Début: | 10/12/2014 | ||
---|---|---|---|---|---|
Priorité: | Normal | Echéance: | |||
Assigné à: | - | % réalisé: | 70% |
||
Catégorie: | Import | Temps passé: | - | ||
Version cible: | TXM 0.8.4 |
Description
In XML format sources, when a word is pre-encoded with a <w>...</w> tag
and the word form contains an end of line, the resulting word form is incorrect
because the end of line is just removed from the graphic form.
For example: <w>parce
que</w> gives 'parceque' word form, instead of 'parce que'.
Solution 1¶
Replace any 'new-line' and 'tabulation' by 'space' character at tokenization level.
MD: 80% -> 70% must check if the unicode class are used
Solution 2¶
Replace any white character as defined by Java by a 'space' character.
Java white characters are defined by the "isWhitespace method":(http://docs.oracle.com/javase/8/docs/api/java/lang/Character.html#isWhitespace-int-)
Historique
#1 Mis à jour par Serge Heiden il y a presque 11 ans
- Description mis à jour (diff)
#2 Mis à jour par Matthieu Decorde il y a presque 11 ans
- % réalisé changé de 0 à 80
#3 Mis à jour par Matthieu Decorde il y a presque 11 ans
- Statut changé de New à Feedback
#4 Mis à jour par Serge Heiden il y a plus de 10 ans
- Description mis à jour (diff)
#5 Mis à jour par Matthieu Decorde il y a plus de 10 ans
- Description mis à jour (diff)
- Version cible changé de TXM 0.7.7 à TXM 0.7.8
- % réalisé changé de 80 à 70
#6 Mis à jour par Matthieu Decorde il y a environ 10 ans
- Version cible changé de TXM 0.7.8 à TXM 0.8.0a (split/restructuration)
#7 Mis à jour par Sebastien Jacquot il y a plus de 7 ans
- Version cible changé de TXM 0.8.0a (split/restructuration) à TXM 0.8.0
#8 Mis à jour par Sebastien Jacquot il y a plus d'un an
- Version cible changé de TXM 0.8.0 à TXM 0.8.4