Bug #1966
RCP: 0.7.8, word segmentation and typograpy rules broken in XML/w pager
Statut: | Closed | Début: | 14/12/2016 | |
---|---|---|---|---|
Priorité: | Normal | Echéance: | ||
Assigné à: | - | % réalisé: | 100% |
|
Catégorie: | Edition | Temps passé: | - | |
Version cible: | TXM 0.7.8 |
Description
Since the introduction of new clitic rules management in the tokenizer, some graphical forms are segmented.
For exemple in English language ('en'): I don't -> I do n't
The corresponding word properties are (form/pos/lemma): I/PP/I do/VVP/do n't/RB/n't
The XML/w page outputs the following surface (graphical forms): I do n't
The correct surface should be : I don't -> like in the source
Solution¶
Introduce clitic management in the typographic rules management in the Page renderer to prevent the space between "do" and "n't".
MD: rules added from clitics : "'s","'re","'ve","'d","'m","'em","'ll","n't"
Historique
#1 Mis à jour par Serge Heiden il y a presque 9 ans
- Description mis à jour (diff)
#2 Mis à jour par Serge Heiden il y a presque 9 ans
- Description mis à jour (diff)
#3 Mis à jour par Matthieu Decorde il y a presque 9 ans
- Description mis à jour (diff)
- % réalisé changé de 0 à 80
#4 Mis à jour par Sebastien Jacquot il y a plus d'un an
- Statut changé de New à Closed
#5 Mis à jour par Sebastien Jacquot il y a plus d'un an
- % réalisé changé de 80 à 100