Bug #1966

RCP: 0.7.8, word segmentation and typograpy rules broken in XML/w pager

Ajouté par Serge Heiden il y a presque 9 ans. Mis à jour il y a plus d'un an.

Statut:Closed Début:14/12/2016
Priorité:Normal Echéance:
Assigné à:- % réalisé:

100%

Catégorie:Edition Temps passé: -
Version cible:TXM 0.7.8

Description

Since the introduction of new clitic rules management in the tokenizer, some graphical forms are segmented.

For exemple in English language ('en'): I don't -> I do n't

The corresponding word properties are (form/pos/lemma): I/PP/I do/VVP/do n't/RB/n't

The XML/w page outputs the following surface (graphical forms): I do n't

The correct surface should be : I don't -> like in the source

Solution

Introduce clitic management in the typographic rules management in the Page renderer to prevent the space between "do" and "n't".

MD: rules added from clitics : "'s","'re","'ve","'d","'m","'em","'ll","n't"

dont.png (13,99 ko) Serge Heiden, 14/12/2016 20:57

Historique

#1 Mis à jour par Serge Heiden il y a presque 9 ans

  • Description mis à jour (diff)

#2 Mis à jour par Serge Heiden il y a presque 9 ans

  • Description mis à jour (diff)

#3 Mis à jour par Matthieu Decorde il y a presque 9 ans

  • Description mis à jour (diff)
  • % réalisé changé de 0 à 80

#4 Mis à jour par Sebastien Jacquot il y a plus d'un an

  • Statut changé de New à Closed

#5 Mis à jour par Sebastien Jacquot il y a plus d'un an

  • % réalisé changé de 80 à 100

Formats disponibles : Atom PDF