Bug #1592
TBX: X.X, Tokenizer words preceding and following clitics are lost
Statut: | Closed | Début: | 13/11/2015 | |
---|---|---|---|---|
Priorité: | High | Echéance: | ||
Assigné à: | - | % réalisé: | 100% |
|
Catégorie: | Import | Temps passé: | - | |
Version cible: | TXM 0.7.8 |
Description
2 main bugs has been found :
"Bar-le-Duc" is tokenized : "Bar" "-l"
"-Duc" is dropped and "-le" is truncated
Qu'est-ce is tokenized "Qu'" "-ce"
"est" is dropped
"mont-d'or" is tokenized "mont-d'" "or" instead of "mont-d'or"
Solution¶
There was an error in the french clitic regular expression and the neighborhood characters of the clitics was not fully processed (no iteration).
There was an error in the elision regular expression the "X'" elision must be at the begining of the token.
Use the TreeTagger pclitic tokenization rules and replace the "'" quote with multiple quotes regular expression (We can't use the unicode category since the quote category is 'Po' and it contains other word separating characters : http://www.fileformat.info/info/unicode/category/Po/list.htm)
Validation test¶
Import through clipboard the following content in FR:
Bar-le-Duc n'est pas le Mont-d'or La rue de la Goutte-d'Or ou la rue de la Chaussée-d'Antin. le mot est-il ? c'est comme-ci ou comme-là qu'il faut c'est-à-dire mot-composé-de-tirets l'apostrophe ne pose pas d'problème ! mot composé assemblée_générale c'est "la fin" pour aujourd'hui.
The internal view should be composed of 4 pages:
Bar-le-Duc n' est pas le Mont-d'or La rue de la Goutte-d'Or ou la rue de la Chaussée-d'Antin .
le mot est -il ?
c' est comme -ci ou comme -là qu' il faut c' est-à-dire mot-composé-de-tirets l' apostrophe ne pose pas d' problème !
mot composé assemblée_générale c' est " la fin " pour aujourd'hui .
Historique
#1 Mis à jour par Matthieu Decorde il y a plus de 9 ans
- Description mis à jour (diff)
#2 Mis à jour par Matthieu Decorde il y a plus de 9 ans
- Description mis à jour (diff)
#3 Mis à jour par Serge Heiden il y a environ 9 ans
- Description mis à jour (diff)
#4 Mis à jour par Matthieu Decorde il y a environ 9 ans
- Description mis à jour (diff)
#5 Mis à jour par Matthieu Decorde il y a environ 9 ans
- Description mis à jour (diff)
#6 Mis à jour par Matthieu Decorde il y a environ 9 ans
- Description mis à jour (diff)
#7 Mis à jour par Matthieu Decorde il y a environ 9 ans
- Description mis à jour (diff)
#8 Mis à jour par Matthieu Decorde il y a environ 9 ans
- Description mis à jour (diff)
#9 Mis à jour par Matthieu Decorde il y a environ 9 ans
- Description mis à jour (diff)
#10 Mis à jour par Serge Heiden il y a environ 9 ans
- Description mis à jour (diff)
#11 Mis à jour par Serge Heiden il y a environ 9 ans
- Description mis à jour (diff)
#12 Mis à jour par Sebastien Jacquot il y a plus d'un an
- Statut changé de New à Closed
#13 Mis à jour par Sebastien Jacquot il y a plus d'un an
- % réalisé changé de 80 à 100