Feature #217
RCP: x.x, Manage enclitics in the tokenizer
Statut: | New | Début: | 08/07/2013 | ||
---|---|---|---|---|---|
Priorité: | Normal | Echéance: | |||
Assigné à: | - | % réalisé: | 80% |
||
Catégorie: | Import | Temps passé: | - | ||
Version cible: | TXM 0.7.7 |
Description
The SimpleTokenizerXML does not use language specific rules to tokenize clitics.
Solution 1¶
Use TreeTagger clitic tokenizer rules for the fr, en and it languages as defined in the in "Gestion de la langue" section of https://groupes.renater.fr/wiki/txm-info/public/composant_de_tokenisation#solution_1_simpletokenizerxml
Solution 2¶
Use another tokenizer, to be choosen between existing solutions of https://groupes.renater.fr/wiki/txm-info/public/specs_import_annotation_lexicale_auto#solution, if TreeTagger lemmatization is not used.
Historique
#1 Mis à jour par Matthieu Decorde il y a environ 2 ans
- Tracker changé de Task à Feature
- Description mis à jour (diff)
- Version cible changé de TXM X.X à TXM 0.7.7
- % réalisé changé de 0 à 80
#2 Mis à jour par Matthieu Decorde il y a environ 2 ans
- Description mis à jour (diff)
#3 Mis à jour par Serge Heiden il y a environ 2 ans
- Description mis à jour (diff)