Feature #217

RCP: x.x, Manage enclitics in the tokenizer

Ajouté par Matthieu Decorde il y a environ 12 ans. Mis à jour il y a plus de 4 ans.

Statut:Closed Début:08/07/2013
Priorité:Normal Echéance:
Assigné à:- % réalisé:

100%

Catégorie:Import Temps passé: -
Version cible:TXM 0.7.7

Description

The SimpleTokenizerXML does not use language specific rules to tokenize clitics.

Solution 1

Use TreeTagger clitic tokenizer rules for the fr, en and it languages as defined in the in "Gestion de la langue" section of https://groupes.renater.fr/wiki/txm-info/public/composant_de_tokenisation#solution_1_simpletokenizerxml

Solution 2

Use another tokenizer, to be choosen between existing solutions of https://groupes.renater.fr/wiki/txm-info/public/specs_import_annotation_lexicale_auto#solution, if TreeTagger lemmatization is not used.

Historique

#1 Mis à jour par Matthieu Decorde il y a plus de 8 ans

  • Tracker changé de Task à Feature
  • Description mis à jour (diff)
  • Version cible changé de TXM 0.X.X à TXM 0.7.7
  • % réalisé changé de 0 à 80

#2 Mis à jour par Matthieu Decorde il y a plus de 8 ans

  • Description mis à jour (diff)

#3 Mis à jour par Serge Heiden il y a plus de 8 ans

  • Description mis à jour (diff)

#4 Mis à jour par Matthieu Decorde il y a plus de 4 ans

  • % réalisé changé de 80 à 100

#5 Mis à jour par Matthieu Decorde il y a plus de 4 ans

  • Statut changé de New à Closed

Formats disponibles : Atom PDF