Feature #217

RCP: x.x, Manage enclitics in the tokenizer

Ajouté par Matthieu Decorde il y a plus de 5 ans. Mis à jour il y a environ 2 ans.

Statut:New Début:08/07/2013
Priorité:Normal Echéance:
Assigné à:- % réalisé:

80%

Catégorie:Import Temps passé: -
Version cible:TXM 0.7.7

Description

The SimpleTokenizerXML does not use language specific rules to tokenize clitics.

Solution 1

Use TreeTagger clitic tokenizer rules for the fr, en and it languages as defined in the in "Gestion de la langue" section of https://groupes.renater.fr/wiki/txm-info/public/composant_de_tokenisation#solution_1_simpletokenizerxml

Solution 2

Use another tokenizer, to be choosen between existing solutions of https://groupes.renater.fr/wiki/txm-info/public/specs_import_annotation_lexicale_auto#solution, if TreeTagger lemmatization is not used.

Historique

#1 Mis à jour par Matthieu Decorde il y a environ 2 ans

  • Tracker changé de Task à Feature
  • Description mis à jour (diff)
  • Version cible changé de TXM X.X à TXM 0.7.7
  • % réalisé changé de 0 à 80

#2 Mis à jour par Matthieu Decorde il y a environ 2 ans

  • Description mis à jour (diff)

#3 Mis à jour par Serge Heiden il y a environ 2 ans

  • Description mis à jour (diff)

Formats disponibles : Atom PDF