Feature #449

TBX: x.x, Tokenizers strategy and components

Ajouté par Matthieu Decorde il y a plus de 5 ans. Mis à jour il y a plus de 5 ans.

Statut:New Début:13/11/2013
Priorité:High Echéance:
Assigné à:- % réalisé:

0%

Catégorie:Import Temps passé: -
Version cible:TXM X.X

Description

A) add a system (plugin or not) to be able to use different Tokenizers.
B) finish some existing tokenizers (TreeTagger Groovy tokenizer...)
C) adapt existing tokenizers for the selection system
D) develop various strategies in tokenizers:
FR: On peut développer deux stratégies de tokenizer simple :
a) priorité à la délimitation par caractères séparateurs (stratégie TXM 0.7.2)
b) priorité à la délimitation par caractères constituants (stratégie Weblex)
[même si les stratégies sont un peu mixtes]
E) incorporate new components (Unitex, tagging env developed in Perl for TXM...)
F) be able to connect linguistic ressources to tokenizers (FR: figements,
locutions, liste d'abbréviations contenant des points, clitiques, etc.)

Historique

#1 Mis à jour par Serge Heiden il y a plus de 5 ans

  • Sujet changé de RCP: x.x, be able to plug another Tokenizer à TBX: x.x, Tokenizers strategy and components
  • Description mis à jour (diff)
  • Priorité changé de Normal à High

Formats disponibles : Atom PDF