Feature #449: TBX: x.x, Tokenizers strategy and components - Plateforme TXM - Forge du Centre Blaise Pascal

Feature #449

Mis à jour par Serge Heiden il y a presque 12 ans

A) add Add a system (plugin or not) to be able to select which Tokenizer to use different Tokenizers.
B) finish some existing tokenizers (TreeTagger Groovy tokenizer...)
C) adapt existing tokenizers for the selection system
D) develop various strategies in tokenizers:
FR: On peut développer deux stratégies de tokenizer simple :
a) priorité à la délimitation par caractères séparateurs (stratégie TXM 0.7.2)
b) priorité à la délimitation par caractères constituants (stratégie Weblex)
[même si les stratégies sont un peu mixtes]
E) incorporate new components (Unitex, tagging env developed in Perl for TXM...)
F) be able to connect linguistic ressources to tokenizers (FR: figements,
locutions, liste d'abbréviations contenant des points, clitiques, etc.)

Retour

Laboratoire ICAR » Plateforme TXM

Feature #449