Feature #3051

Tokenizer, separate the XML parsing and the String tokenization processes

Ajouté par Matthieu Decorde il y a plus de 4 ans. Mis à jour il y a plus de 4 ans.

Statut:New Début:09/04/2021
Priorité:Normal Echéance:
Assigné à:- % réalisé:

0%

Catégorie:Annotation Temps passé: -
Version cible:TXM - Eltec 1.0

Description

The TXM tokenizer class (SimpleXMLTokenizer) must be splitted in 2 classes :
  • SimpleXMLTokenizer
  • SimpleStringTokenizer

SimpleXMLTokenizer using by default the SimpleStringTokenizer class to tokenize text.

This will allow to work with another StringTokenizer (likethe UDpipe tokenizer)


Demandes liées

lié à Feature #3049: UDPipe annotation engine, tokenizer New 09/04/2021

Historique

#1 Mis à jour par Matthieu Decorde il y a plus de 4 ans

  • Sujet changé de Tokenizer, separate XML parsing from the String tokenization process à Tokenizer, separate the XML parsing and the String tokenization processes

Formats disponibles : Atom PDF