Feature #3051
Tokenizer, separate the XML parsing and the String tokenization processes
Statut: | New | Début: | 09/04/2021 | |
---|---|---|---|---|
Priorité: | Normal | Echéance: | ||
Assigné à: | - | % réalisé: | 0% |
|
Catégorie: | Annotation | Temps passé: | - | |
Version cible: | TXM - Eltec 1.0 |
Description
The TXM tokenizer class (SimpleXMLTokenizer) must be splitted in 2 classes :
- SimpleXMLTokenizer
- SimpleStringTokenizer
SimpleXMLTokenizer using by default the SimpleStringTokenizer class to tokenize text.
This will allow to work with another StringTokenizer (likethe UDpipe tokenizer)
Demandes liées
Historique
#1 Mis à jour par Matthieu Decorde il y a plus de 4 ans
- Sujet changé de Tokenizer, separate XML parsing from the String tokenization process à Tokenizer, separate the XML parsing and the String tokenization processes