Feature #1253
TBX: x.x, new import parameter or language specific processing (for ZH language)
Status: | New | Start date: | 02/11/2015 | |
---|---|---|---|---|
Priority: | Normal | Due date: | ||
Assignee: | - | % Done: | 0% |
|
Category: | Import | Spent time: | - | |
Target version: | TXM X.X |
Description
FR:
En chinois, à défaut de segmenter au niveau des mots, il est intéressant de segmenter systématiquement au niveau des idéogrammes (caractères Unicode) : - ça permet d'envisager un lexique de mots, ou préfixes ou parties de mots (plutôt que de phrases complètes - inutiles dans un tel contexte) - ça permet d'exprimer des recherches de mots par composition de mots-TXM, l'inverse n'étant pas possible, pas pertinent ou pas pratique du tout
Solution 1¶
In tokenizer, add the following logic: if corpus language is ZH, tokenize at each Unicode character.
Solution 2¶
In import parameters form, add a 'tokenize at character level' parameter : with values 'yes/no'.
History
#1 Updated by Matthieu Decorde over 7 years ago
- Target version changed from TXM 0.7.8 to TXM 0.8.0a (split/restructuration)
#2 Updated by Sebastien Jacquot almost 5 years ago
- Target version changed from TXM 0.8.0a (split/restructuration) to TXM 0.8.0
#3 Updated by Matthieu Decorde about 4 years ago
- Target version changed from TXM 0.8.0 to TXM X.X