Feature #1253
TBX: x.x, new import parameter or language specific processing (for ZH language)
Statut: | New | Début: | 11/02/2015 | |
---|---|---|---|---|
Priorité: | Normal | Echéance: | ||
Assigné à: | - | % réalisé: | 0% |
|
Catégorie: | Import | Temps passé: | - | |
Version cible: | TXM 0.X.X |
Description
FR:
En chinois, à défaut de segmenter au niveau des mots, il est intéressant de segmenter systématiquement au niveau des idéogrammes (caractères Unicode) : - ça permet d'envisager un lexique de mots, ou préfixes ou parties de mots (plutôt que de phrases complètes - inutiles dans un tel contexte) - ça permet d'exprimer des recherches de mots par composition de mots-TXM, l'inverse n'étant pas possible, pas pertinent ou pas pratique du tout
Solution 1¶
In tokenizer, add the following logic: if corpus language is ZH, tokenize at each Unicode character.
Solution 2¶
In import parameters form, add a 'tokenize at character level' parameter : with values 'yes/no'.
Historique
#1 Mis à jour par Matthieu Decorde il y a environ 10 ans
- Version cible changé de TXM 0.7.8 à TXM 0.8.0a (split/restructuration)
#2 Mis à jour par Sebastien Jacquot il y a plus de 7 ans
- Version cible changé de TXM 0.8.0a (split/restructuration) à TXM 0.8.0
#3 Mis à jour par Matthieu Decorde il y a plus de 6 ans
- Version cible changé de TXM 0.8.0 à TXM 0.X.X