Feature #1253

TBX: x.x, new import parameter or language specific processing (for ZH language)

Added by Serge Heiden over 8 years ago. Updated about 4 years ago.

Status:New Start date:02/11/2015
Priority:Normal Due date:
Assignee:- % Done:

0%

Category:Import Spent time: -
Target version:TXM X.X

Description

FR:

En chinois, à défaut de segmenter au niveau des mots, il est intéressant de segmenter systématiquement au niveau des idéogrammes (caractères Unicode) :
- ça permet d'envisager un lexique de mots, ou préfixes ou parties de mots (plutôt que de phrases complètes - inutiles dans un tel contexte)
- ça permet d'exprimer des recherches de mots par composition de mots-TXM, l'inverse n'étant pas possible, pas pertinent ou pas pratique du tout

Solution 1

In tokenizer, add the following logic: if corpus language is ZH, tokenize at each Unicode character.

Solution 2

In import parameters form, add a 'tokenize at character level' parameter : with values 'yes/no'.

History

#1 Updated by Matthieu Decorde over 7 years ago

  • Target version changed from TXM 0.7.8 to TXM 0.8.0a (split/restructuration)

#2 Updated by Sebastien Jacquot almost 5 years ago

  • Target version changed from TXM 0.8.0a (split/restructuration) to TXM 0.8.0

#3 Updated by Matthieu Decorde about 4 years ago

  • Target version changed from TXM 0.8.0 to TXM X.X

Also available in: Atom PDF