Feature #1253

TBX: x.x, new import parameter or language specific processing (for ZH language)

Ajouté par Serge Heiden il y a plus de 10 ans. Mis à jour il y a plus de 6 ans.

Statut:New Début:11/02/2015
Priorité:Normal Echéance:
Assigné à:- % réalisé:

0%

Catégorie:Import Temps passé: -
Version cible:TXM 0.X.X

Description

FR:

En chinois, à défaut de segmenter au niveau des mots, il est intéressant de segmenter systématiquement au niveau des idéogrammes (caractères Unicode) :
- ça permet d'envisager un lexique de mots, ou préfixes ou parties de mots (plutôt que de phrases complètes - inutiles dans un tel contexte)
- ça permet d'exprimer des recherches de mots par composition de mots-TXM, l'inverse n'étant pas possible, pas pertinent ou pas pratique du tout

Solution 1

In tokenizer, add the following logic: if corpus language is ZH, tokenize at each Unicode character.

Solution 2

In import parameters form, add a 'tokenize at character level' parameter : with values 'yes/no'.

Historique

#1 Mis à jour par Matthieu Decorde il y a environ 10 ans

  • Version cible changé de TXM 0.7.8 à TXM 0.8.0a (split/restructuration)

#2 Mis à jour par Sebastien Jacquot il y a plus de 7 ans

  • Version cible changé de TXM 0.8.0a (split/restructuration) à TXM 0.8.0

#3 Mis à jour par Matthieu Decorde il y a plus de 6 ans

  • Version cible changé de TXM 0.8.0 à TXM 0.X.X

Formats disponibles : Atom PDF