Feature #1253: TBX: x.x, new import parameter or language specific processing (for ZH language) - Plateforme TXM - Forge du Centre Blaise Pascal

Feature #1253

TBX: x.x, new import parameter or language specific processing (for ZH language)

Ajouté par Serge Heiden il y a plus de 10 ans. Mis à jour il y a plus de 6 ans.

Statut:

New

Début:

11/02/2015

Priorité:

Normal

Echéance:

Assigné à:

% réalisé:

Catégorie:

Import

Temps passé:

Version cible:

TXM 0.X.X

Description

FR:

En chinois, à défaut de segmenter au niveau des mots, il est intéressant de segmenter systématiquement au niveau des idéogrammes (caractères Unicode) :
- ça permet d'envisager un lexique de mots, ou préfixes ou parties de mots (plutôt que de phrases complètes - inutiles dans un tel contexte)
- ça permet d'exprimer des recherches de mots par composition de mots-TXM, l'inverse n'étant pas possible, pas pertinent ou pas pratique du tout

Solution 1¶

In tokenizer, add the following logic: if corpus language is ZH, tokenize at each Unicode character.

Solution 2¶

In import parameters form, add a 'tokenize at character level' parameter : with values 'yes/no'.

Historique

#1 Mis à jour par Matthieu Decorde il y a environ 10 ans

Version cible changé de TXM 0.7.8 à TXM 0.8.0a (split/restructuration)

#2 Mis à jour par Sebastien Jacquot il y a plus de 7 ans

Version cible changé de TXM 0.8.0a (split/restructuration) à TXM 0.8.0

#3 Mis à jour par Matthieu Decorde il y a plus de 6 ans

Version cible changé de TXM 0.8.0 à TXM 0.X.X

Formats disponibles : Atom PDF

Laboratoire ICAR » Plateforme TXM

Demandes

Rapports personnalisés