Feature #3004

Import, Tokenizer, re-tokenize words option

Ajouté par Matthieu Decorde il y a plus de 4 ans. Mis à jour il y a plus d'un an.

Statut:Closed Début:22/01/2021
Priorité:Normal Echéance:
Assigné à:- % réalisé:

100%

Catégorie:Import Temps passé: -
Version cible:TXM 0.8.2 - 13NOV 1.0

Description

If enable the Tokenizer can retokenize words already wrapped with a <w> element.

Enabled for the :
  • XTZ import
  • XML/w import
  • transcriber
labels:
  • re-tokenize pre-encoded words @flyover(Performs word segmentation within word encoding tags.)
  • re-segmenter lexicalement les mots pré-encodés @flyover(Réalise une segmentation en mots au sein des balises d'encodage de mots.)

Révisions associées

Révision 3005
Ajouté par Matthieu Decorde il y a plus de 4 ans

add the re-tokenize import parameter refs #3004

Historique

#1 Mis à jour par Matthieu Decorde il y a plus de 4 ans

  • Description mis à jour (diff)

#2 Mis à jour par Matthieu Decorde il y a plus de 4 ans

  • Description mis à jour (diff)

#3 Mis à jour par Matthieu Decorde il y a plus de 4 ans

  • Description mis à jour (diff)
  • % réalisé changé de 0 à 30

ui is ready

#4 Mis à jour par Matthieu Decorde il y a plus de 4 ans

  • % réalisé changé de 30 à 80

tested with XTZ, XML/w and transcriber import modules

#5 Mis à jour par Sebastien Jacquot il y a plus d'un an

  • % réalisé changé de 80 à 100

#6 Mis à jour par Sebastien Jacquot il y a plus d'un an

  • Statut changé de New à Closed

Formats disponibles : Atom PDF