Feature #1636

RCP: X.X, word tag and skip tokenization import parameters

Ajouté par Matthieu Decorde il y a plus de 9 ans. Mis à jour il y a plus d'un an.

Statut:Closed Début:08/01/2016
Priorité:Normal Echéance:
Assigné à:- % réalisé:

100%

Catégorie:Import Temps passé: -
Version cible:TXM 0.7.8

Description

See specifications at https://groupes.renater.fr/wiki/txm-info/public/import_xtz#modify_the_import_form.

Add new import parameters:
  • word tag: specify the XML element that encode words
  • don't tokenize : if selected, no tokenization is done (no W element created)

Solution

Available only in the XTZ+CSV import.

Change the "Lexical Segmentation":

Unités lexicales
  • Balise de mots : w
  • Segmenter [o]/n
    • Caractères séparateurs
      • Espaces
      • Ponctuations
    • Caractères d'élision
    • Caractères de fin de phrase
Lexical Units
  • Words tag : w
  • Tokenize [o]/n
    • Separator characters
      • Spaces
      • Punctuations
    • Elision characters
    • End of sentence characters

Demandes liées

lié à Bug #2364: TBX: 0.7.9, build word IDs if not present in w tags for b... New 10/04/2018

Historique

#1 Mis à jour par Matthieu Decorde il y a plus de 9 ans

  • % réalisé changé de 0 à 80

#2 Mis à jour par Alexey Lavrentev il y a plus de 9 ans

  • Description mis à jour (diff)

#3 Mis à jour par Sebastien Jacquot il y a plus d'un an

  • Statut changé de New à Closed

#4 Mis à jour par Sebastien Jacquot il y a plus d'un an

  • % réalisé changé de 80 à 100

Formats disponibles : Atom PDF