Bug #3389

import, impossible to tokenize words written with point (.) characters inside

Ajouté par Serge Heiden il y a plus de 2 ans. Mis à jour il y a plus d'un an.

Statut:Closed Début:15/05/2023
Priorité:Normal Echéance:
Assigné à:- % réalisé:

100%

Catégorie:Import Temps passé: -
Version cible:TXM 0.8.4

Description

Given transcription principles using point characters inside words, for example the following TXT input where words are separated by space :

ḫr ḥm nỉ Ḥrw ‘nḫ-mst.pl nb.tỉ ‘nḫ-mst.pl nswt-bỉtỉ Ḫpr-kȝ-R‘

A) It is not possible to find correct XTZ or TXT import module parameters values to tokenize words with points inside.

Even when removing punctuations regex and point from sentence segmentation parameters.

Given impossibility to provide a import.xml file for example parameters, here is a screenshot of the parameters setting: import-txt-words-no-point.png

Here is the index of the ".*\..*" CQL : import-txt-words-no-point-words-with-points.png

B) Points are always rendered in editions with respect to default point formating rules of the current language

MD: when correctly tokenized the points rendering (in Edition and Concordance) is OK

See edition screenshot: import-txt-words-no-point-edition.png

import-txt-words-no-point.png (13,09 ko) Serge Heiden, 15/05/2023 12:06

import-txt-words-no-point-words-with-points.png (20,73 ko) Serge Heiden, 15/05/2023 12:06

import-txt-words-no-point-edition.png (13,87 ko) Serge Heiden, 15/05/2023 12:06

Historique

#1 Mis à jour par Matthieu Decorde il y a plus de 2 ans

  • % réalisé changé de 0 à 80

The import parameters were re-initialized.

#2 Mis à jour par Matthieu Decorde il y a plus de 2 ans

  • Description mis à jour (diff)

#3 Mis à jour par Matthieu Decorde il y a plus de 2 ans

Index result when removing "." from the tokenizer import parameters

word    Fréquence
‘    3
nḫ-mst.pl    2
ḥm    1
Ḫpr-kȝ-R    1
ḫr    1
Ḥrw    1
nb.tỉ    1
nỉ    1
nswt-bỉtỉ    1

Edition rendering :

ḫr ḥm nỉ Ḥrw ‘ nḫ-mst.pl nb.tỉ ‘ nḫ-mst.pl nswt-bỉtỉ Ḫpr-kȝ-R ‘

#4 Mis à jour par Serge Heiden il y a plus de 2 ans

  • % réalisé changé de 80 à 90

Correct token parameters usage has been verified on the test text sample (for 'accented characters' and 'sentence end characters').

#5 Mis à jour par Sebastien Jacquot il y a plus d'un an

  • Version cible changé de TXM 0.8.3 à TXM 0.8.4

#6 Mis à jour par Sebastien Jacquot il y a plus d'un an

  • Statut changé de New à Closed
  • % réalisé changé de 90 à 100

Formats disponibles : Atom PDF