Bug #1549: RCP: 0.7.7, Alceste import bugs - Plateforme TXM - Forge du Centre Blaise Pascal

Bug #1549

Mis à jour par Serge Heiden il y a plus de 6 ans

h3. A) Accents in text property names

With UTF-8 character encoding and an ISO-latin-1 source file, accents in property names break the import.

h3. B) Digit prefix in the begining of text lines (starry lines format)

* '001 ' begining of lines are not recognized as starry line

<pre>
001 *loc_dg *année_1969 *ver
</pre>

*Solution*

Use regex + 1 property minimum pattern to decide if it is a starry line: "[0-9]+ \*[a-z]+"

h3. C) Print a better error message in case of starry lines detection problem

*Solution*

If no starry lines (no texts) are detected in an input file, the error message must be:
<pre>
** Alceste import: no text delimitation lines detected in file "%s" (suggestion: verify the syntax of your text delimitation lines - starry lines - '**** *prop_val' or '01 *prop_val')
</pre>

h3. D) Bug in quote tokenization

FR. [BP]
<pre>
- l'apostrophe est le plus souvent à l'intérieur des tokens, cf. les lignes suivantes extraites de la 1ère page d'un INDEX sur .*'.* (j'ai sélectionné des lignes qui présentaient une diversité de cas) :
c'est 13985
qu'il 7454
C'est 6217
j'ai 4220
l'Europe 2810
aujourd'hui 2139
d'ailleurs 1605
c'est-à-dire 1578
d'autres 1517
l'heure 1428
d'abord 1403
s'agit 863
l'ensemble 778
l'emploi 757

- l'apostrophe n'est jamais en limite de token : les requêtes '.* et .*' ne renvoient que l'apostrophe isolée

- lorsque l'apostrophe est isolée, elle est toujours précédée d'un mot contenant au moins un caractère non lettre, ou suivie d'un mot commençant par un caractère non lettre, voici par exemple les cas les plus fréquents dans mon corpus (sur 543 occ. en tout) :
d'aujourd ' hui 230
qu'aujourd ' hui 125
l ' " 5
d ' " 4
Vel'd ' Hiv 4
d ' 1 3
et sur ce même corpus, la requête suivante ne rapporte aucune occurrence :
[word="\p{L}+"][word="'"][word="\p{L}.*"]
</pre>

Retour

Laboratoire ICAR » Plateforme TXM

Bug #1549