Bug #1587
Updated by Matthieu Decorde about 5 years ago
FR:
Je fais une concordance sur ‘-l.*’ (pour -là) :
j’obtiens ceci :
!{width:700px}conc-clit.png!
Remarquez d’abord que le -là est tronqué ; il perd son ‘à’, chose qui ne se passe pas avec Bar-le-Duc.
Remarquez aussi que des tokens à droite ont aussi à disparu.
Première concordance, le contexte droit devrait être : , les aviateurs nancéiens
La deuxième concordance, elle, est complète.
N°8 : Le sous-lieutenant d’artillerie est devenu sous-l d’artillerie (alors qu’il n’y a pas d’accent dans lieutenant)
N°10 : Les environs de Bar-le-Duc sont incomplets.
h3. Solution
1) fix the frclitics rule :
<pre>
public static String FClitic_fr = '-t-elles?|-t-ils?|-t-on|-ce|-elles?|-ils?|-je|-la|-les?|-leur|-lui|-mmes?|-m\'|-moi|-nous|-on|-toi|-tu|-t\'|-vous|-en|-y|-ci|-l';
</pre>
to
<pre>
public static String FClitic_fr = '-t-elles?|-t-ils?|-t-on|-ce|-elles?|-ils?|-je|-la|-les?|-leur|-lui|-mmes?|-m\'|-moi|-nous|-on|-toi|-tu|-t\'|-vous|-en|-y|-ci|-là';
</pre>
2) process the trailing characters after the clitic detection
Note: "Bar-le-Duc" is now tokenized "Bar" "-le" "-Duc" (instead of "Bar" "-le")
h3. Validation test
Import with clipboard import the following text :
<pre>
Note: "Bar-le-Duc" is now tokenized "Bar" "-le" "-Duc" (instead of "Bar" "-le")
</pre>
and see if : "Bar-le-Duc" is now tokenized "Bar" "-le" "-Duc" (instead of "Bar" "-le")
Je fais une concordance sur ‘-l.*’ (pour -là) :
j’obtiens ceci :
!{width:700px}conc-clit.png!
Remarquez d’abord que le -là est tronqué ; il perd son ‘à’, chose qui ne se passe pas avec Bar-le-Duc.
Remarquez aussi que des tokens à droite ont aussi à disparu.
Première concordance, le contexte droit devrait être : , les aviateurs nancéiens
La deuxième concordance, elle, est complète.
N°8 : Le sous-lieutenant d’artillerie est devenu sous-l d’artillerie (alors qu’il n’y a pas d’accent dans lieutenant)
N°10 : Les environs de Bar-le-Duc sont incomplets.
h3. Solution
1) fix the frclitics rule :
<pre>
public static String FClitic_fr = '-t-elles?|-t-ils?|-t-on|-ce|-elles?|-ils?|-je|-la|-les?|-leur|-lui|-mmes?|-m\'|-moi|-nous|-on|-toi|-tu|-t\'|-vous|-en|-y|-ci|-l';
</pre>
to
<pre>
public static String FClitic_fr = '-t-elles?|-t-ils?|-t-on|-ce|-elles?|-ils?|-je|-la|-les?|-leur|-lui|-mmes?|-m\'|-moi|-nous|-on|-toi|-tu|-t\'|-vous|-en|-y|-ci|-là';
</pre>
2) process the trailing characters after the clitic detection
Note: "Bar-le-Duc" is now tokenized "Bar" "-le" "-Duc" (instead of "Bar" "-le")
h3. Validation test
Import with clipboard import the following text :
<pre>
Note: "Bar-le-Duc" is now tokenized "Bar" "-le" "-Duc" (instead of "Bar" "-le")
</pre>
and see if : "Bar-le-Duc" is now tokenized "Bar" "-le" "-Duc" (instead of "Bar" "-le")