Bug #1587

RCP 0.7.7, clitics tokenisation

Added by Matthieu Decorde almost 4 years ago. Updated over 3 years ago.

Status:New Start date:11/06/2015
Priority:Normal Due date:
Assignee:- % Done:

80%

Category:Import Spent time: -
Target version:TXM 0.7.8

Description

FR:
Je fais une concordance sur ‘-l.*’ (pour -là) :
j’obtiens ceci :

Remarquez d’abord que le -là est tronqué ; il perd son ‘à’, chose qui ne se passe pas avec Bar-le-Duc.
Remarquez aussi que des tokens à droite ont aussi à disparu.
Première concordance, le contexte droit devrait être : , les aviateurs nancéiens
La deuxième concordance, elle, est complète.
N°8 : Le sous-lieutenant d’artillerie est devenu sous-l d’artillerie (alors qu’il n’y a pas d’accent dans lieutenant)
N°10 : Les environs de Bar-le-Duc sont incomplets.

Solution

1) fix the frclitics rule :

public static String FClitic_fr = '-t-elles?|-t-ils?|-t-on|-ce|-elles?|-ils?|-je|-la|-les?|-leur|-lui|-mmes?|-m\'|-moi|-nous|-on|-toi|-tu|-t\'|-vous|-en|-y|-ci|-l';

to
public static String FClitic_fr = '-t-elles?|-t-ils?|-t-on|-ce|-elles?|-ils?|-je|-la|-les?|-leur|-lui|-mmes?|-m\'|-moi|-nous|-on|-toi|-tu|-t\'|-vous|-en|-y|-ci|-là';

2) process the trailing characters after the clitic detection

Note: "Bar-le-Duc" is now tokenized "Bar" "-le" "-Duc" (instead of "Bar" "-le")

Validation test

Import with clipboard import the following text :

Note: "Bar-le-Duc" is now tokenized "Bar" "-le" "-Duc" (instead of "Bar" "-le")

and see if : "Bar-le-Duc" is now tokenized "Bar" "-le" "-Duc" (instead of "Bar" "-le")

Capture d’écran 2015-11-05 à 16.16.51.png (160.3 kB) Matthieu Decorde, 11/06/2015 12:18 pm

conc-clit.png (160.3 kB) Serge Heiden, 12/02/2015 04:48 pm

History

#1 Updated by Serge Heiden almost 4 years ago

#2 Updated by Serge Heiden almost 4 years ago

  • Description updated (diff)

#3 Updated by Serge Heiden almost 4 years ago

  • Description updated (diff)

#4 Updated by Matthieu Decorde over 3 years ago

  • % Done changed from 70 to 80

#5 Updated by Matthieu Decorde over 3 years ago

  • Description updated (diff)

Also available in: Atom PDF