Bug #2280

RCP: 0.7.8, missing TreeTagger french tokenisation rules

Ajouté par Matthieu Decorde il y a presque 8 ans. Mis à jour il y a plus d'un an.

Statut:Closed Début:14/11/2017
Priorité:High Echéance:
Assigné à:- % réalisé:

100%

Catégorie:Import Temps passé: -
Version cible:TXM 0.8.2

Description

/** The TT enclitics. */
public static String FClitic_en = "'(s|re|ve|d|m|em|ll)|n['‘’]t";
public static String PClitic_fr = '[dcjlmnstDCJLNMST][\'‘’]|[Qq]u[\'‘’]|[Jj]usqu[\'‘’]|[Ll]orsqu[\'‘’]|[Pp]uisqu[\'‘’]|[Qq]uoiqu[\'‘’]';
public static String FClitic_fr = '-t-elles?|-t-ils?|-t-on|-ce|-elles?|-ils?|-je|-la|-les?|-leur|-lui|-mêmes?|-m[\'‘’]|-moi|-nous|-on|-toi|-tu|-t[\'‘’]|-vous|-en|-y|-ci|-là';
public static String PClitic_it = '[dD][ae]ll[\'‘’]|[nN]ell[\'‘’]|[Aa]ll[\'‘’]|[lLDd][\'‘’]|[Ss]ull[\'‘’]|[Qq]uest[\'‘’]|[Uu]n[\'‘’]|[Ss]enz[\'‘’]|[Tt]utt[\'‘’]';
public static String FClitic_gl = '-la|-las|-lo|-los|-nos';

BP 2019-04-08 - Contribution to diagnostic
(i) For PClitic_fr, one should also manage the case of "y'" and "Y'" (especially for speech transcriptions). Cf. INDEX of .'.+ in LEMAN corpus (Fmin=2) :
y'a 127
y'en 30
Y'a 21
Y'en 8
y'avait 4
y'aura 3
y'ait 2
See also Montpellier team's experiments on Rivesaltes corpus (Matrice project, April 5th 2019 Copil)

(ii) The processing for French "t euphonique" is not clear either. Here are examples taken from VOEUX :
0013 L'année 1971 n'en [a-t]_ADJ [-elle]_PRO:PER pas apporté quelques preuves ?
0014 l'année de la sagesse. [Puisse-t-]_NOM elle, Français, Françaises, être pour chacun et
0021 de fête. 1980 nous [apportera-t]_VER:simp [-il]_PRO:PER la paix ou la guerre ?
0035 qu'on nous annonce [amorcera-]_NOM [t]_VER:simp [-elle]_PRO:PER la décrue du chômage ?

=> This part (ii) is dealt in ticket #3090 [[https://forge.cbp.ens-lyon.fr/redmine/issues/3090]]

Solution

replace

public static String PClitic_fr = '[dcjlmnstDCJLNMST][\'‘’]|[Qq]u[\'‘’]|[Jj]usqu[\'‘’]|[Ll]orsqu[\'‘’]|[Pp]uisqu[\'‘’]|[Qq]uoiqu[\'‘’]';

With
public static String PClitic_fr = '[dcjlmnstyDCJLNMSTY][\'‘’]|[Qq]u[\'‘’]|[Jj]usqu[\'‘’]|[Ll]orsqu[\'‘’]|[Pp]uisqu[\'‘’]|[Qq]uoiqu[\'‘’]';

Révisions associées

Historique

#1 Mis à jour par Sebastien Jacquot il y a plus de 7 ans

  • Version cible changé de TXM 0.8.0a (split/restructuration) à TXM 0.8.0

#2 Mis à jour par Matthieu Decorde il y a plus de 6 ans

  • Version cible changé de TXM 0.8.0 à TXM 0.X.X

#3 Mis à jour par Benedicte Pincemin il y a plus de 6 ans

  • Description mis à jour (diff)

#4 Mis à jour par Matthieu Decorde il y a plus de 6 ans

  • Priorité changé de Normal à High
  • Version cible changé de TXM 0.X.X à TXM 0.8.2

#5 Mis à jour par Benedicte Pincemin il y a plus de 6 ans

  • Description mis à jour (diff)
  • Priorité changé de High à Normal
  • Version cible changé de TXM 0.8.2 à TXM 0.X.X

#6 Mis à jour par Benedicte Pincemin il y a plus de 6 ans

  • Priorité changé de Normal à High
  • Version cible changé de TXM 0.X.X à TXM 0.8.2

#7 Mis à jour par Benedicte Pincemin il y a plus de 6 ans

  • Description mis à jour (diff)

#8 Mis à jour par Matthieu Decorde il y a plus de 4 ans

  • Description mis à jour (diff)
  • % réalisé changé de 0 à 80

#9 Mis à jour par Benedicte Pincemin il y a plus de 4 ans

  • Description mis à jour (diff)

#10 Mis à jour par Sebastien Jacquot il y a plus d'un an

  • % réalisé changé de 80 à 100

#11 Mis à jour par Sebastien Jacquot il y a plus d'un an

  • Statut changé de New à Closed

Formats disponibles : Atom PDF