Bug #1292

RCP: 0.7.7, in some cases, TreeTagger provides an incorrect lemma

Ajouté par Sebastien Jacquot il y a plus de 10 ans. Mis à jour il y a plus de 6 ans.

Statut:New Début:31/03/2015
Priorité:Normal Echéance:
Assigné à:- % réalisé:

0%

Catégorie:Import Temps passé: -
Version cible:TXM 0.X.X

Description

In some cases to identify, TreeTagger does not tag right lemma for the token.
For example in FR, the .tt files can contain the lemmas "l'", "le" and "la" for the tokens "l'", "le" and "la" rather than the lemma "le" for all these 3 tokens.
It leads to some incomprehensible frlemma property Queries, Indexes, Concordances, etc.

This behavior can easily be reproducible when TreeTagger is configured with a language different from the corpora.
I guess this behavior may also occurs when using a very poor fr.par file (without lemmas or with only a few lemmas) ?

Possible reasons of this behavior:

  • wrong language chosen from the corpora import form
  • wrong .par file name, e.g. an en.par file would be renamed to fr.par

For user information/warning, first proposals:

FR:
A priori, notre guesseur de langue pourrait dire son étonnement du choix du modèle de langue TT à utiliser, [...]
Une autre façon de faire pourrait être :
1) calculer le ratio (nombre d'occurrences de lemmes de forme différente de la forme graphique) / (nombre d'occurrences de lemmes de forme identique à la forme graphique) et quand ce ratio est sous un seuil faire
2) appliquer TT en retirant l'option 'mettre la forme dans le lemme par défaut' et si le ratio (nombre de lemme inconnus) / (nombre de lemmes connus) est sous un seuil on déclenche un diagnostic d'étonnement sur le modèle de langue choisie

Historique

#1 Mis à jour par Sebastien Jacquot il y a plus de 10 ans

  • Description mis à jour (diff)

#2 Mis à jour par Matthieu Decorde il y a plus de 10 ans

  • Sujet changé de RCP: 0.7.7, in some cases, TreeTagger does not tag right lemma à RCP: 0.7.7, in some cases, TreeTagger provides an incorrect lemma

#3 Mis à jour par Matthieu Decorde il y a environ 10 ans

  • Version cible changé de TXM 0.7.8 à TXM 0.8.0a (split/restructuration)

#4 Mis à jour par Sebastien Jacquot il y a plus de 7 ans

  • Version cible changé de TXM 0.8.0a (split/restructuration) à TXM 0.8.0

#5 Mis à jour par Matthieu Decorde il y a plus de 6 ans

  • Version cible changé de TXM 0.8.0 à TXM 0.X.X

Formats disponibles : Atom PDF