Bug #1292

Updated by Sebastien Jacquot about 6 years ago

In some cases to identify, TreeTagger does not tag right lemma for the token.
For example in FR, the .tt files can contain the lemmas "l'", "le" and "la" for the tokens token "l'", "le" and et "la" rather than the lemma "le" for all these 3 tokens.
It leads to some incomprehensible frlemma property Queries, Indexes, Concordances, etc.

This behavior can easily be reproducible when TreeTagger is configured with a language different from the corpora.
when
I guess this behavior may be also occurs when using a very poor fr.par file (without lemmas or with only a few lemmas) lemma) ?

Possible reasons reason of this behavior:

* wrong language chosen from the corpora import form
* wrong .par file name, e.g. an en.par file would be renamed to fr.par

For user information/warning, first proposals:

<pre>
FR:
A priori, notre guesseur de langue pourrait dire son étonnement du choix du modèle de langue TT à utiliser, [...]
Une autre façon de faire pourrait être :
1) calculer le ratio (nombre d'occurrences de lemmes de forme différente de la forme graphique) / (nombre d'occurrences de lemmes de forme identique à la forme graphique) et quand ce ratio est sous un seuil faire
2) appliquer TT en retirant l'option 'mettre la forme dans le lemme par défaut' et si le ratio (nombre de lemme inconnus) / (nombre de lemmes connus) est sous un seuil on déclenche un diagnostic d'étonnement sur le modèle de langue choisie
</pre>

Back