Bug #3090: RCP: 0.7.8, missing TreeTagger french tokenisation rules V2 : -t- euphoniques - Plateforme TXM - Forge du Centre Blaise Pascal

Bug #3090

RCP: 0.7.8, missing TreeTagger french tokenisation rules V2 : -t- euphoniques

Ajouté par Matthieu Decorde il y a plus de 4 ans. Mis à jour il y a presque 2 ans.

Statut:

New

Début:

14/11/2017

Priorité:

Normal

Echéance:

Assigné à:

Benedicte Pincemin

% réalisé:

Catégorie:

Import

Temps passé:

Version cible:

TXM 0.8.4

Description

BP 2019-04-08 - Contribution to diagnostic

The processing for French "t euphonique" is not clear. Here are examples taken from VOEUX :
0013 L'année 1971 n'en [a-t]_ADJ [-elle]_PRO:PER pas apporté quelques preuves ?
0014 l'année de la sagesse. [Puisse-t-]_NOM elle, Français, Françaises, être pour chacun et
0021 de fête. 1980 nous [apportera-t]_VER:simp [-il]_PRO:PER la paix ou la guerre ?
0035 qu'on nous annonce [amorcera-]_NOM [t]_VER:simp [-elle]_PRO:PER la décrue du chômage ?

BP - 2021-06-08

-- le tiret : petite amélioration éventuellement à prévoir pour le -t- euphonique

Index de <.*-.*>, propriété @word, dans le corpus P1-METZ-2021-03-11...
416 items pour 4 096 occurrences.
    -là    846
    peut-être    787
    -ce    597
    est-à-dire    270
    -même    82
    week-end    77
    -    76
    là-bas    73
    là-dessus    73
    Saint-Denis    47
    -mêmes    44
    Peut-être    43
    Etats-Unis    37
    Moyen-Orient    34
    après-midi    29
    au-delà    29
    grand-chose    28
    -il    28
    -moi    28
    -vous    27
    -je    19
    vingt-quatre    19
    -ci    17
    vis-à-vis    17
    ...
=> OK

Cependant le -t- euphonique n'a pas l'air très bien traité :

Index de <.*-t>, propriété @word, dans le corpus P1-METZ-2021-03-11...
6 items pour 23 occurrences.
    semble-t    14
    a-t    2
    -t    2
    va-t    2
    vivra-t    2
    nomme-t    1

Index de <.*-t-.*>, propriété @word, dans le corpus P1-METZ-2021-03-11...
1 items pour 1 occurrences.
    va-t-en-guerre    1

Index de <[word=".*-t"][]>, propriété @word, dans le corpus P1-METZ-2021-03-11...
6 items pour 23 occurrences.
    semble-t -il    14
    a-t -on    2
    -t -il    2
    va-t -on    2
    vivra-t -il    2
    nomme-t -on    1

=> Le -t- euphonique est lié au verbe qui précède. C'est un choix qui permet d'éviter de prévoir cette insertion entre verbe et pronom personnel, cependant cela trouble TreeTagger pour la bonne identification du verbe (lemme et pos) :

Index de <[word=".*-t"][]>, propriété @word_frpos_frlemma, dans le corpus P1-METZ-2021-03-11...
10 items pour 23 occurrences.
    semble-t_VER:simp_semble-t -il_PRO:PER_il    13
    -t_ADJ_-t -il_PRO:PER_il    2
    a-t_ADJ_a-t -on_PRO:PER_on    1
    a-t_VER:cond_a-t -on_PRO:PER_on    1
    nomme-t_VER:cond_nomme-t -on_PRO:PER_on    1
    semble-t_VER:impf_semble-t -il_PRO:PER_il    1
    va-t_NOM_va-t -on_PRO:PER_on    1
    va-t_VER:simp_va-t -on_PRO:PER_on    1
    vivra-t_VER:cond_vivra-t -il_PRO:PER_il    1
    vivra-t_VER:futu_vivra-t -il_PRO:PER_il    1

*** il serait intéressant de faire évoluer le traitement des -t- euphoniques pour les isoler comme mot : -t
(vérifier peut-être si en l'état ils sont eux-mêmes bien reconnus par TT et si cela améliore effectivement l'analyse du verbe).

BP 2021-06-24

Ce serait bien de concevoir un traitement robuste qui sache aussi gérer des transcriptions non correctement orthographiées comme
est-t-il
a-t'il

Solution¶

Tokenize

(.*)-t-(.*)

and

(.*)-t'(.*)

"$1" + "-t" + "-$2"

Historique

#1 Mis à jour par Matthieu Decorde il y a plus de 4 ans

Priorité changé de High à Normal
Version cible changé de TXM 0.8.2 à TXM 0.8.4
% réalisé changé de 80 à 0

#2 Mis à jour par Matthieu Decorde il y a plus de 4 ans

Assigné à mis à Benedicte Pincemin

#3 Mis à jour par Benedicte Pincemin il y a plus de 4 ans

Description mis à jour (diff)

#4 Mis à jour par Benedicte Pincemin il y a plus de 4 ans

Description mis à jour (diff)

#5 Mis à jour par Serge Heiden il y a presque 2 ans

Description mis à jour (diff)

#6 Mis à jour par Serge Heiden il y a presque 2 ans

Description mis à jour (diff)

#7 Mis à jour par Alexey Lavrentev il y a presque 2 ans

Ce ne serait pas plutôt

Tokenize

(.*)(-t)(-.*)

and

(.*)(-t')(.*)

"$1" + "$2" + "$3"

Comme ça on garde le tiret avec le pronom et l'apostrophe avec le -t (même si je ne vois pas trop dans quels cas on utilise l'apostrophe)
to

"$1" + "-t" + "-$2"

#8 Mis à jour par Serge Heiden il y a presque 2 ans

Alexey Lavrentev a écrit :

Ce ne serait pas plutôt

Tokenize [...] and [...]
to
[...]

Comme ça on garde le tiret avec le pronom et l'apostrophe avec le -t (même si je ne vois pas trop dans quels cas on utilise l'apostrophe)
to

"$1" + "-t" + "-$2"

En fait "-t'" est bien une erreur, mais est effectivement utilisé dans les textes (à tort). Donc l'idée est de normaliser à "-t". Sinon il y a des chances que TreeTagger ne connaisse pas "-t'".

Formats disponibles : Atom PDF

Laboratoire ICAR » Plateforme TXM

Demandes

Rapports personnalisés