Bug #3090
Mis à jour par Serge Heiden il y a presque 2 ans
BP 2019-04-08 - Contribution to diagnostic
The processing for French "t euphonique" is not clear. Here are examples taken from VOEUX :
0013 L'année 1971 n'en [a-t]_ADJ [-elle]_PRO:PER pas apporté quelques preuves ?
0014 l'année de la sagesse. [Puisse-t-]_NOM elle, Français, Françaises, être pour chacun et
0021 de fête. 1980 nous [apportera-t]_VER:simp [-il]_PRO:PER la paix ou la guerre ?
0035 qu'on nous annonce [amorcera-]_NOM [t]_VER:simp [-elle]_PRO:PER la décrue du chômage ?
BP - 2021-06-08
<pre>
-- le tiret : petite amélioration éventuellement à prévoir pour le -t- euphonique
Index de <.*-.*>, propriété @word, dans le corpus P1-METZ-2021-03-11...
416 items pour 4 096 occurrences.
-là 846
peut-être 787
-ce 597
est-à-dire 270
-même 82
week-end 77
- 76
là-bas 73
là-dessus 73
Saint-Denis 47
-mêmes 44
Peut-être 43
Etats-Unis 37
Moyen-Orient 34
après-midi 29
au-delà 29
grand-chose 28
-il 28
-moi 28
-vous 27
-je 19
vingt-quatre 19
-ci 17
vis-à-vis 17
...
=> OK
Cependant le -t- euphonique n'a pas l'air très bien traité :
Index de <.*-t>, propriété @word, dans le corpus P1-METZ-2021-03-11...
6 items pour 23 occurrences.
semble-t 14
a-t 2
-t 2
va-t 2
vivra-t 2
nomme-t 1
Index de <.*-t-.*>, propriété @word, dans le corpus P1-METZ-2021-03-11...
1 items pour 1 occurrences.
va-t-en-guerre 1
Index de <[word=".*-t"][]>, propriété @word, dans le corpus P1-METZ-2021-03-11...
6 items pour 23 occurrences.
semble-t -il 14
a-t -on 2
-t -il 2
va-t -on 2
vivra-t -il 2
nomme-t -on 1
=> Le -t- euphonique est lié au verbe qui précède. C'est un choix qui permet d'éviter de prévoir cette insertion entre verbe et pronom personnel, cependant cela trouble TreeTagger pour la bonne identification du verbe (lemme et pos) :
Index de <[word=".*-t"][]>, propriété @word_frpos_frlemma, dans le corpus P1-METZ-2021-03-11...
10 items pour 23 occurrences.
semble-t_VER:simp_semble-t -il_PRO:PER_il 13
-t_ADJ_-t -il_PRO:PER_il 2
a-t_ADJ_a-t -on_PRO:PER_on 1
a-t_VER:cond_a-t -on_PRO:PER_on 1
nomme-t_VER:cond_nomme-t -on_PRO:PER_on 1
semble-t_VER:impf_semble-t -il_PRO:PER_il 1
va-t_NOM_va-t -on_PRO:PER_on 1
va-t_VER:simp_va-t -on_PRO:PER_on 1
vivra-t_VER:cond_vivra-t -il_PRO:PER_il 1
vivra-t_VER:futu_vivra-t -il_PRO:PER_il 1
*** il serait intéressant de faire évoluer le traitement des -t- euphoniques pour les isoler comme mot : -t
(vérifier peut-être si en l'état ils sont eux-mêmes bien reconnus par TT et si cela améliore effectivement l'analyse du verbe).
</pre>
BP 2021-06-24
Ce serait bien de concevoir un traitement robuste qui sache aussi gérer des transcriptions non correctement orthographiées comme
est-t-il
a-t'il
h3. Solution
Tokenize <pre>(.*)-t-(.*)
</pre> and <pre>(.*)-t'(.*)</pre>
to
<pre>
$1 + '-t' + $2
</pre>
The processing for French "t euphonique" is not clear. Here are examples taken from VOEUX :
0013 L'année 1971 n'en [a-t]_ADJ [-elle]_PRO:PER pas apporté quelques preuves ?
0014 l'année de la sagesse. [Puisse-t-]_NOM elle, Français, Françaises, être pour chacun et
0021 de fête. 1980 nous [apportera-t]_VER:simp [-il]_PRO:PER la paix ou la guerre ?
0035 qu'on nous annonce [amorcera-]_NOM [t]_VER:simp [-elle]_PRO:PER la décrue du chômage ?
BP - 2021-06-08
<pre>
-- le tiret : petite amélioration éventuellement à prévoir pour le -t- euphonique
Index de <.*-.*>, propriété @word, dans le corpus P1-METZ-2021-03-11...
416 items pour 4 096 occurrences.
-là 846
peut-être 787
-ce 597
est-à-dire 270
-même 82
week-end 77
- 76
là-bas 73
là-dessus 73
Saint-Denis 47
-mêmes 44
Peut-être 43
Etats-Unis 37
Moyen-Orient 34
après-midi 29
au-delà 29
grand-chose 28
-il 28
-moi 28
-vous 27
-je 19
vingt-quatre 19
-ci 17
vis-à-vis 17
...
=> OK
Cependant le -t- euphonique n'a pas l'air très bien traité :
Index de <.*-t>, propriété @word, dans le corpus P1-METZ-2021-03-11...
6 items pour 23 occurrences.
semble-t 14
a-t 2
-t 2
va-t 2
vivra-t 2
nomme-t 1
Index de <.*-t-.*>, propriété @word, dans le corpus P1-METZ-2021-03-11...
1 items pour 1 occurrences.
va-t-en-guerre 1
Index de <[word=".*-t"][]>, propriété @word, dans le corpus P1-METZ-2021-03-11...
6 items pour 23 occurrences.
semble-t -il 14
a-t -on 2
-t -il 2
va-t -on 2
vivra-t -il 2
nomme-t -on 1
=> Le -t- euphonique est lié au verbe qui précède. C'est un choix qui permet d'éviter de prévoir cette insertion entre verbe et pronom personnel, cependant cela trouble TreeTagger pour la bonne identification du verbe (lemme et pos) :
Index de <[word=".*-t"][]>, propriété @word_frpos_frlemma, dans le corpus P1-METZ-2021-03-11...
10 items pour 23 occurrences.
semble-t_VER:simp_semble-t -il_PRO:PER_il 13
-t_ADJ_-t -il_PRO:PER_il 2
a-t_ADJ_a-t -on_PRO:PER_on 1
a-t_VER:cond_a-t -on_PRO:PER_on 1
nomme-t_VER:cond_nomme-t -on_PRO:PER_on 1
semble-t_VER:impf_semble-t -il_PRO:PER_il 1
va-t_NOM_va-t -on_PRO:PER_on 1
va-t_VER:simp_va-t -on_PRO:PER_on 1
vivra-t_VER:cond_vivra-t -il_PRO:PER_il 1
vivra-t_VER:futu_vivra-t -il_PRO:PER_il 1
*** il serait intéressant de faire évoluer le traitement des -t- euphoniques pour les isoler comme mot : -t
(vérifier peut-être si en l'état ils sont eux-mêmes bien reconnus par TT et si cela améliore effectivement l'analyse du verbe).
</pre>
BP 2021-06-24
Ce serait bien de concevoir un traitement robuste qui sache aussi gérer des transcriptions non correctement orthographiées comme
est-t-il
a-t'il
h3. Solution
Tokenize <pre>(.*)-t-(.*)
</pre> and <pre>(.*)-t'(.*)</pre>
to
<pre>
$1 + '-t' + $2
</pre>