Bug #3220
Cooccurrences, broken mean distances
Status: | New | Start date: | 02/04/2022 | ||
---|---|---|---|---|---|
Priority: | Urgent | Due date: | |||
Assignee: | - | % Done: | 80% |
||
Category: | Commands | Spent time: | - | ||
Target version: | TXM 0.8.3 |
Description
When a pivot is overlaping with another pivot's context, the distance computation fails.
to reproduce¶
[BP]
Là j'ai observé dans le corpus VOEUX les cooccurrents 10-0 / 0-10 (ce n'est pas exactement le paramétrage par défaut qui est 9-0 / 0-9) du mot "avenir" ou de [frlemma="crise"], pour les 12 premiers mots cooccurrents (en sautant nombres et ponctuations). Voir par exemple pour "avenir" la distance moyenne du cooccurrent "dépend", idem pour "insuffisamment", "atout", "essentielle". Pour frlemma="crise", voir par exemple la distance pour la cooccurrence avec "sortir", "vite", "malgré", "sang-froid" ou "guerre" Lignes copiées : dépend 14 4 3 ,2 Concordance de <("avenir" []* @[word="dépend"] ) | (@[word="dépend"] []* "avenir") within 11> dans le corpus VOEUX... 5 occurrences. Lignes copiées : 0011 [dépend_260] de_261 nous_262 que_263 son_264 avenir_265 0014 [dépend_791] votre_792 avenir_793 0041 avenir_1363 [dépend_1364] 0041 [dépend_1364] de_1365 nous_1366._1367 L'_1368 avenir_1369 -> autre décompte de 1364, pas plus proche -> hors calcul 0041 avenir_1369 [dépend_1370] Moyenne des distances : (4 + 1 + 0 + 0) / 4 = 5/4 = 1,2 >> 0,2 Lignes copiées : insuffisamment 2 2 3 3,0 Concordance de <("avenir" []* @[word="insuffisamment"] ) | (@[word="insuffisamment"] []* "avenir") within 11> dans le corpus VOEUX... 1 occurrences. Lignes copiées [j'ajoute à la main la 2e paire de crochets] : 0042 [insuffisamment_218] contrôlée_219,_220 [insuffisamment_221] soucieuse_222 des_223 hommes_224 et_225 de_226 leur_227 avenir_228 Moyenne des distances : (9 + 6) / 2 = 15/2 = 7,5 >> 3,0 Lignes copiées : atout 3 2 2 1,0 Concordance de <("avenir" []* @[word="atout"] ) | (@[word="atout"] []* "avenir") within 11> dans le corpus VOEUX... 2 occurrences. Lignes copiées : 0047 [atout_699] pour_700 notre_701 avenir_702 0047 [atout_1028] pour_1029 notre_1030 avenir_1031 Moyenne des distances : (2 + 2) / 2 = 4/2 = 2 >> 1,0 Lignes copiées : essentielle 3 2 2 1,0 Concordance de <("avenir" []* @[word="essentielle"] ) | (@[word="essentielle"] []* "avenir") within 11> dans le corpus VOEUX... 2 occurrences. Lignes copiées : 0047 [essentielle_934] pour_935 notre_936 avenir_937 0052 [essentielle_494] à_495 notre_496 avenir_497 Moyenne des distances : (2 + 2) / 2 = 4/2 = 2 >> 1,0 Cooccurrents de <[frlemma = "crise"]>, propriété @word 10 10, ≥2 ≥2 ≥2.0, dans le corpus VOEUX... 31 cooccurrents pour 58 occurrences du pivot. Lignes copiées : sortir 9 4 4 2,5 Concordance de <([frlemma = "crise"] []* @[word="sortir"] ) | (@[word="sortir"] []* [frlemma = "crise"]) within 11> dans le corpus VOEUX... 4 occurrences. Lignes copiées : 0025 [sortir_129] peu_130 à_131 peu_132 de_133 la_134 crise_135 0050 [sortir_762] chacun_763 devra_764 faire_765 des_766 efforts_767._768 Car_769 de_770 cette_771 crise_772 0050 [sortir_1225] renforcés_1226 de_1227 cette_1228 crise_1229 0054 [sortir_458] de_459 la_460 crise_461 Moyenne des distances : (5 + 9 + 3 + 2) / 4 = 19/4 = 4,75 >> 2,5 Lignes copiées : vite 9 3 3 2,0 Concordance de <([frlemma = "crise"] []* @[word="vite"] ) | (@[word="vite"] []* [frlemma = "crise"]) within 11> dans le corpus VOEUX... 4 occurrences. Lignes copiées : 0040 crises_197,_198 notamment_199 financières_200,_201 se_202 propagent_203 très_204 [vite_205] 0050 crise_1147 nous_1148 oblige_1149 à_1150 changer_1151 plus_1152 [vite_1153] 0050 [vite_1153] et_1154 plus_1155 profondément_1156._1157 La_1158 crise_1159 -> autre décompte de 1153, pas plus proche (ex-aequo) -> hors calcul 0054 crise_461 plus_462 [vite_463] Moyenne des distances : (7 + 5 + 1) / 3 = 13/3 = 4,3 >> 2,0 Lignes copiées : malgré 11 3 2 ,7 Concordance de <([frlemma = "crise"] []* @[word="malgré"] ) | (@[word="malgré"] []* [frlemma = "crise"]) within 11> dans le corpus VOEUX... 3 occurrences. Lignes copiées : 0021 crise_947,_948 [malgré_949] 0049 [malgré_910] une_911 conjoncture_912 internationale_913 freinée_914 par_915 la_916 crise_917 0052 [malgré_238] la_239 crise_240 Moyenne des distances : (1 + 6 + 1) / 3 = 8/3 = 2,7 >> 0,7 Lignes copiées : sang-froid 3 2 2 5,0 Concordance de <([frlemma = "crise"] []* @[word="sang-froid"] ) | (@[word="sang-froid"] []* [frlemma = "crise"]) within 11> dans le corpus VOEUX... 2 occurrences. Lignes copiées : 0051 [sang-froid_134] et_135 au_136 courage_137 des_138 Français_139 face_140 à_141 la_142 crise_143 0053 crise_263 de_264 confiance_265,_266 c'_267 est_268 grâce_269 au_270 courage_271 et_272 au_273 [sang-froid_274] Moyenne des distances : (8 + 10) / 2 = 18/2 = 9 >> 5,0 Lignes copiées : guerre 28 4 2 2,2 Concordance de <([frlemma = "crise"] []* @[word="guerre"] ) | (@[word="guerre"] []* [frlemma = "crise"]) within 11> dans le corpus VOEUX... 5 occurrences. Lignes copiées : 0021 [guerre_303] ?_304 L'_305 aggravation_306 de_307 la_308 crise_309 0045 crises_163 :_164 la_165 [guerre_166] 0048 [guerre_229] en_230 Irak_231,_232 la_233 crise_234 0053 crise_96 inouïe_97,_98 sans_99 doute_100 la_101 plus_102 grave_103 depuis_104 la_105 deuxième_106 [guerre_107] -> autre décompte de 107, pas plus proche -> hors calcul 0053 [guerre_107] mondiale_108,_109 cette_110 crise_111 Moyenne des distances : (5 + 2 + 4 + 3) / 4 = 14/4 = 3,5 >> 2,2
Bug des contextes très large
Paramètres: corpus : AF-NOTICES-V4-2022-04-27 requête : [frlemma="foule"] Résultat: massée 206 199 94 77,2 Bug : foule et massée ne sont pas si éloigné en moyenne
Solution¶
The solution is to use a target (if not set, it is added in the queries) and strictly align the pivot, context and anti-context matches using the target position
Keep the minimum cooccurrence distances when computing the mean distance
History
#1 Updated by Matthieu Decorde over 1 year ago
- Description updated (diff)
#2 Updated by Matthieu Decorde over 1 year ago
- Description updated (diff)
- % Done changed from 0 to 80
#3 Updated by Serge Heiden over 1 year ago
- Description updated (diff)
#4 Updated by Serge Heiden over 1 year ago
- Description updated (diff)
#5 Updated by Serge Heiden over 1 year ago
- Description updated (diff)
#6 Updated by Matthieu Decorde over 1 year ago
- % Done changed from 80 to 40
cooccurrence of "avenir" with "insuffisamment" is stillf broken
#7 Updated by Matthieu Decorde about 1 year ago
- Description updated (diff)
#8 Updated by Matthieu Decorde about 1 year ago
- Description updated (diff)
#9 Updated by Matthieu Decorde about 1 year ago
- % Done changed from 40 to 80
#10 Updated by Matthieu Decorde about 1 year ago
- Description updated (diff)
#12 Updated by Matthieu Decorde 4 months ago
- Target version changed from TXM 0.8.2 to TXM 0.8.3