Bug #3220
Mis à jour par Matthieu Decorde il y a presque 3 ans
When a pivot is overlaping with another pivot's context, the distance computation fails.
h3. to reproduce
[BP]<pre>
Là j'ai observé dans le corpus VOEUX les cooccurrents 10-0 / 0-10 (ce n'est pas exactement le paramétrage par défaut qui est 9-0 / 0-9) du mot "avenir" ou de [frlemma="crise"], pour les 12 premiers mots cooccurrents (en sautant nombres et ponctuations). Voir par exemple pour "avenir" la distance moyenne du cooccurrent "dépend", idem pour "insuffisamment", "atout", "essentielle". Pour frlemma="crise", voir par exemple la distance pour la cooccurrence avec "sortir", "vite", "malgré", "sang-froid" ou "guerre"
Lignes copiées :
dépend 14 4 3 ,2
Concordance de <("avenir" []* @[word="dépend"] ) | (@[word="dépend"] []* "avenir") within 11> dans le corpus VOEUX...
5 occurrences.
Lignes copiées :
0011 [dépend_260] de_261 nous_262 que_263 son_264 avenir_265
0014 [dépend_791] votre_792 avenir_793
0041 avenir_1363 [dépend_1364]
0041 [dépend_1364] de_1365 nous_1366._1367 L'_1368 avenir_1369 -> autre décompte de 1364, pas plus proche -> hors calcul
0041 avenir_1369 [dépend_1370]
Moyenne des distances :
(4 + 1 + 0 + 0) / 4 = 5/4 = 1,2 >> 0,2
Lignes copiées :
insuffisamment 2 2 3 3,0
Concordance de <("avenir" []* @[word="insuffisamment"] ) | (@[word="insuffisamment"] []* "avenir") within 11> dans le corpus VOEUX...
1 occurrences.
Lignes copiées [j'ajoute à la main la 2e paire de crochets] :
0042 [insuffisamment_218] contrôlée_219,_220 [insuffisamment_221] soucieuse_222 des_223 hommes_224 et_225 de_226 leur_227 avenir_228
Moyenne des distances :
(9 + 6) / 2 = 15/2 = 7,5 >> 3,0
Lignes copiées :
atout 3 2 2 1,0
Concordance de <("avenir" []* @[word="atout"] ) | (@[word="atout"] []* "avenir") within 11> dans le corpus VOEUX...
2 occurrences.
Lignes copiées :
0047 [atout_699] pour_700 notre_701 avenir_702
0047 [atout_1028] pour_1029 notre_1030 avenir_1031
Moyenne des distances :
(2 + 2) / 2 = 4/2 = 2 >> 1,0
Lignes copiées :
essentielle 3 2 2 1,0
Concordance de <("avenir" []* @[word="essentielle"] ) | (@[word="essentielle"] []* "avenir") within 11> dans le corpus VOEUX...
2 occurrences.
Lignes copiées :
0047 [essentielle_934] pour_935 notre_936 avenir_937
0052 [essentielle_494] à_495 notre_496 avenir_497
Moyenne des distances :
(2 + 2) / 2 = 4/2 = 2 >> 1,0
Cooccurrents de <[frlemma = "crise"]>, propriété @word 10 10, ≥2 ≥2 ≥2.0, dans le corpus VOEUX...
31 cooccurrents pour 58 occurrences du pivot.
Lignes copiées :
sortir 9 4 4 2,5
Concordance de <([frlemma = "crise"] []* @[word="sortir"] ) | (@[word="sortir"] []* [frlemma = "crise"]) within 11> dans le corpus VOEUX...
4 occurrences.
Lignes copiées :
0025 [sortir_129] peu_130 à_131 peu_132 de_133 la_134 crise_135
0050 [sortir_762] chacun_763 devra_764 faire_765 des_766 efforts_767._768 Car_769 de_770 cette_771 crise_772
0050 [sortir_1225] renforcés_1226 de_1227 cette_1228 crise_1229
0054 [sortir_458] de_459 la_460 crise_461
Moyenne des distances :
(5 + 9 + 3 + 2) / 4 = 19/4 = 4,75 >> 2,5
Lignes copiées :
vite 9 3 3 2,0
Concordance de <([frlemma = "crise"] []* @[word="vite"] ) | (@[word="vite"] []* [frlemma = "crise"]) within 11> dans le corpus VOEUX...
4 occurrences.
Lignes copiées :
0040 crises_197,_198 notamment_199 financières_200,_201 se_202 propagent_203 très_204 [vite_205]
0050 crise_1147 nous_1148 oblige_1149 à_1150 changer_1151 plus_1152 [vite_1153]
0050 [vite_1153] et_1154 plus_1155 profondément_1156._1157 La_1158 crise_1159 -> autre décompte de 1153, pas plus proche (ex-aequo) -> hors calcul
0054 crise_461 plus_462 [vite_463]
Moyenne des distances :
(7 + 5 + 1) / 3 = 13/3 = 4,3 >> 2,0
Lignes copiées :
malgré 11 3 2 ,7
Concordance de <([frlemma = "crise"] []* @[word="malgré"] ) | (@[word="malgré"] []* [frlemma = "crise"]) within 11> dans le corpus VOEUX...
3 occurrences.
Lignes copiées :
0021 crise_947,_948 [malgré_949]
0049 [malgré_910] une_911 conjoncture_912 internationale_913 freinée_914 par_915 la_916 crise_917
0052 [malgré_238] la_239 crise_240
Moyenne des distances :
(1 + 6 + 1) / 3 = 8/3 = 2,7 >> 0,7
Lignes copiées :
sang-froid 3 2 2 5,0
Concordance de <([frlemma = "crise"] []* @[word="sang-froid"] ) | (@[word="sang-froid"] []* [frlemma = "crise"]) within 11> dans le corpus VOEUX...
2 occurrences.
Lignes copiées :
0051 [sang-froid_134] et_135 au_136 courage_137 des_138 Français_139 face_140 à_141 la_142 crise_143
0053 crise_263 de_264 confiance_265,_266 c'_267 est_268 grâce_269 au_270 courage_271 et_272 au_273 [sang-froid_274]
Moyenne des distances :
(8 + 10) / 2 = 18/2 = 9 >> 5,0
Lignes copiées :
guerre 28 4 2 2,2
Concordance de <([frlemma = "crise"] []* @[word="guerre"] ) | (@[word="guerre"] []* [frlemma = "crise"]) within 11> dans le corpus VOEUX...
5 occurrences.
Lignes copiées :
0021 [guerre_303] ?_304 L'_305 aggravation_306 de_307 la_308 crise_309
0045 crises_163 :_164 la_165 [guerre_166]
0048 [guerre_229] en_230 Irak_231,_232 la_233 crise_234
0053 crise_96 inouïe_97,_98 sans_99 doute_100 la_101 plus_102 grave_103 depuis_104 la_105 deuxième_106 [guerre_107] -> autre décompte de 107, pas plus proche -> hors calcul
0053 [guerre_107] mondiale_108,_109 cette_110 crise_111
Moyenne des distances :
(5 + 2 + 4 + 3) / 4 = 14/4 = 3,5 >> 2,2
</pre>
Bug des contextes très large
<pre>
Paramètres:
corpus : AF-NOTICES-V4-2022-04-27
requête : [frlemma="foule"]
Résultat:
massée 206 199 94 77,2
Bug : foule et massée ne sont pas si éloigné en moyenne
</pre>
h3. Solution
-The The solution is to use a target (if not set, it is added in the queries) and strictly align the pivot, context and anti-context matches using the target position-
Keep the minimum cooccurrence distances when computing the mean distance
position
h3. to reproduce
[BP]<pre>
Là j'ai observé dans le corpus VOEUX les cooccurrents 10-0 / 0-10 (ce n'est pas exactement le paramétrage par défaut qui est 9-0 / 0-9) du mot "avenir" ou de [frlemma="crise"], pour les 12 premiers mots cooccurrents (en sautant nombres et ponctuations). Voir par exemple pour "avenir" la distance moyenne du cooccurrent "dépend", idem pour "insuffisamment", "atout", "essentielle". Pour frlemma="crise", voir par exemple la distance pour la cooccurrence avec "sortir", "vite", "malgré", "sang-froid" ou "guerre"
Lignes copiées :
dépend 14 4 3 ,2
Concordance de <("avenir" []* @[word="dépend"] ) | (@[word="dépend"] []* "avenir") within 11> dans le corpus VOEUX...
5 occurrences.
Lignes copiées :
0011 [dépend_260] de_261 nous_262 que_263 son_264 avenir_265
0014 [dépend_791] votre_792 avenir_793
0041 avenir_1363 [dépend_1364]
0041 [dépend_1364] de_1365 nous_1366._1367 L'_1368 avenir_1369 -> autre décompte de 1364, pas plus proche -> hors calcul
0041 avenir_1369 [dépend_1370]
Moyenne des distances :
(4 + 1 + 0 + 0) / 4 = 5/4 = 1,2 >> 0,2
Lignes copiées :
insuffisamment 2 2 3 3,0
Concordance de <("avenir" []* @[word="insuffisamment"] ) | (@[word="insuffisamment"] []* "avenir") within 11> dans le corpus VOEUX...
1 occurrences.
Lignes copiées [j'ajoute à la main la 2e paire de crochets] :
0042 [insuffisamment_218] contrôlée_219,_220 [insuffisamment_221] soucieuse_222 des_223 hommes_224 et_225 de_226 leur_227 avenir_228
Moyenne des distances :
(9 + 6) / 2 = 15/2 = 7,5 >> 3,0
Lignes copiées :
atout 3 2 2 1,0
Concordance de <("avenir" []* @[word="atout"] ) | (@[word="atout"] []* "avenir") within 11> dans le corpus VOEUX...
2 occurrences.
Lignes copiées :
0047 [atout_699] pour_700 notre_701 avenir_702
0047 [atout_1028] pour_1029 notre_1030 avenir_1031
Moyenne des distances :
(2 + 2) / 2 = 4/2 = 2 >> 1,0
Lignes copiées :
essentielle 3 2 2 1,0
Concordance de <("avenir" []* @[word="essentielle"] ) | (@[word="essentielle"] []* "avenir") within 11> dans le corpus VOEUX...
2 occurrences.
Lignes copiées :
0047 [essentielle_934] pour_935 notre_936 avenir_937
0052 [essentielle_494] à_495 notre_496 avenir_497
Moyenne des distances :
(2 + 2) / 2 = 4/2 = 2 >> 1,0
Cooccurrents de <[frlemma = "crise"]>, propriété @word 10 10, ≥2 ≥2 ≥2.0, dans le corpus VOEUX...
31 cooccurrents pour 58 occurrences du pivot.
Lignes copiées :
sortir 9 4 4 2,5
Concordance de <([frlemma = "crise"] []* @[word="sortir"] ) | (@[word="sortir"] []* [frlemma = "crise"]) within 11> dans le corpus VOEUX...
4 occurrences.
Lignes copiées :
0025 [sortir_129] peu_130 à_131 peu_132 de_133 la_134 crise_135
0050 [sortir_762] chacun_763 devra_764 faire_765 des_766 efforts_767._768 Car_769 de_770 cette_771 crise_772
0050 [sortir_1225] renforcés_1226 de_1227 cette_1228 crise_1229
0054 [sortir_458] de_459 la_460 crise_461
Moyenne des distances :
(5 + 9 + 3 + 2) / 4 = 19/4 = 4,75 >> 2,5
Lignes copiées :
vite 9 3 3 2,0
Concordance de <([frlemma = "crise"] []* @[word="vite"] ) | (@[word="vite"] []* [frlemma = "crise"]) within 11> dans le corpus VOEUX...
4 occurrences.
Lignes copiées :
0040 crises_197,_198 notamment_199 financières_200,_201 se_202 propagent_203 très_204 [vite_205]
0050 crise_1147 nous_1148 oblige_1149 à_1150 changer_1151 plus_1152 [vite_1153]
0050 [vite_1153] et_1154 plus_1155 profondément_1156._1157 La_1158 crise_1159 -> autre décompte de 1153, pas plus proche (ex-aequo) -> hors calcul
0054 crise_461 plus_462 [vite_463]
Moyenne des distances :
(7 + 5 + 1) / 3 = 13/3 = 4,3 >> 2,0
Lignes copiées :
malgré 11 3 2 ,7
Concordance de <([frlemma = "crise"] []* @[word="malgré"] ) | (@[word="malgré"] []* [frlemma = "crise"]) within 11> dans le corpus VOEUX...
3 occurrences.
Lignes copiées :
0021 crise_947,_948 [malgré_949]
0049 [malgré_910] une_911 conjoncture_912 internationale_913 freinée_914 par_915 la_916 crise_917
0052 [malgré_238] la_239 crise_240
Moyenne des distances :
(1 + 6 + 1) / 3 = 8/3 = 2,7 >> 0,7
Lignes copiées :
sang-froid 3 2 2 5,0
Concordance de <([frlemma = "crise"] []* @[word="sang-froid"] ) | (@[word="sang-froid"] []* [frlemma = "crise"]) within 11> dans le corpus VOEUX...
2 occurrences.
Lignes copiées :
0051 [sang-froid_134] et_135 au_136 courage_137 des_138 Français_139 face_140 à_141 la_142 crise_143
0053 crise_263 de_264 confiance_265,_266 c'_267 est_268 grâce_269 au_270 courage_271 et_272 au_273 [sang-froid_274]
Moyenne des distances :
(8 + 10) / 2 = 18/2 = 9 >> 5,0
Lignes copiées :
guerre 28 4 2 2,2
Concordance de <([frlemma = "crise"] []* @[word="guerre"] ) | (@[word="guerre"] []* [frlemma = "crise"]) within 11> dans le corpus VOEUX...
5 occurrences.
Lignes copiées :
0021 [guerre_303] ?_304 L'_305 aggravation_306 de_307 la_308 crise_309
0045 crises_163 :_164 la_165 [guerre_166]
0048 [guerre_229] en_230 Irak_231,_232 la_233 crise_234
0053 crise_96 inouïe_97,_98 sans_99 doute_100 la_101 plus_102 grave_103 depuis_104 la_105 deuxième_106 [guerre_107] -> autre décompte de 107, pas plus proche -> hors calcul
0053 [guerre_107] mondiale_108,_109 cette_110 crise_111
Moyenne des distances :
(5 + 2 + 4 + 3) / 4 = 14/4 = 3,5 >> 2,2
</pre>
Bug des contextes très large
<pre>
Paramètres:
corpus : AF-NOTICES-V4-2022-04-27
requête : [frlemma="foule"]
Résultat:
massée 206 199 94 77,2
Bug : foule et massée ne sont pas si éloigné en moyenne
</pre>
h3. Solution
-The The solution is to use a target (if not set, it is added in the queries) and strictly align the pivot, context and anti-context matches using the target position-
Keep the minimum cooccurrence distances when computing the mean distance
position