Bug #3220

Cooccurrences, broken mean distances

Added by Matthieu Decorde over 1 year ago. Updated 4 months ago.

Status:New Start date:02/04/2022
Priority:Urgent Due date:
Assignee:- % Done:

80%

Category:Commands Spent time: -
Target version:TXM 0.8.3

Description

When a pivot is overlaping with another pivot's context, the distance computation fails.

to reproduce

[BP]


Là j'ai observé dans le corpus VOEUX les cooccurrents 10-0 / 0-10 (ce n'est pas exactement le paramétrage par défaut qui est 9-0 / 0-9) du mot "avenir" ou de [frlemma="crise"], pour les 12 premiers mots cooccurrents (en sautant nombres et ponctuations). Voir par exemple pour "avenir" la distance moyenne du cooccurrent "dépend", idem pour "insuffisamment", "atout", "essentielle". Pour frlemma="crise", voir par exemple la distance pour la cooccurrence avec "sortir", "vite", "malgré", "sang-froid" ou "guerre" 

Lignes copiées : 
    dépend    14    4    3    ,2
Concordance de <("avenir" []* @[word="dépend"] ) | (@[word="dépend"]  []* "avenir") within 11> dans le corpus VOEUX...
5 occurrences.
Lignes copiées : 
0011    [dépend_260] de_261 nous_262 que_263 son_264 avenir_265    
0014    [dépend_791] votre_792 avenir_793    
0041    avenir_1363 [dépend_1364]    
0041    [dépend_1364] de_1365 nous_1366._1367 L'_1368 avenir_1369    -> autre décompte de 1364, pas plus proche -> hors calcul
0041    avenir_1369 [dépend_1370]
Moyenne des distances :
(4 + 1 + 0 + 0) / 4 = 5/4 = 1,2 >> 0,2

Lignes copiées : 
    insuffisamment    2    2    3    3,0
Concordance de <("avenir" []* @[word="insuffisamment"] ) | (@[word="insuffisamment"]  []* "avenir") within 11> dans le corpus VOEUX...
1 occurrences.
Lignes copiées [j'ajoute à la main la 2e paire de crochets] : 
0042    [insuffisamment_218] contrôlée_219,_220 [insuffisamment_221] soucieuse_222 des_223 hommes_224 et_225 de_226 leur_227 avenir_228    
Moyenne des distances :
(9 + 6) / 2 = 15/2 = 7,5 >> 3,0

Lignes copiées : 
    atout    3    2    2    1,0
Concordance de <("avenir" []* @[word="atout"] ) | (@[word="atout"]  []* "avenir") within 11> dans le corpus VOEUX...
2 occurrences.
Lignes copiées : 
0047    [atout_699] pour_700 notre_701 avenir_702    
0047    [atout_1028] pour_1029 notre_1030 avenir_1031    
Moyenne des distances :
(2 + 2) / 2 = 4/2 = 2 >> 1,0

Lignes copiées : 
    essentielle    3    2    2    1,0
Concordance de <("avenir" []* @[word="essentielle"] ) | (@[word="essentielle"]  []* "avenir") within 11> dans le corpus VOEUX...
2 occurrences.
Lignes copiées : 
0047    [essentielle_934] pour_935 notre_936 avenir_937    
0052    [essentielle_494] à_495 notre_496 avenir_497    
Moyenne des distances :
(2 + 2) / 2 = 4/2 = 2 >> 1,0

Cooccurrents de <[frlemma = "crise"]>, propriété @word 10 10, ≥2 ≥2 ≥2.0, dans le corpus VOEUX...
31 cooccurrents pour 58 occurrences du pivot.

Lignes copiées : 
    sortir    9    4    4    2,5
Concordance de <([frlemma = "crise"] []* @[word="sortir"] ) | (@[word="sortir"]  []* [frlemma = "crise"]) within 11> dans le corpus VOEUX...
4 occurrences.
Lignes copiées : 
0025    [sortir_129] peu_130 à_131 peu_132 de_133 la_134 crise_135    
0050    [sortir_762] chacun_763 devra_764 faire_765 des_766 efforts_767._768 Car_769 de_770 cette_771 crise_772    
0050    [sortir_1225] renforcés_1226 de_1227 cette_1228 crise_1229    
0054    [sortir_458] de_459 la_460 crise_461    
Moyenne des distances :
(5 + 9 + 3 + 2) / 4 = 19/4 = 4,75 >> 2,5

Lignes copiées : 
    vite    9    3    3    2,0
Concordance de <([frlemma = "crise"] []* @[word="vite"] ) | (@[word="vite"]  []* [frlemma = "crise"]) within 11> dans le corpus VOEUX...
4 occurrences.
Lignes copiées : 
0040    crises_197,_198 notamment_199 financières_200,_201 se_202 propagent_203 très_204 [vite_205]    
0050    crise_1147 nous_1148 oblige_1149 à_1150 changer_1151 plus_1152 [vite_1153]    
0050    [vite_1153] et_1154 plus_1155 profondément_1156._1157 La_1158 crise_1159    -> autre décompte de 1153, pas plus proche (ex-aequo) -> hors calcul
0054    crise_461 plus_462 [vite_463]    
Moyenne des distances :
(7 + 5 + 1) / 3 = 13/3 = 4,3 >> 2,0

Lignes copiées : 
    malgré    11    3    2    ,7
Concordance de <([frlemma = "crise"] []* @[word="malgré"] ) | (@[word="malgré"]  []* [frlemma = "crise"]) within 11> dans le corpus VOEUX...
3 occurrences.
Lignes copiées : 
0021    crise_947,_948 [malgré_949]    
0049    [malgré_910] une_911 conjoncture_912 internationale_913 freinée_914 par_915 la_916 crise_917    
0052    [malgré_238] la_239 crise_240    
Moyenne des distances :
(1 + 6 + 1) / 3 = 8/3 = 2,7 >> 0,7

Lignes copiées : 
    sang-froid    3    2    2    5,0
Concordance de <([frlemma = "crise"] []* @[word="sang-froid"] ) | (@[word="sang-froid"]  []* [frlemma = "crise"]) within 11> dans le corpus VOEUX...
2 occurrences.
Lignes copiées : 
0051    [sang-froid_134] et_135 au_136 courage_137 des_138 Français_139 face_140 à_141 la_142 crise_143    
0053    crise_263 de_264 confiance_265,_266 c'_267 est_268 grâce_269 au_270 courage_271 et_272 au_273 [sang-froid_274]    
Moyenne des distances :
(8 + 10) / 2 = 18/2 = 9 >> 5,0

Lignes copiées : 
    guerre    28    4    2    2,2
Concordance de <([frlemma = "crise"] []* @[word="guerre"] ) | (@[word="guerre"]  []* [frlemma = "crise"]) within 11> dans le corpus VOEUX...
5 occurrences.
Lignes copiées : 
0021    [guerre_303] ?_304 L'_305 aggravation_306 de_307 la_308 crise_309    
0045    crises_163 :_164 la_165 [guerre_166]    
0048    [guerre_229] en_230 Irak_231,_232 la_233 crise_234    
0053    crise_96 inouïe_97,_98 sans_99 doute_100 la_101 plus_102 grave_103 depuis_104 la_105 deuxième_106 [guerre_107]    -> autre décompte de 107, pas plus proche -> hors calcul
0053    [guerre_107] mondiale_108,_109 cette_110 crise_111    
Moyenne des distances :
(5 + 2 + 4 + 3) / 4 = 14/4 = 3,5 >> 2,2

Bug des contextes très large

Paramètres:
  corpus : AF-NOTICES-V4-2022-04-27
  requête : [frlemma="foule"] 
Résultat:
      massée    206    199    94    77,2 
Bug : foule et massée ne sont pas si éloigné en moyenne

Solution

The solution is to use a target (if not set, it is added in the queries) and strictly align the pivot, context and anti-context matches using the target position

Keep the minimum cooccurrence distances when computing the mean distance

History

#1 Updated by Matthieu Decorde over 1 year ago

  • Description updated (diff)

#2 Updated by Matthieu Decorde over 1 year ago

  • Description updated (diff)
  • % Done changed from 0 to 80

#3 Updated by Serge Heiden over 1 year ago

  • Description updated (diff)

#4 Updated by Serge Heiden over 1 year ago

  • Description updated (diff)

#5 Updated by Serge Heiden over 1 year ago

  • Description updated (diff)

#6 Updated by Matthieu Decorde over 1 year ago

  • % Done changed from 80 to 40

cooccurrence of "avenir" with "insuffisamment" is stillf broken

#7 Updated by Matthieu Decorde about 1 year ago

  • Description updated (diff)

#8 Updated by Matthieu Decorde about 1 year ago

  • Description updated (diff)

#9 Updated by Matthieu Decorde about 1 year ago

  • % Done changed from 40 to 80

#10 Updated by Matthieu Decorde about 1 year ago

  • Description updated (diff)

#11 Updated by Matthieu Decorde 8 months ago

  • Description updated (diff)

--

#12 Updated by Matthieu Decorde 4 months ago

  • Target version changed from TXM 0.8.2 to TXM 0.8.3

Also available in: Atom PDF