Bug #3220

Cooccurrences, broken mean distances

Ajouté par Matthieu Decorde il y a plus de 3 ans. Mis à jour il y a plus d'un an.

Statut:Closed Début:04/02/2022
Priorité:Urgent Echéance:
Assigné à:- % réalisé:

100%

Catégorie:Commands Temps passé: -
Version cible:TXM 0.8.3

Description

When a pivot is overlaping with another pivot's context, the distance computation fails.

to reproduce

[BP]


Là j'ai observé dans le corpus VOEUX les cooccurrents 10-0 / 0-10 (ce n'est pas exactement le paramétrage par défaut qui est 9-0 / 0-9) du mot "avenir" ou de [frlemma="crise"], pour les 12 premiers mots cooccurrents (en sautant nombres et ponctuations). Voir par exemple pour "avenir" la distance moyenne du cooccurrent "dépend", idem pour "insuffisamment", "atout", "essentielle". Pour frlemma="crise", voir par exemple la distance pour la cooccurrence avec "sortir", "vite", "malgré", "sang-froid" ou "guerre" 

Lignes copiées : 
    dépend    14    4    3    ,2
Concordance de <("avenir" []* @[word="dépend"] ) | (@[word="dépend"]  []* "avenir") within 11> dans le corpus VOEUX...
5 occurrences.
Lignes copiées : 
0011    [dépend_260] de_261 nous_262 que_263 son_264 avenir_265    
0014    [dépend_791] votre_792 avenir_793    
0041    avenir_1363 [dépend_1364]    
0041    [dépend_1364] de_1365 nous_1366._1367 L'_1368 avenir_1369    -> autre décompte de 1364, pas plus proche -> hors calcul
0041    avenir_1369 [dépend_1370]
Moyenne des distances :
(4 + 1 + 0 + 0) / 4 = 5/4 = 1,2 >> 0,2

Lignes copiées : 
    insuffisamment    2    2    3    3,0
Concordance de <("avenir" []* @[word="insuffisamment"] ) | (@[word="insuffisamment"]  []* "avenir") within 11> dans le corpus VOEUX...
1 occurrences.
Lignes copiées [j'ajoute à la main la 2e paire de crochets] : 
0042    [insuffisamment_218] contrôlée_219,_220 [insuffisamment_221] soucieuse_222 des_223 hommes_224 et_225 de_226 leur_227 avenir_228    
Moyenne des distances :
(9 + 6) / 2 = 15/2 = 7,5 >> 3,0

Lignes copiées : 
    atout    3    2    2    1,0
Concordance de <("avenir" []* @[word="atout"] ) | (@[word="atout"]  []* "avenir") within 11> dans le corpus VOEUX...
2 occurrences.
Lignes copiées : 
0047    [atout_699] pour_700 notre_701 avenir_702    
0047    [atout_1028] pour_1029 notre_1030 avenir_1031    
Moyenne des distances :
(2 + 2) / 2 = 4/2 = 2 >> 1,0

Lignes copiées : 
    essentielle    3    2    2    1,0
Concordance de <("avenir" []* @[word="essentielle"] ) | (@[word="essentielle"]  []* "avenir") within 11> dans le corpus VOEUX...
2 occurrences.
Lignes copiées : 
0047    [essentielle_934] pour_935 notre_936 avenir_937    
0052    [essentielle_494] à_495 notre_496 avenir_497    
Moyenne des distances :
(2 + 2) / 2 = 4/2 = 2 >> 1,0

Cooccurrents de <[frlemma = "crise"]>, propriété @word 10 10, ≥2 ≥2 ≥2.0, dans le corpus VOEUX...
31 cooccurrents pour 58 occurrences du pivot.

Lignes copiées : 
    sortir    9    4    4    2,5
Concordance de <([frlemma = "crise"] []* @[word="sortir"] ) | (@[word="sortir"]  []* [frlemma = "crise"]) within 11> dans le corpus VOEUX...
4 occurrences.
Lignes copiées : 
0025    [sortir_129] peu_130 à_131 peu_132 de_133 la_134 crise_135    
0050    [sortir_762] chacun_763 devra_764 faire_765 des_766 efforts_767._768 Car_769 de_770 cette_771 crise_772    
0050    [sortir_1225] renforcés_1226 de_1227 cette_1228 crise_1229    
0054    [sortir_458] de_459 la_460 crise_461    
Moyenne des distances :
(5 + 9 + 3 + 2) / 4 = 19/4 = 4,75 >> 2,5

Lignes copiées : 
    vite    9    3    3    2,0
Concordance de <([frlemma = "crise"] []* @[word="vite"] ) | (@[word="vite"]  []* [frlemma = "crise"]) within 11> dans le corpus VOEUX...
4 occurrences.
Lignes copiées : 
0040    crises_197,_198 notamment_199 financières_200,_201 se_202 propagent_203 très_204 [vite_205]    
0050    crise_1147 nous_1148 oblige_1149 à_1150 changer_1151 plus_1152 [vite_1153]    
0050    [vite_1153] et_1154 plus_1155 profondément_1156._1157 La_1158 crise_1159    -> autre décompte de 1153, pas plus proche (ex-aequo) -> hors calcul
0054    crise_461 plus_462 [vite_463]    
Moyenne des distances :
(7 + 5 + 1) / 3 = 13/3 = 4,3 >> 2,0

Lignes copiées : 
    malgré    11    3    2    ,7
Concordance de <([frlemma = "crise"] []* @[word="malgré"] ) | (@[word="malgré"]  []* [frlemma = "crise"]) within 11> dans le corpus VOEUX...
3 occurrences.
Lignes copiées : 
0021    crise_947,_948 [malgré_949]    
0049    [malgré_910] une_911 conjoncture_912 internationale_913 freinée_914 par_915 la_916 crise_917    
0052    [malgré_238] la_239 crise_240    
Moyenne des distances :
(1 + 6 + 1) / 3 = 8/3 = 2,7 >> 0,7

Lignes copiées : 
    sang-froid    3    2    2    5,0
Concordance de <([frlemma = "crise"] []* @[word="sang-froid"] ) | (@[word="sang-froid"]  []* [frlemma = "crise"]) within 11> dans le corpus VOEUX...
2 occurrences.
Lignes copiées : 
0051    [sang-froid_134] et_135 au_136 courage_137 des_138 Français_139 face_140 à_141 la_142 crise_143    
0053    crise_263 de_264 confiance_265,_266 c'_267 est_268 grâce_269 au_270 courage_271 et_272 au_273 [sang-froid_274]    
Moyenne des distances :
(8 + 10) / 2 = 18/2 = 9 >> 5,0

Lignes copiées : 
    guerre    28    4    2    2,2
Concordance de <([frlemma = "crise"] []* @[word="guerre"] ) | (@[word="guerre"]  []* [frlemma = "crise"]) within 11> dans le corpus VOEUX...
5 occurrences.
Lignes copiées : 
0021    [guerre_303] ?_304 L'_305 aggravation_306 de_307 la_308 crise_309    
0045    crises_163 :_164 la_165 [guerre_166]    
0048    [guerre_229] en_230 Irak_231,_232 la_233 crise_234    
0053    crise_96 inouïe_97,_98 sans_99 doute_100 la_101 plus_102 grave_103 depuis_104 la_105 deuxième_106 [guerre_107]    -> autre décompte de 107, pas plus proche -> hors calcul
0053    [guerre_107] mondiale_108,_109 cette_110 crise_111    
Moyenne des distances :
(5 + 2 + 4 + 3) / 4 = 14/4 = 3,5 >> 2,2

Bug des contextes très large

Paramètres:
  corpus : AF-NOTICES-V4-2022-04-27
  requête : [frlemma="foule"] 
Résultat:
      massée    206    199    94    77,2 
Bug : foule et massée ne sont pas si éloigné en moyenne

Solution

The solution is to use a target (if not set, it is added in the queries) and strictly align the pivot, context and anti-context matches using the target position

Keep the minimum cooccurrence distances when computing the mean distance

Historique

#1 Mis à jour par Matthieu Decorde il y a plus de 3 ans

  • Description mis à jour (diff)

#2 Mis à jour par Matthieu Decorde il y a plus de 3 ans

  • Description mis à jour (diff)
  • % réalisé changé de 0 à 80

#3 Mis à jour par Serge Heiden il y a plus de 3 ans

  • Description mis à jour (diff)

#4 Mis à jour par Serge Heiden il y a plus de 3 ans

  • Description mis à jour (diff)

#5 Mis à jour par Serge Heiden il y a plus de 3 ans

  • Description mis à jour (diff)

#6 Mis à jour par Matthieu Decorde il y a plus de 3 ans

  • % réalisé changé de 80 à 40

cooccurrence of "avenir" with "insuffisamment" is stillf broken

#7 Mis à jour par Matthieu Decorde il y a plus de 3 ans

  • Description mis à jour (diff)

#8 Mis à jour par Matthieu Decorde il y a plus de 3 ans

  • Description mis à jour (diff)

#9 Mis à jour par Matthieu Decorde il y a plus de 3 ans

  • % réalisé changé de 40 à 80

#10 Mis à jour par Matthieu Decorde il y a plus de 3 ans

  • Description mis à jour (diff)

#11 Mis à jour par Matthieu Decorde il y a presque 3 ans

  • Description mis à jour (diff)

--

#12 Mis à jour par Matthieu Decorde il y a plus de 2 ans

  • Version cible changé de TXM 0.8.2 à TXM 0.8.3

#13 Mis à jour par Sebastien Jacquot il y a plus d'un an

  • % réalisé changé de 80 à 100

#14 Mis à jour par Sebastien Jacquot il y a plus d'un an

  • Statut changé de New à Closed

Formats disponibles : Atom PDF