Détection des anomalies dans un projet .align (corpus HM)

On veut connaître les problèmes de cohérence dans un corpus, cela consiste principalement à être sûr qu'il existe toujours un lien entre les éléments du fichier d'équivalences et ceux du fichier du corpus.

Selon les algorithmes et le critère de test (est-ce qu'il y a ou non telle variable), ils vont
  1. soit produire un tableau, une liste de données
  2. soit éliminer certaines données
  3. soit modifier certaines données (après avoir détecté certaines anomalies)

Pour accéder à l'ensemble des scripts, il y a deux possibilités :

  • Soit on va dans le menu principal de l'outil, dans Options > Exécuter un script

  • Soit après chargement d'un projet, on se place dans la vue arborescente et à la racine de l'arbre du "Corpus" ou des "Equivalences", on choisit l'option "Voir les scripts" (icône de la calculatrice).

A. Cohérence dans le corpus

1) Enlever les annotations orphelines

Nom de code du script : SCRIPT_REMOVE_ANNOTATION_ALONE

2) Montrer les annotations homonymes dans un même segment

Nom de code du script : SCRIPT_FIND_HOMONYME_ANNOTATION

4) Réinitialiser les identifiants des annotations du corpus

Nom de code du script : SCRIPT_CORPUS_RECOMPUTE_ANNOTIDS

B) Cohérence dans les fichiers d'index

1) Remplacer dans les fichiers d'index un lemme par un autre

Nom de code du script : SCRIPT_FINDOCCS_FORLEMME_AND_REPLACE_WITHLEMME

C. Cohérence entre les entrées dictionnaire et/ou les annotations du corpus

1) Nettoyer le dictionnaire, enlever les entrées inutilisées

Nom de code du script : SCRIPT_DICTIONARY_REMOVE_UNUSEDENTRY

2) Voir les homonymes d'un dictionnaire

Nom de code du script : SCRIPT_DICTIONARY_FIND_HOMONYMES

3) Enlever les homonymes d'un dictionnaire

Nom de code du script : SCRIPT_DICTIONARY_REMOVE_HOMONYMES

4) Réinitialiser les identifiants des lemmes d'un dictionnaire

Nom de code du script : SCRIPT_DICTIONARY_RECOMPUTE_LEMMEIDS

5) Vérifier la cohérence des entrées dictionnaire avec les occurrences indexées

Nom de code du script : SCRIPT_DICTIONARY_INDEX_COHERENCE

D. Cohérence entre les équivalences et/ou les annotations du corpus

1) Montrer les équivalences avec un seul item

Nom de code du script : SCRIPT_EQUIVALENCE_ALONE

On parse tout le fichier "equivalences.xml" et on compte le nombre d'éléments <word> non vides, comme par exemple ici :


<?xml version="1.0" encoding="UTF-8"?>
<equivalences>
  <equivalence id="I_0" loc="Ch6-Seg10">
    <word id="Annot_547" refText="i1">
      <text>Fortuna</text>
      <comment />
    </word>
    <comment />
  </equivalence>

2) Montrer les équivalences item source

Nom de code du script : SCRIPT_EQUIVALENCE_WITHOUT_SOURCE

3) Montrer les équivalences avec commentaire

Nom de code du script : SCRIPT_EQUIVALENCE_COMMENT

4) Enlever les doublons dans les équivalences

Nom de code du script : SCRIPT_EQUIVALENCE_REMOVE_DUPLICATE

5) Montrer les annotations d'équivalences, inexistantes dans le corpus

Nom de code du script : SCRIPT_EQUIVALENCE_EXISTENCE_IN_CORPUS

6) Nettoyer les équivalences, enlever les entrées vides

Nom de code du script : SCRIPT_EQUIVALENCE_REMOVE_EMPTY

7) Réinitialiser les identifiants des équivalences

Nom de code du script : SCRIPT_EQUIVALENCE_RECOMPUTE_IDS

8) Vérifier la cohérence du corpus et des équivalences

Nom de code du script : SCRIPT_CORPUS_COHERENCE ????

HM_Script_RemoveAnnotationsAlone.png (25.7 kB) Severine Gedzelman, 01/26/2017 01:47 pm

HM_Script_DictionaryIndexCoherence.png (24.3 kB) Severine Gedzelman, 01/26/2017 01:50 pm

HM_Script_FindHomonymAnnotationInSameSegment.png (25.7 kB) Severine Gedzelman, 01/26/2017 01:53 pm

HM_Script_FindOccsForLemmeReplaceWithOtherLemme.png (36.8 kB) Severine Gedzelman, 01/26/2017 01:56 pm

HM_Script_DictionaryFindHomonyms.png (24.2 kB) Severine Gedzelman, 01/26/2017 01:57 pm

HM_Script_RemoveDictionaryHomonyms.png (34.7 kB) Severine Gedzelman, 01/26/2017 01:58 pm

HM_Script_RecomputeCorpusAnnotIds.png (25.7 kB) Severine Gedzelman, 01/26/2017 02:00 pm

HM_Script_RemoveUnusedDictionaryEntries.png (32.9 kB) Severine Gedzelman, 01/26/2017 02:01 pm

HM_Script_RecomputeDictionaryEntriesId.png (24.2 kB) Severine Gedzelman, 01/26/2017 02:03 pm

HM_Script_ShowEquivalenceWithOneItem.png (24.7 kB) Severine Gedzelman, 01/26/2017 02:04 pm

HM_Script_ShowEquivalenceWithoutSourceItem.png (24.7 kB) Severine Gedzelman, 01/26/2017 02:07 pm

HM_Script_ShowEquivalenceWithComment.png (24.7 kB) Severine Gedzelman, 01/26/2017 02:07 pm

HM_Script_RemoveDuplicateInEquivalences.png (25.7 kB) Severine Gedzelman, 01/26/2017 02:08 pm

HM_Script_ShowEquivalencesItemsNonExistentInCorpus.png (25.7 kB) Severine Gedzelman, 01/26/2017 02:09 pm

HM_Script_RemoveEquivalencesWithNoItems.png (25.7 kB) Severine Gedzelman, 01/26/2017 02:10 pm

HM_Script_RecomputeEquivalenceIds.png (25.7 kB) Severine Gedzelman, 01/26/2017 02:12 pm

HM_Script_CheckCoherenceBetweenCorpusAndEquivalence.png (25.7 kB) Severine Gedzelman, 01/26/2017 02:18 pm

HM_Scripts_MenuBar.png (36.5 kB) Severine Gedzelman, 01/26/2017 04:47 pm

HM_Scripts_FromEquivalenceView.png (37.6 kB) Severine Gedzelman, 01/26/2017 04:47 pm

HM_Scripts_FromCorpusView.png (27.3 kB) Severine Gedzelman, 01/26/2017 04:50 pm