Task #961

TBX: X.X, PG project

Ajouté par Matthieu Decorde il y a plus de 3 ans. Mis à jour il y a environ 2 ans.

Statut:New Début:01/08/2014
Priorité:Normal Echéance:
Assigné à:- % réalisé:

0%

Catégorie:- Temps passé: -
Version cible:TXM 0.7.9

Description

See https://groupes.renater.fr/wiki/txm-users/public/projets_matrice_avec_txm#mise_en_oeuvre
MD:
importing big corpus
  • This import prototype works with Limsi transcription files
    • There is a kind of tokenization that I use
    • This first prototype takes the minimum data from Limsi files : words + text structures
  • The steps are few to limits the number of files
  • We don't produce XML files and use directly the CPQ corpus sources format (tabulated). Useful because TreeTagger use it too.
  • We don't produce Editions
  • The corpus is tagged with TreeTagger
    • The next optimization is to run 1 instance of TreeTagger instead of 1 per text.
    • longest step of the import
  • to avoid redo steps, file timestamps are compared before doing an operation

counting terms per document
I optimised the prototype of QueryIndex to work with "text" structures and add a new export method.
The main optimisation is to count CQL per CQL the number of matches per Text. It is done quickly because matches and "text" structures are corpus ordered.

FR
Experience IIA
L'exp nécessite de pouvoir :
  • construire un sous-corpus des mots pleins sur le corpus. Hors si le corpus est volumineux la fenêtre de création de sous-corpus met bcp de temps à s'afficher (car les valeurs des propriétés sont récupérer en même temps que la boite de dialogue est créée).
    • Améliorer le temps de récupération: le temps de récupération est de l'ordre de 30ms contre l'odre de plusieurs minutes pour l'affichage
    • Après tests, le Widget SWT Combo, ne gère pas bien l'affichage de nombreuses valeurs. L'utilisation du composant List JFace a une option SWT.VIRTUAL qui permet de ne pas afficher directement toutes les valeurs.
    • Faut-il retailler la boite de dialogue plutôt comme un Wizard et ne charger les valeurs disponibles que si l'utilisateur choisi le mode Simple ou Assisté
    • Ne pas récupérer la liste des valeurs si le corpus est volumineux (+ que N tokens)
    • Ne pas récupérer la liste des valeurs automatiquement et ajouter un bouton pour charger les valeurs disponibles
    • autre chose
  • Question subsidiaire : quel est l'intérêt d'afficher plus de 1000 valeurs différentes à sélectionner à la main ?
    • une selection par reg.exp. pourrait aider
  • Construire un fichier de requête CQL à partir d'un index. Une sorte d'export d'index. Mais la requete [frpos="NOM|NAM|ADJ|VER.*" & frlemma!="être|avoir|faire|pouvoir|devoir|vouloir|falloir|aller|dire|savoir"] produire une erreur OutOfMemoryError

Historique

#1 Mis à jour par Matthieu Decorde il y a environ 3 ans

  • Description mis à jour (diff)

#2 Mis à jour par Matthieu Decorde il y a environ 3 ans

  • Description mis à jour (diff)

#3 Mis à jour par Matthieu Decorde il y a environ 3 ans

  • Description mis à jour (diff)

#4 Mis à jour par Matthieu Decorde il y a environ 3 ans

  • Description mis à jour (diff)

#5 Mis à jour par Matthieu Decorde il y a environ 3 ans

  • Description mis à jour (diff)

#6 Mis à jour par Matthieu Decorde il y a environ 3 ans

  • Description mis à jour (diff)

#7 Mis à jour par Matthieu Decorde il y a environ 3 ans

  • Description mis à jour (diff)

#8 Mis à jour par Sebastien Jacquot il y a environ 3 ans

  • Version cible changé de TXM 0.7.7 à TXM 0.7.8

#9 Mis à jour par Matthieu Decorde il y a environ 2 ans

  • Version cible changé de TXM 0.7.8 à TXM 0.7.9

Formats disponibles : Atom PDF