Task #961
TBX: X.X, PG project
Status: | New | Start date: | 08/01/2014 | |
---|---|---|---|---|
Priority: | Normal | Due date: | ||
Assignee: | - | % Done: | 0% |
|
Category: | - | Spent time: | - | |
Target version: | TXM X.X |
Description
See https://groupes.renater.fr/wiki/txm-users/public/projets_matrice_avec_txm#mise_en_oeuvre
MD:
importing big corpus
Experience IIA
L'exp nécessite de pouvoir :
MD:
importing big corpus
- This import prototype works with Limsi transcription files
- There is a kind of tokenization that I use
- This first prototype takes the minimum data from Limsi files : words + text structures
- The steps are few to limits the number of files
- We don't produce XML files and use directly the CPQ corpus sources format (tabulated). Useful because TreeTagger use it too.
- We don't produce Editions
- The corpus is tagged with TreeTagger
- The next optimization is to run 1 instance of TreeTagger instead of 1 per text.
- longest step of the import
- to avoid redo steps, file timestamps are compared before doing an operation
counting terms per document
I optimised the prototype of QueryIndex to work with "text" structures and add a new export method.
The main optimisation is to count CQL per CQL the number of matches per Text. It is done quickly because matches and "text" structures are corpus ordered.
Experience IIA
L'exp nécessite de pouvoir :
- construire un sous-corpus des mots pleins sur le corpus. Hors si le corpus est volumineux la fenêtre de création de sous-corpus met bcp de temps à s'afficher (car les valeurs des propriétés sont récupérer en même temps que la boite de dialogue est créée).
- Améliorer le temps de récupération: le temps de récupération est de l'ordre de 30ms contre l'odre de plusieurs minutes pour l'affichage
- Après tests, le Widget SWT Combo, ne gère pas bien l'affichage de nombreuses valeurs. L'utilisation du composant List JFace a une option SWT.VIRTUAL qui permet de ne pas afficher directement toutes les valeurs.
- Faut-il retailler la boite de dialogue plutôt comme un Wizard et ne charger les valeurs disponibles que si l'utilisateur choisi le mode Simple ou Assisté
- Ne pas récupérer la liste des valeurs si le corpus est volumineux (+ que N tokens)
- Ne pas récupérer la liste des valeurs automatiquement et ajouter un bouton pour charger les valeurs disponibles
- autre chose
- Question subsidiaire : quel est l'intérêt d'afficher plus de 1000 valeurs différentes à sélectionner à la main ?
- une selection par reg.exp. pourrait aider
- Construire un fichier de requête CQL à partir d'un index. Une sorte d'export d'index. Mais la requete
[frpos="NOM|NAM|ADJ|VER.*" & frlemma!="être|avoir|faire|pouvoir|devoir|vouloir|falloir|aller|dire|savoir"]
produire une erreur OutOfMemoryError
History
#1 Updated by Matthieu Decorde about 9 years ago
- Description updated (diff)
#2 Updated by Matthieu Decorde about 9 years ago
- Description updated (diff)
#3 Updated by Matthieu Decorde about 9 years ago
- Description updated (diff)
#4 Updated by Matthieu Decorde about 9 years ago
- Description updated (diff)
#5 Updated by Matthieu Decorde about 9 years ago
- Description updated (diff)
#6 Updated by Matthieu Decorde about 9 years ago
- Description updated (diff)
#7 Updated by Matthieu Decorde about 9 years ago
- Description updated (diff)
#8 Updated by Sebastien Jacquot about 9 years ago
- Target version changed from TXM 0.7.7 to TXM 0.7.8
#9 Updated by Matthieu Decorde about 8 years ago
- Target version changed from TXM 0.7.8 to TXM 0.8.0a (split/restructuration)
#10 Updated by Sebastien Jacquot over 5 years ago
- Target version changed from TXM 0.8.0a (split/restructuration) to TXM 0.8.0
#11 Updated by Matthieu Decorde almost 5 years ago
- Target version changed from TXM 0.8.0 to TXM X.X