Task #961

Updated by Matthieu Decorde about 5 years ago

See https://groupes.renater.fr/wiki/txm-users/public/projets_matrice_avec_txm#mise_en_oeuvre
MD:
*importing big corpus*
* This import prototype works with Limsi transcription files
** There is a kind of tokenization that I use
** This first prototype takes the minimum data from Limsi files : words + text structures
* The steps are few to limits the number of files
* We don't produce XML files and use directly the CPQ corpus sources format (tabulated). Useful because TreeTagger use it too.
* We don't produce Editions
* The corpus is tagged with TreeTagger
** The next optimization is to run 1 instance of TreeTagger instead of 1 per text.
** longest step of the import
* to avoid redo steps, file timestamps are compared before doing an operation

*counting terms per document*
I optimised the prototype of QueryIndex to work with "text" structures and add a new export method.
The main optimisation is to count CQL per CQL the number of matches per Text. It is done quickly because matches and "text" structures are corpus ordered.

FR
*Experience IIA* IIB*
L'exp nécessite de pouvoir :
* construire un sous-corpus des mots pleins sur le corpus. Hors si le corpus est volumineux la fenêtre de création de sous-corpus met bcp de temps à s'afficher (car les valeurs des propriétés sont récupérer en même temps que la boite de dialogue est créée)
** Faut-il retailler la boite de dialogue plutôt comme un Wizard et ne charger les valeurs disponibles que si l'utilisateur choisi le mode Simple ou Assisté
** Ne pas récupérer la liste des valeurs si le corpus est volumineux (+ que N tokens)
** Ne pas récupérer la liste des valeurs automatiquement et ajouter un bouton pour charger les valeurs disponibles
** autre chose
* Construire un fichier de requête CQL à partir d'un index. Une sorte d'export d'index

Back