Bug #2866
XML/w import, progression dots and number of texts to process
Status: | New | Start date: | 06/25/2020 | ||
---|---|---|---|---|---|
Priority: | High | Due date: | |||
Assignee: | - | % Done: | 80% |
||
Category: | Import | Spent time: | - | ||
Target version: | TXM 0.8.1 |
Description
FR
2 retours supplémentaires pour TXM 0.8.1 et le corpus d'Annabel.
1) la "ligne" de progression par points (.) ou pourcents dans la console ne fonctionne pas pour ce corpus de 11272 textes :
la ligne affiche 11272 points (je n'ai pas vérifié le nombre) au lieu de basculer en pourcentages
2) J'ai eu besoin de limiter le nombre de textes importés entre deux appels du module d'import (premier import trop long).
le comportement entre deux phases du module n'est pas homogène :
a) une étape a bien vu qu'il y avait 85 textes
Sources cleaning & validation
.....................................................................................
Files to process: [/home/sheiden/TXM-0.8.1/corpora/JUPPE-LEDRIAN/txm/JUPPE-LEDRIAN/Darcos_00114.xml, /home/sheiden/TXM-0.8.1/corpora/JUPPE-LEDRIAN/txm/JUPPE-LEDRIAN/Darcos_00115.xml, /home/sheiden/TXM-0.8.1/corpora/JUPPE-LEDRIAN/txm/JUPPE-LEDRIAN/Darcos_00116.xml, /home/sheiden/TXM-0.8.1/corpora/JUPPE-LEDRIAN/txm/JUPPE-LEDRIAN/Darcos_00117.xml...]
b) mais l'étape d'après considère toujours le nombre précédent de 11272 textes (comme lors de l'appel précédent de l'import) :
Tokenizing (words=true sentences=false) 11272 files
............................................................................................................................................. [...]
Au final on ne sait pas ce qui est fait...
Amélioration : j'imagine qu'il faut systématiquement regarder le nombre de fichiers dans le répertoire source (pas le mémoriser)
hypothesis¶
1) the ConsoleProgressBar is not used (or broken)
2) this may be a bug with temporary files not removed when corpus is imported or re-imported
Solution¶
1) ConsoleProgressBar introduce in txt, xmlw and xml-txm import modules
2) fixed XML/w importer step -> fix intermediate directory cleanning
History
#1 Updated by Matthieu Decorde almost 3 years ago
- Description updated (diff)
- Target version changed from TXM 0.8.2 to TXM 0.8.1
- % Done changed from 0 to 80