Bug #2866

Mis à jour par Matthieu Decorde il y a plus de 5 ans

FR

2 retours supplémentaires pour TXM 0.8.1 et le corpus d'Annabel.

1) la "ligne" de progression par points (.) ou pourcents dans la console ne fonctionne pas pour ce corpus de 11272 textes :
la ligne affiche 11272 points (je n'ai pas vérifié le nombre) au lieu de basculer en pourcentages

2) J'ai eu besoin de limiter le nombre de textes importés entre deux appels du module d'import (premier import trop long).
le comportement entre deux phases du module n'est pas homogène :

a) une étape a bien vu qu'il y avait 85 textes

Sources cleaning & validation
.....................................................................................
Files to process: [/home/sheiden/TXM-0.8.1/corpora/JUPPE-LEDRIAN/txm/JUPPE-LEDRIAN/Darcos_00114.xml, /home/sheiden/TXM-0.8.1/corpora/JUPPE-LEDRIAN/txm/JUPPE-LEDRIAN/Darcos_00115.xml, /home/sheiden/TXM-0.8.1/corpora/JUPPE-LEDRIAN/txm/JUPPE-LEDRIAN/Darcos_00116.xml, /home/sheiden/TXM-0.8.1/corpora/JUPPE-LEDRIAN/txm/JUPPE-LEDRIAN/Darcos_00117.xml...]

b) mais l'étape d'après considère toujours le nombre précédent de 11272 textes (comme lors de l'appel précédent de l'import) :
Tokenizing (words=true sentences=false) 11272 files
............................................................................................................................................. [...]

Au final on ne sait pas ce qui est fait...

Amélioration : j'imagine qu'il faut systématiquement regarder le nombre de fichiers dans le répertoire source (pas le mémoriser)

h3. hypothesis

1) the ConsoleProgressBar is not used (or broken)
2) this may be a bug with temporary files not removed when corpus is imported improted or re-imported

h3. Solution

1) ConsoleProgressBar introduce in txt, xmlw and xml-txm import modules
2) fixed XML/w importer step -> fix intermediate directory cleanning

Retour