Bug #2866

XML/w import, progression dots and number of texts to process

Added by Matthieu Decorde about 1 month ago. Updated about 1 month ago.

Status:New Start date:06/25/2020
Priority:High Due date:
Assignee:- % Done:

80%

Category:Import Spent time: -
Target version:TXM 0.8.1

Description

FR

2 retours supplémentaires pour TXM 0.8.1 et le corpus d'Annabel.

1) la "ligne" de progression par points (.) ou pourcents dans la console ne fonctionne pas pour ce corpus de 11272 textes :
la ligne affiche 11272 points (je n'ai pas vérifié le nombre) au lieu de basculer en pourcentages

2) J'ai eu besoin de limiter le nombre de textes importés entre deux appels du module d'import (premier import trop long).
le comportement entre deux phases du module n'est pas homogène :

a) une étape a bien vu qu'il y avait 85 textes

Sources cleaning & validation
.....................................................................................
Files to process: [/home/sheiden/TXM-0.8.1/corpora/JUPPE-LEDRIAN/txm/JUPPE-LEDRIAN/Darcos_00114.xml, /home/sheiden/TXM-0.8.1/corpora/JUPPE-LEDRIAN/txm/JUPPE-LEDRIAN/Darcos_00115.xml, /home/sheiden/TXM-0.8.1/corpora/JUPPE-LEDRIAN/txm/JUPPE-LEDRIAN/Darcos_00116.xml, /home/sheiden/TXM-0.8.1/corpora/JUPPE-LEDRIAN/txm/JUPPE-LEDRIAN/Darcos_00117.xml...]

b) mais l'étape d'après considère toujours le nombre précédent de 11272 textes (comme lors de l'appel précédent de l'import) :
Tokenizing (words=true sentences=false) 11272 files
............................................................................................................................................. [...]

Au final on ne sait pas ce qui est fait...

Amélioration : j'imagine qu'il faut systématiquement regarder le nombre de fichiers dans le répertoire source (pas le mémoriser)

hypothesis

1) the ConsoleProgressBar is not used (or broken)
2) this may be a bug with temporary files not removed when corpus is imported or re-imported

Solution

1) ConsoleProgressBar introduce in txt, xmlw and xml-txm import modules
2) fixed XML/w importer step -> fix intermediate directory cleanning

History

#1 Updated by Matthieu Decorde about 1 month ago

  • Description updated (diff)
  • Target version changed from TXM 0.8.2 to TXM 0.8.1
  • % Done changed from 0 to 80

Also available in: Atom PDF