Bug #2373
RCP: 0.7.9, XTZ + CSV import module: error in page indexing if source file name contains the "_" character
Statut: | Closed | Début: | 30/04/2018 | |
---|---|---|---|---|
Priorité: | Normal | Echéance: | ||
Assigné à: | - | % réalisé: | 100% |
|
Catégorie: | Import | Temps passé: | - | |
Version cible: | TXM 0.8.2 |
Description
If the corpus source directory contains files differentiated by underscore-separated suffixes, the index of pages in the import contains duplicates.
Example¶
Sources files :- mytext.xml
- mytext_a.xml
import.xml in the binary corpus:
<text name="mytext"> <source file="/home/user/TXM/corpora/MYCORPUS/txm/MYCORPUS/mytext.xml" type=".xml"/> <editions> <edition index="/home/user/TXM/corpora/MYCORPUS/HTML/MYCORPUS/default" mode="xsl" name="default" script="1-default-html.xsl" type="html"> <page id="1" wordid="w_0"/> <page id="a_1" wordid="w_0"/> <page id="a_2" wordid="mytext_a_1"/> <page id="2" wordid="mytext_1"/> <page id="3" wordid="mytext_137"/> <page id="a_3" wordid="mytext_a_18"/> </editions> </text>
Solution¶
- Correct the regexp pattern when searching for pages to index
- Use a more solid mechanism for page indexing
Temporary workaround¶
- Document the restriction on file names
- Patch binary corpus with an XSLT
Historique
#1 Mis à jour par Alexey Lavrentev il y a plus de 7 ans
- Version cible changé de 55 à TXM 0.8.0a (split/restructuration)
#2 Mis à jour par Sebastien Jacquot il y a plus de 7 ans
- Version cible changé de TXM 0.8.0a (split/restructuration) à TXM 0.8.0
#3 Mis à jour par Matthieu Decorde il y a plus de 6 ans
- Version cible changé de TXM 0.8.0 à TXM 0.8.2
#4 Mis à jour par Matthieu Decorde il y a environ 5 ans
- Catégorie mis à Import
#5 Mis à jour par Matthieu Decorde il y a plus de 4 ans
- % réalisé changé de 0 à 80
fixed with the new TXMResult objects (CorpusBuild, Text, Edition)
#6 Mis à jour par Sebastien Jacquot il y a plus d'un an
- % réalisé changé de 80 à 100
#7 Mis à jour par Sebastien Jacquot il y a plus d'un an
- Statut changé de New à Closed