Bug #2373
RCP: 0.7.9, XTZ + CSV import module: error in page indexing if source file name contains the "_" character
| Statut: | Closed | Début: | 30/04/2018 | |
|---|---|---|---|---|
| Priorité: | Normal | Echéance: | ||
| Assigné à: | - | % réalisé: | 100% |
|
| Catégorie: | Import | Temps passé: | - | |
| Version cible: | TXM 0.8.2 |
Description
If the corpus source directory contains files differentiated by underscore-separated suffixes, the index of pages in the import contains duplicates.
Example¶
Sources files :- mytext.xml
- mytext_a.xml
import.xml in the binary corpus:
<text name="mytext">
<source file="/home/user/TXM/corpora/MYCORPUS/txm/MYCORPUS/mytext.xml"
type=".xml"/>
<editions>
<edition index="/home/user/TXM/corpora/MYCORPUS/HTML/MYCORPUS/default"
mode="xsl"
name="default"
script="1-default-html.xsl"
type="html">
<page id="1" wordid="w_0"/>
<page id="a_1" wordid="w_0"/>
<page id="a_2" wordid="mytext_a_1"/>
<page id="2" wordid="mytext_1"/>
<page id="3" wordid="mytext_137"/>
<page id="a_3" wordid="mytext_a_18"/>
</editions>
</text>
Solution¶
- Correct the regexp pattern when searching for pages to index
- Use a more solid mechanism for page indexing
Temporary workaround¶
- Document the restriction on file names
- Patch binary corpus with an XSLT
Historique
#1 Mis à jour par Alexey Lavrentev il y a plus de 7 ans
- Version cible changé de 55 à TXM 0.8.0a (split/restructuration)
#2 Mis à jour par Sebastien Jacquot il y a plus de 7 ans
- Version cible changé de TXM 0.8.0a (split/restructuration) à TXM 0.8.0
#3 Mis à jour par Matthieu Decorde il y a plus de 6 ans
- Version cible changé de TXM 0.8.0 à TXM 0.8.2
#4 Mis à jour par Matthieu Decorde il y a environ 5 ans
- Catégorie mis à Import
#5 Mis à jour par Matthieu Decorde il y a plus de 4 ans
- % réalisé changé de 0 à 80
fixed with the new TXMResult objects (CorpusBuild, Text, Edition)
#6 Mis à jour par Sebastien Jacquot il y a presque 2 ans
- % réalisé changé de 80 à 100
#7 Mis à jour par Sebastien Jacquot il y a presque 2 ans
- Statut changé de New à Closed