Bug #2373

RCP: 0.7.9, XTZ + CSV import module: error in page indexing if source file name contains the "_" character

Ajouté par Alexey Lavrentev il y a plus de 7 ans. Mis à jour il y a plus d'un an.

Statut:Closed Début:30/04/2018
Priorité:Normal Echéance:
Assigné à:- % réalisé:

100%

Catégorie:Import Temps passé: -
Version cible:TXM 0.8.2

Description

If the corpus source directory contains files differentiated by underscore-separated suffixes, the index of pages in the import contains duplicates.

Example

Sources files :
  • mytext.xml
  • mytext_a.xml

import.xml in the binary corpus:

            <text name="mytext">
               <source file="/home/user/TXM/corpora/MYCORPUS/txm/MYCORPUS/mytext.xml" 
                       type=".xml"/>
               <editions>
                  <edition index="/home/user/TXM/corpora/MYCORPUS/HTML/MYCORPUS/default" 
                           mode="xsl" 
                           name="default" 
                           script="1-default-html.xsl" 
                           type="html">
                     <page id="1" wordid="w_0"/>
                     <page id="a_1" wordid="w_0"/>
                     <page id="a_2" wordid="mytext_a_1"/>
                     <page id="2" wordid="mytext_1"/>
                     <page id="3" wordid="mytext_137"/>
                     <page id="a_3" wordid="mytext_a_18"/>
          </editions>
</text>

Solution

  • Correct the regexp pattern when searching for pages to index
  • Use a more solid mechanism for page indexing

Temporary workaround

  • Document the restriction on file names
  • Patch binary corpus with an XSLT

Historique

#1 Mis à jour par Alexey Lavrentev il y a plus de 7 ans

  • Version cible changé de 55 à TXM 0.8.0a (split/restructuration)

#2 Mis à jour par Sebastien Jacquot il y a plus de 7 ans

  • Version cible changé de TXM 0.8.0a (split/restructuration) à TXM 0.8.0

#3 Mis à jour par Matthieu Decorde il y a plus de 6 ans

  • Version cible changé de TXM 0.8.0 à TXM 0.8.2

#4 Mis à jour par Matthieu Decorde il y a environ 5 ans

  • Catégorie mis à Import

#5 Mis à jour par Matthieu Decorde il y a plus de 4 ans

  • % réalisé changé de 0 à 80

fixed with the new TXMResult objects (CorpusBuild, Text, Edition)

#6 Mis à jour par Sebastien Jacquot il y a plus d'un an

  • % réalisé changé de 80 à 100

#7 Mis à jour par Sebastien Jacquot il y a plus d'un an

  • Statut changé de New à Closed

Formats disponibles : Atom PDF