Bug #2869
TIGERSearch, managing directories containing accents
Statut: | New | Début: | 02/07/2020 | |
---|---|---|---|---|
Priorité: | Normal | Echéance: | ||
Assigné à: | - | % réalisé: | 0% |
|
Catégorie: | SearchEngine | Temps passé: | - | |
Version cible: | TXM 0.8.4 |
Description
TIGERSearch fails to open corpus configuration (corpus_config.xml file ) which path contains accents (e.g. "Télécharger").
Solution 0¶
Display an error message if the path contains accents and abort the command.
Sample code to detect accents:
import com.ibm.icu.text.Transliterator // remove accents from characters ICU Transform, see http://userguide.icu-project.org/transforms/general removeAccentsTransform = "NFD; [:M:] Remove; NFC" path_no_accents = Transliterator.getInstance(removeAccentsTransform).transform(path) if (!(path == path_no_accents)) then accents
Solution 1¶
Change the way XML files are opened&read in TIGERSearch core libraries and update the libraries of the TIGERSearch TXM extension
Historique
#1 Mis à jour par Matthieu Decorde il y a environ 5 ans
- Catégorie mis à SearchEngine
#2 Mis à jour par Serge Heiden il y a plus de 4 ans
- Description mis à jour (diff)
#3 Mis à jour par Matthieu Decorde il y a plus de 4 ans
- Version cible changé de TXM 0.8.2 à TXM 0.8.4