Bug #2160
RCP: X.X, words not highlighted in editions
Statut: | Closed | Début: | 19/04/2017 | |
---|---|---|---|---|
Priorité: | High | Echéance: | ||
Assigné à: | - | % réalisé: | 100% |
|
Catégorie: | Import | Temps passé: | - | |
Version cible: | TXM 0.8.2 |
Description
For some texts, words are not highlighted in editions.
The IDS of those words not highlighted contain characters that broke the CSS ID syntax rules (e.g " ", "(" and more)
Discussion¶
Word IDs are built with <text identifier + number> or come from the sources.
If we forge the word ids in import modules, we must normalize/reduce text names to a text identifier, at the level of the corpus.
Three strategies:- a) normalize/reduce characters or morphemes
- b) escape characters
- c) manage <text name>:<automatic text identifier> hash
b) suppose to escape with respect to the syntax reading the identifier: for example CSS syntax. So different escape algorithms may need to be used depending on context. See the XXX Java library to escape for a lot of different syntaxes.
c) suppose to use the hash in various contexts: eg concordance references, etc.
Solution¶
Define the most simple common compatible syntax compatible with CSS ID syntax and CQL syntax.
Do a) fix the XMLw to XML-TXM step of import modules, in the XML2Ana class:- normalize/reduce the word ID to the CSS id syntax (= the syntax of xml:id)
Solution 2 (not done, see #2364)¶
- add a new import option "force word id generation" for corpora having already word IDs.
- add a new load option "force word id generation" for corpora having already word IDs.
Demandes liées
Historique
#1 Mis à jour par Matthieu Decorde il y a environ 8 ans
- Description mis à jour (diff)
#2 Mis à jour par Matthieu Decorde il y a presque 8 ans
- Description mis à jour (diff)
- % réalisé changé de 80 à 60
#3 Mis à jour par Serge Heiden il y a plus de 7 ans
- Description mis à jour (diff)
- Priorité changé de Normal à High
- Version cible changé de TXM 0.7.8 à TXM 0.8.0a (split/restructuration)
#4 Mis à jour par Sebastien Jacquot il y a plus de 7 ans
- Version cible changé de TXM 0.8.0a (split/restructuration) à TXM 0.8.0
#5 Mis à jour par Matthieu Decorde il y a plus de 6 ans
- Version cible changé de TXM 0.8.0 à TXM 0.8.2
#6 Mis à jour par Matthieu Decorde il y a plus de 4 ans
- Description mis à jour (diff)
- % réalisé changé de 60 à 80
#7 Mis à jour par Matthieu Decorde il y a plus de 4 ans
- Description mis à jour (diff)
#8 Mis à jour par Matthieu Decorde il y a plus de 4 ans
- Description mis à jour (diff)
#9 Mis à jour par Sebastien Jacquot il y a plus d'un an
- % réalisé changé de 80 à 100
#10 Mis à jour par Sebastien Jacquot il y a plus d'un an
- Statut changé de New à Closed