Feature #164

TBX:x.x, import, CSS, xml elements indexation and styling

Added by Alexey Lavrentev over 10 years ago. Updated about 5 years ago.

Status:New Start date:06/16/2013
Priority:High Due date:
Assignee:- % Done:

70%

Category:Import Spent time: -
Target version:TXM 0.8.0

Description

See also: The import interface should allow to declare XML elements (namespace aware) into 4 classes:
  1. structure&edition (default)
    • intermediate structures in the cwb corpus
    • <span class="[element-name]">...</span> in the edition
  2. out-of-text&in-edition
    • content deleted from the cwb corpus
    • <span class="[element-name]">...</span> in the edition
  3. ignore
    • tags deleted, content preserved in cwb corpus and in the editions
  4. delete
    • tags and their content deleted from cwb corpus and editions
Special elements:
  1. pagination element (*:pb by default)
    • used to paginate editions and in references
  2. reference elements
    • list of elements used to build references
    • possibility to specify the attribute to use (@n by default)
    • possibility to specify the prefix to display in references (e.g. ', v. ' for verse numbers)

Subtasks

Task #165: RCP: x.x, Import modules: add HTML doctype declaration to...New

History

#1 Updated by Alexey Lavrentev over 10 years ago

  • Subject changed from Modules d'import XML: indexation des éléments et stylage to XML import modules: xml elements indexation and styling

#2 Updated by Alexey Lavrentev almost 10 years ago

  • Subject changed from XML import modules: xml elements indexation and styling to TBX:x.x, import,, xml elements indexation and styling

#3 Updated by Matthieu Decorde almost 10 years ago

  • Subject changed from TBX:x.x, import,, xml elements indexation and styling to TBX:x.x, import, CSS, xml elements indexation and styling
  • Description updated (diff)

#4 Updated by Alexey Lavrentev almost 10 years ago

Commentaires de Sébastien Jacquot (mail sur txm-info 2013-11-15 13:16)

Je me demande s'il n'y aurait pas un intérêt à conserver/auto-détecter les éléments qui peuvent être de type "block" (ex. TEI : div1, head, etc.) et à les convertir en div avec @class="[element-name]" plutôt qu'en span ? Je vous mets en bas de page la manière dont j'affiche le corpus Opera via CSS. Dans mon cas les "block" sont importants car je m'en sers en même temps pour vérifier l'étiquetage généré par mon parser mais c'est peut-être également utile pour un utilisateur lambda de TXM.
D'un autre côté, cela peut ensuite être redéfini dans la CSS par l'utilisateur (ex : display: block) mais si ça peut être fait automatiquement ça pourrait sans doute être utile ?

Est-ce qu'il est prévu d'essayer de gérer/convertir automatiquement le maximum de balises connues : TEI, HTML, etc. ? (Comme c'est le cas par exemple pour "lg" qui devient "p" actuellement). Ou bien il s'agira plutôt de donner complètement la main à l'utilisateur ? (Ex. l'utilisateur devra choisir : b, i, strong, etc. s'il veut les conserver ?)
Une idée pourrait être d'essayer de détecter le maximum de balises avec une sémantique connue et de les présélectionner dans l'interface utilisateur, notamment pour les balises HTML de mise en forme (b, i, u, etc.) ?

J'avais par ailleurs posté une demande de feature permettant de mettre en évidence un sous-corpus dans le corpus racine dans les éditions et je me dis que cela risque d'être difficile à mettre en oeuvre pour le cas où les données dans CWB sont différentes de celles des fichiers HTML (point numéro 2 : out-of-text&in-edition).

#5 Updated by Alexey Lavrentev almost 10 years ago

En rédigeant cette spécif, je voulais m'abstraire au maximum de toute sémantique de balises (HTML, TEI ou autre). Ce n'est pas tout à fait réussi, car je propose un traitement par défaut pour pb et pour @n...

Je crois qu'il faut d'abord nous mettre d'accord sur l'architecture des modules d'import de données XML et leurs interdépendances avant de décider où on introduit la distinction entre les éléments de niveau "block" et de niveau "span".

#6 Updated by Serge Heiden almost 10 years ago

  • Description updated (diff)

#7 Updated by Serge Heiden almost 10 years ago

  • Description updated (diff)

#8 Updated by Alexey Lavrentev over 9 years ago

  • Description updated (diff)

#9 Updated by Matthieu Decorde almost 6 years ago

  • Target version changed from 5 to TXM 0.8.0a (split/restructuration)

#10 Updated by Sebastien Jacquot over 5 years ago

  • Target version changed from TXM 0.8.0a (split/restructuration) to TXM 0.8.0

Also available in: Atom PDF