Feature #164

TBX:x.x, import, CSS, xml elements indexation and styling

Ajouté par Alexey Lavrentev il y a plus de 4 ans. Mis à jour il y a plus de 3 ans.

Statut:New Début:16/06/2013
Priorité:Normal Echéance:
Assigné à:- % réalisé:

0%

Catégorie:Import Temps passé: -
Version cible:TXM 0.8

Description

See also: The import interface should allow to declare XML elements (namespace aware) into 4 classes:
  1. structure&edition (default)
    • intermediate structures in the cwb corpus
    • <span class="[element-name]">...</span> in the edition
  2. out-of-text&in-edition
    • content deleted from the cwb corpus
    • <span class="[element-name]">...</span> in the edition
  3. ignore
    • tags deleted, content preserved in cwb corpus and in the editions
  4. delete
    • tags and their content deleted from cwb corpus and editions
Special elements:
  1. pagination element (*:pb by default)
    • used to paginate editions and in references
  2. reference elements
    • list of elements used to build references
    • possibility to specify the attribute to use (@n by default)
    • possibility to specify the prefix to display in references (e.g. ', v. ' for verse numbers)

Sous-tâches

Task #165: RCP: x.x, Import modules: add HTML doctype declaration to...New

Historique

#1 Mis à jour par Alexey Lavrentev il y a plus de 4 ans

  • Sujet changé de Modules d'import XML: indexation des éléments et stylage à XML import modules: xml elements indexation and styling

#2 Mis à jour par Alexey Lavrentev il y a presque 4 ans

  • Sujet changé de XML import modules: xml elements indexation and styling à TBX:x.x, import,, xml elements indexation and styling

#3 Mis à jour par Matthieu Decorde il y a presque 4 ans

  • Sujet changé de TBX:x.x, import,, xml elements indexation and styling à TBX:x.x, import, CSS, xml elements indexation and styling
  • Description mis à jour (diff)

#4 Mis à jour par Alexey Lavrentev il y a presque 4 ans

Commentaires de Sébastien Jacquot (mail sur txm-info 2013-11-15 13:16)

Je me demande s'il n'y aurait pas un intérêt à conserver/auto-détecter les éléments qui peuvent être de type "block" (ex. TEI : div1, head, etc.) et à les convertir en div avec @class="[element-name]" plutôt qu'en span ? Je vous mets en bas de page la manière dont j'affiche le corpus Opera via CSS. Dans mon cas les "block" sont importants car je m'en sers en même temps pour vérifier l'étiquetage généré par mon parser mais c'est peut-être également utile pour un utilisateur lambda de TXM.
D'un autre côté, cela peut ensuite être redéfini dans la CSS par l'utilisateur (ex : display: block) mais si ça peut être fait automatiquement ça pourrait sans doute être utile ?

Est-ce qu'il est prévu d'essayer de gérer/convertir automatiquement le maximum de balises connues : TEI, HTML, etc. ? (Comme c'est le cas par exemple pour "lg" qui devient "p" actuellement). Ou bien il s'agira plutôt de donner complètement la main à l'utilisateur ? (Ex. l'utilisateur devra choisir : b, i, strong, etc. s'il veut les conserver ?)
Une idée pourrait être d'essayer de détecter le maximum de balises avec une sémantique connue et de les présélectionner dans l'interface utilisateur, notamment pour les balises HTML de mise en forme (b, i, u, etc.) ?

J'avais par ailleurs posté une demande de feature permettant de mettre en évidence un sous-corpus dans le corpus racine dans les éditions et je me dis que cela risque d'être difficile à mettre en oeuvre pour le cas où les données dans CWB sont différentes de celles des fichiers HTML (point numéro 2 : out-of-text&in-edition).

#5 Mis à jour par Alexey Lavrentev il y a presque 4 ans

En rédigeant cette spécif, je voulais m'abstraire au maximum de toute sémantique de balises (HTML, TEI ou autre). Ce n'est pas tout à fait réussi, car je propose un traitement par défaut pour pb et pour @n...

Je crois qu'il faut d'abord nous mettre d'accord sur l'architecture des modules d'import de données XML et leurs interdépendances avant de décider où on introduit la distinction entre les éléments de niveau "block" et de niveau "span".

#6 Mis à jour par Serge Heiden il y a presque 4 ans

  • Description mis à jour (diff)

#7 Mis à jour par Serge Heiden il y a presque 4 ans

  • Description mis à jour (diff)

#8 Mis à jour par Alexey Lavrentev il y a plus de 3 ans

  • Description mis à jour (diff)

Formats disponibles : Atom PDF