Bug #1505

TBX: X.X, TXT+CSV import created structures

Ajouté par Matthieu Decorde il y a environ 10 ans. Mis à jour il y a plus d'un an.

Statut:Closed Début:17/09/2015
Priorité:Normal Echéance:
Assigné à:- % réalisé:

100%

Catégorie:Import Temps passé: -
Version cible:TXM 0.7.8

Description

Currently the TXT+CSV import module (and clipboard import module) creates a "lb" empty structure (milestone) for each line and creates a "p" structure every 2 empty lines found.

This raw text structural interpretation scheme matches the various raw text types produced by frequently used tools: clipboard text produced by Select and Copy commands in web browsers, in mail readers or 'Save as text' commands in word processors.

But this scheme has no standard or norm and doesn't always work, for example with some word processors output.

Solution 1

Don't create the "p" structures.

Add to each word a "lbn" property which is its line number in the TXT source file.

see ticket #1585

Validation test

the clipboard import of

this is a small test.

With some line breaks

sometimes

must give the following description:

Description du corpus PRESSEPAPIER1

- pressepapier1
- mdecorde
- 2016-06-29
Statistiques Générales

Nombre de mots 11
Nombre de propriétés de mot 4
Nombre d'unités de structure 3

Propriétés des unités lexicales (max 20 valeurs)

- frlemma : this, is, avoir, small, test, ., With, some, line, break, sometimes, ...
- frpos : NOM, ADJ, VER:pres, SENT, NAM, ...
- lbn : 1, 3, 5, ...
- word : this, is, a, small, test, ., With, some, line, breaks, sometimes, ...

Propriétés des structures (max 20 valeurs)

- s
n (2) = 1, 2.
- text
id (1) = pressepapier1.

Historique

#1 Mis à jour par Matthieu Decorde il y a presque 10 ans

  • % réalisé changé de 80 à 20

#2 Mis à jour par Matthieu Decorde il y a presque 10 ans

  • Description mis à jour (diff)
  • % réalisé changé de 20 à 80

#3 Mis à jour par Matthieu Decorde il y a plus de 9 ans

  • Description mis à jour (diff)

#4 Mis à jour par Matthieu Decorde il y a plus de 9 ans

  • Description mis à jour (diff)

#5 Mis à jour par Serge Heiden il y a plus de 9 ans

  • Description mis à jour (diff)

#6 Mis à jour par Sebastien Jacquot il y a plus d'un an

  • Statut changé de New à Closed

#7 Mis à jour par Sebastien Jacquot il y a plus d'un an

  • % réalisé changé de 80 à 100

Formats disponibles : Atom PDF