Bug #2219: TBX: X.X, Transcription2TRS Macro failed with "does not contain the first time bullet" - Plateforme TXM - Forge du Centre Blaise Pascal

Bug #2219

TBX: X.X, Transcription2TRS Macro failed with "does not contain the first time bullet"

Ajouté par Matthieu Decorde il y a plus de 8 ans. Mis à jour il y a presque 2 ans.

Statut:

Closed

Début:

14/06/2017

Priorité:

Normal

Echéance:

Assigné à:

% réalisé:

100%

Catégorie:

Import

Temps passé:

Version cible:

TXM 0.7.8

Description

If the file starts with (00:02:00), the first bullet is not detected and the file is not processed.

Console message:

The /home/xxxxx/Corpus/src/transana/out/transcription1.txt file does not contain the first time bullet.

Solution¶

The TXT2TRS file is bugged because it does not use the bullet_regex to test the start and end time bullet.

SLH:

1) il y a bien une regex :
def bullet_regex = /\([0-9]+:[0-9][0-9]?:[0-9][0-9]?(\.[0-9])?\)|(¤<[0-9]+>)/
mais le code qui cherche le premier bullet ne l'utilise pas... Il utilise à la place :
if (line.matches("\\(.+:..:..\\..+\\)")) {
ce qui de fait force la présence de '\..+' et on obtient toujours :
The /home/sheiden/Corpus/src/transana/out/transcription1.txt file does not contain the first time bullet

-> il faut que le code qui cherche le premier bullet utilise la regex et pas autre chose.
Si tu ne veux pas mélanger les marques de synchro explicites avec parenthèses "(...)" avec
les bullets automatiques de Transana "¤<[0-9]+>", pour ne pas confondre pour le
premier time code, il faut séparer en deux regex.

2) le code qui parse les timecodes utilise bien la classe SimpleDateFormat, mais il force le format "h:mm:ss.S", c'est à dire les décimales de seconde :
formater = new SimpleDateFormat("h:mm:ss.S")
donc la regex accepte mais le parsing se plante :
Error while creating TRS file: java.text.ParseException: Unparseable date: "00:02:00" 

-> il faut décomposer le traitement en :
a) regex avec . + parsing avec .
b) regex sans . + parsing sans .