Bug #2219

TBX: X.X, Transcription2TRS Macro failed with "does not contain the first time bullet"

Added by Matthieu Decorde over 2 years ago. Updated over 2 years ago.

Status:New Start date:06/14/2017
Priority:Normal Due date:
Assignee:- % Done:

80%

Category:Import Spent time: -
Target version:TXM 0.7.8

Description

If the file starts with (00:02:00), the first bullet is not detected and the file is not processed.

Console message:

The /home/xxxxx/Corpus/src/transana/out/transcription1.txt file does not contain the first time bullet.

Solution

The TXT2TRS file is bugged because it does not use the bullet_regex to test the start and end time bullet.

SLH:

1) il y a bien une regex :
def bullet_regex = /\([0-9]+:[0-9][0-9]?:[0-9][0-9]?(\.[0-9])?\)|(¤<[0-9]+>)/
mais le code qui cherche le premier bullet ne l'utilise pas... Il utilise à la place :
if (line.matches("\\(.+:..:..\\..+\\)")) {
ce qui de fait force la présence de '\..+' et on obtient toujours :
The /home/sheiden/Corpus/src/transana/out/transcription1.txt file does not contain the first time bullet

-> il faut que le code qui cherche le premier bullet utilise la regex et pas autre chose.
Si tu ne veux pas mélanger les marques de synchro explicites avec parenthèses "(...)" avec
les bullets automatiques de Transana "¤<[0-9]+>", pour ne pas confondre pour le
premier time code, il faut séparer en deux regex.

2) le code qui parse les timecodes utilise bien la classe SimpleDateFormat, mais il force le format "h:mm:ss.S", c'est à dire les décimales de seconde :
formater = new SimpleDateFormat("h:mm:ss.S")
donc la regex accepte mais le parsing se plante :
Error while creating TRS file: java.text.ParseException: Unparseable date: "00:02:00" 

-> il faut décomposer le traitement en :
a) regex avec . + parsing avec .
b) regex sans . + parsing sans . 

History

#1 Updated by Matthieu Decorde over 2 years ago

  • % Done changed from 0 to 80

Also available in: Atom PDF