Support #1968: CS: Alceste import error during tokenizer - Plateforme TXM - Forge du Centre Blaise Pascal

Support #1968

Mis à jour par Matthieu Decorde il y a presque 9 ans

FR

Je vous contacte sur les conseils de Serge Heiden à propos d'un problème dans TXM d'un corpus (ensemble de résumés d'articles scientifiques de 3 revues, de 1977 à nos jours) sous format Alceste.

Je vous copie les erreurs obtenues (en vérifiant dans le dossier TXM "corpora", TXM a bien "splitté" le corpus en fichiers mais dans le dossier "tokenized", les fichiers sont vides) :
<pre>
Chargement des paramètres d'import depuis le fichier : C:\Users\CS\Documents\ISP\Revues_memoire\3-revues\TXM\3revues\3revues_alceste\import.xml
Sauvegarde des paramètres d'importation...
Erreur: le dossier C:\Users\CS\TXM\corpora\REVUESALCESTE n'a pu être supprimé et existe toujours. L'import est interrompu. Vous pouvez supprimer manuellement le dossier et recommencer l'import
Sauvegarde des paramètres d'importation...
Tokenizer parametrized with whitespaces=[\p{Z}\p{C}]+
Tokenizer parametrized with regPunct=[\p{Ps}\p{Pe}\p{Pi}\p{Pf}\p{Po}\p{S}]
Tokenizer parametrized with punct_strong=[.!?]+|\.\.|\.\.\.|…|\|
Tokenizer parametrized with regElision=['‘’]
Execution du script : C:\Users\CS\TXM\scripts\import\alcesteLoader.groovy
-- IMPORTER - Reading source files
3400 texts found in C:\Users\CS\Documents\ISP\Revues_memoire\3-revues\TXM\3revues\3revues_alceste\3-revues_eng_complet.txt
Tokenizing files (3400)
.Error : C:\Users\CS\TXM\corpora\REVUESALCESTE\split\0001.xml
javax.xml.stream.XMLStreamException: ParseError at [row,col]:[1,98]
Message: http://www.w3.org/TR/1999/REC-xml-names-19990114#AttributeNotUnique?text&id
at com.sun.org.apache.xerces.internal.impl.XMLStreamReaderImpl.next(XMLStreamReaderImpl.java:598)
at javax.xml.stream.XMLStreamReader$next.call(Unknown Source)
at filters.Tokeniser.SimpleTokenizerXml.process(SimpleTokenizerXml.groovy:311)
at filters.Tokeniser.SimpleTokenizerXml$process$0.call(Unknown Source)
at org.codehaus.groovy.runtime.callsite.CallSiteArray.defaultCall(CallSiteArray.java:45)
at org.codehaus.groovy.runtime.callsite.AbstractCallSite.call(AbstractCallSite.java:108)
at org.codehaus.groovy.runtime.callsite.AbstractCallSite.call(AbstractCallSite.java:112)
at org.txm.importer.alceste.importer.run(importer.groovy:111)
at org.txm.importer.alceste.importer$run.call(Unknown Source)
at org.codehaus.groovy.runtime.callsite.CallSiteArray.defaultCall(CallSiteArray.java:45)
at org.codehaus.groovy.runtime.callsite.AbstractCallSite.call(AbstractCallSite.java:108)
at org.txm.importer.alceste.alcesteLoader.run(alcesteLoader.groovy:94)
at groovy.util.GroovyScriptEngine.run(GroovyScriptEngine.java:577)
at org.txm.rcpapplication.commands.ExecuteImportScript$1.run(ExecuteImportScript.java:209)
at org.eclipse.core.internal.jobs.Worker.run(Worker.java:54)
Failed to tokenize: C:\Users\CS\TXM\corpora\REVUESALCESTE\split\0001.xml
.Error : C:\Users\CS\TXM\corpora\REVUESALCESTE\split\0002.xml
javax.xml.stream.XMLStreamException: ParseError at [row,col]:[1,98]
Message: http://www.w3.org/TR/1999/REC-xml-names-19990114#AttributeNotUnique?text&id
at com.sun.org.apache.xerces.internal.impl.XMLStreamReaderImpl.next(XMLStreamReaderImpl.java:598)
at javax.xml.stream.XMLStreamReader$next.call(Unknown Source)
at filters.Tokeniser.SimpleTokenizerXml.process(SimpleTokenizerXml.groovy:311)
at filters.Tokeniser.SimpleTokenizerXml$process$0.call(Unknown Source)
at org.txm.importer.alceste.importer.run(importer.groovy:111)
at org.txm.importer.alceste.importer$run.call(Unknown Source)
at org.codehaus.groovy.runtime.callsite.CallSiteArray.defaultCall(CallSiteArray.java:45)
at org.codehaus.groovy.runtime.callsite.AbstractCallSite.call(AbstractCallSite.java:108)
at org.txm.importer.alceste.alcesteLoader.run(alcesteLoader.groovy:94)
at groovy.util.GroovyScriptEngine.run(GroovyScriptEngine.java:577)
at org.txm.rcpapplication.commands.ExecuteImportScript$1.run(ExecuteImportScript.java:209)
at org.eclipse.core.internal.jobs.Worker.run(Worker.java:54)
</pre>

Je vous joins le corpus via wetransfer : https://we.tl/xxxxxxxxxxxxx

h3. Solution

a text star property *ID_ creates the "text@id" XML attribute BUT the alceste import module also creates this attribute. This behaviour generates the @Message: http://www.w3.org/TR/1999/REC-xml-names-19990114#AttributeNotUnique?text&id@ error message.

The solution is to detect and use the ID star property to build the text@id attribute.

h3. Solution 2

The BOM detection was failing too

Retour

Laboratoire ICAR » Plateforme TXM

Support #1968