/ - Diff - Plateforme TXM - Forge du Centre Blaise Pascal

Révision 3209

     package org.txm.macro.csv
     import org.kohsuke.args4j.*
     import groovy.transform.Field
     import java.nio.charset.Charset
     import org.txm.rcp.swt.widget.parameters.*
     import org.txm.utils.*
     import javax.xml.stream.*
     import java.net.URL
     @Field @Option(name="inputFile", usage="CSV File", widget="File", required=false, def="file.xlsx")
     		File inputFile;
     @Field @Option(name="outputDirectory", usage="output directory", widget="File", required=false, def="directory")
     		File outputDirectory;
     @Field @Option(name="textSelector", usage="column_to_test=regexp", widget="String", required=false, def="Type de notice=Notice sommaire")
     		def textSelector;
     @Field @Option(name="structureSelector", usage="column_to_test=regexp", widget="String", required=false, def="Type de notice=Notice sujet")
     		def structureSelector;
     @Field @Option(name="textIDColumn", usage="text id column", widget="String", required=false, def="Identifiant de la notice")
     		def textIDColumn;
     @Field @Option(name="joinColumn", usage="jointure column, values should point to the textIDColumn values", widget="String", required=false, def="Lien notice principale")
     		def joinColumn;
     @Field @Option(name="textMetadataColumnList", usage="text metadata columns", widget="String", required=false, def="Identifiant de la notice,Date de diffusion,Durée,Genre,Identifiant Matériels (info.)")
     		def textMetadataColumnList;
     @Field @Option(name="textContentColumnList", usage="text content columns", widget="String", required=false, def="Titre propre,Résumé,Descripteurs (Aff. Lig.),Descripteurs (Aff. Col.),Séquences")
     		def textContentColumnList;
     @Field @Option(name="structureTag", usage="structure metadata columns", widget="String", required=false, def="div")
     		def structureTag;
     @Field @Option(name="structureMetadataColumnList", usage="structure metadata columns", widget="String", required=false, def="Identifiant de la notice,Date de diffusion,Durée,Genre,Identifiant Matériels (info.)")
     		def structureMetadataColumnList;
     @Field @Option(name="structureContentColumnList", usage="structure content columns", widget="String", required=false, def="Titre propre,Résumé,Descripteurs (Aff. Lig.),Descripteurs (Aff. Col.),Séquences")
     		def structureContentColumnList;
     @Field @Option(name="metadataDateColumnList", usage="metadata columns of type=Date", widget="String", required=false, def="")
     		def metadataDateColumnList;
     @Field @Option(name="prefixContentColumnList", usage="metadata columns of type=Date", widget="String", required=false, def="")
     		def prefixContentColumnList;
     @Field @Option(name="listContentColumnList", usage="metadata columns of type=Date", widget="String", required=false, def="")
     		def listContentColumnList;
     //@Field @Option(name="structureOrderColumn", usage="structure column coding structure order", widget="String", required=false, def="Titre propre,Résumé,Descripteurs (Aff. Lig.),Descripteurs (Aff. Col.),Séquences")
     //		def structureOrderColumn;
     if (!ParametersDialog.open(this)) return;
     textMetadataColumnList = textMetadataColumnList.split(",")
     textContentColumnList = textContentColumnList.split(",")
     structureMetadataColumnList = structureMetadataColumnList.split(",")
     structureContentColumnList = structureContentColumnList.split(",")
     metadataDateColumnList = metadataDateColumnList.split(",")
     prefixContentColumnList = prefixContentColumnList.split(",")
     listContentColumnList = listContentColumnList.split(",")
     int ti = textSelector.indexOf("=")
     String p1 = textSelector.substring(0, ti)
     String p2 = textSelector.substring(ti+1)
     textSelector = [p1, p2]
     structureSelector = [structureSelector.substring(0, structureSelector.indexOf("=")), structureSelector.substring(structureSelector.indexOf("=")+1)]
     println "textIDColumn, joinColumn=$textIDColumn, $joinColumn"
     println "textMetadataColumnList columns: $textMetadataColumnList"
     println "textContentColumnList columns: $textContentColumnList"
     println "structureMetadataColumnList columns: $structureMetadataColumnList"
     println "structureContentColumnList columns: $structureContentColumnList"
     println "text selector="+textSelector
     println "structure selector="+structureSelector
     println "structureTag="+structureTag
     TableReader reader = new TableReader(inputFile);
     if (!reader.readHeaders()) {
     	println "Error: no header"
     	return
+    }
     def headers = Arrays.asList(reader.getHeaders())
     println "table columns: $headers"
     def ok = true
     for (def list : ["selection":[textIDColumn, joinColumn], "textMetadataColumnList":textMetadataColumnList,
     	"textContentColumnList":textContentColumnList, "structureMetadataColumnList":structureMetadataColumnList,
     	"structureContentColumnList":structureContentColumnList]) {
     	for (String m : list.value) {
     		m = m.trim()
     		if (!headers.contains(m)) {
     			println "Error: missing ${list.key} column: $m"
     			ok = false
+    		}
+    	}
+    }
     if (!ok) { return; }
     // group by text
     def texts = new LinkedHashMap()
     def nRecord = 0
     while (reader.readRecord()) {
     	nRecord++
     	//println "record="+reader.getRecord().get(textSelector[0])+" "+reader.getRecord().get(structureSelector[0])
     	String id = reader.get(textIDColumn).trim()
     	String join = reader.get(joinColumn).trim()
     	String textSelectorValue = reader.get(textSelector[0]).trim()
     	String structureSelectorValue = reader.get(structureSelector[0]).trim()
     	if (textSelectorValue != null && textSelectorValue.matches(textSelector[1])) {
     		if (!texts.containsKey(id)) texts[id] = []
     		texts[id].add(0, reader.getRecord())
     	} else if (structureSelectorValue != null && structureSelectorValue.matches(structureSelector[1])) {
     		if (!texts.containsKey(join)) texts[join] = []
     		texts[join].add(reader.getRecord())
     	} else {
     		// ignore
+    	}
+    }
     println "N lines: "+nRecord
     println "N groups: "+texts.size()
     if (texts.size()  == 0) {
     	println "No text found. Aborting."
     	return
+    }
     outputDirectory.mkdir()
     for (def id : texts.keySet()) {
     	def toWrite = texts[id]
     	def text = toWrite[0]
     	String textSelectorValue = text.get(textSelector[0]).trim()
     	if (textSelectorValue != null && textSelectorValue.matches(textSelector[1])) {
     		println "Processing text: $id"
     		File outputfile = new File(outputDirectory, id+".xml")
     		XMLOutputFactory factory = XMLOutputFactory.newInstance()
     		FileOutputStream output = new FileOutputStream(outputfile)
     		XMLStreamWriter writer = factory.createXMLStreamWriter(output, "UTF-8")
     		writer.writeStartDocument("UTF-8","1.0")
     		writer.writeCharacters("\n") // simple XML formating
     		writer.writeStartElement("TEI")
     		writer.writeCharacters("\n") // simple XML formating
     		writer.writeStartElement("teiHeader")
     		writer.writeEndElement() // teiHeader
     		writer.writeCharacters("\n") // simple XML formating
     		writer.writeStartElement("text")
     		writer.writeAttribute("id", id)
     		for (String att : textMetadataColumnList) {
     			if (att in metadataDateColumnList) {
     				writeMetadataDate(text, att, writer)
     			} else {
     				writer.writeAttribute(AsciiUtils.buildAttributeId(att), text.get(att)) // struct
+    			}
+    		}
     		writer.writeCharacters("\n") // simple XML formating
     		writer.writeStartElement("metadata")
     		writer.writeStartElement("list")
     		writer.writeAttribute("type", "unordered")
     		writer.writeCharacters("\n")
     		textMetadataColumnList.each { att ->
     			writer.writeStartElement("item")
     			writer.writeCharacters(att+" : "+text.get(att).replaceAll("\n", ";"))
     			writer.writeEndElement() // item
     			writer.writeCharacters("\n")
+    		}
     		writer.writeEndElement() // list
     		writer.writeEndElement() // metadata
     		writer.writeCharacters("\n")
     		for (String att : textContentColumnList) {
     			if (att in prefixContentColumnList) {
     				writeContentPrefix(text, att, writer)
     			} else if (att in listContentColumnList) {
     				writeContentList(text, att, writer)
     			} else {
     				writer.writeStartElement("p");
     				writer.writeAttribute("type", att.trim())
     				writer.writeCharacters("\n") // simple XML formating
     				writer.writeStartElement("head")
     				writer.writeStartElement("hi")
     				writer.writeCharacters(att+" : ")
     				writer.writeEndElement() // hi
     				writer.writeEndElement() // head
     				writer.writeCharacters(text.get(att)) // get textColumnList content
     				writer.writeEndElement() // t
     				writer.writeCharacters("\n") // simple XML formating)
+    			}
+    		}
     		int pb_n = 1;
     		for (int i = 1 ; i < toWrite.size() ; i++) {
     			def record = toWrite[i]
     			writer.writeEmptyElement("pb") // <pb/>
     			writer.writeAttribute("n", ""+pb_n++)
     			writer.writeStartElement(structureTag)
     			for (String att : structureMetadataColumnList) {
     				if (att in metadataDateColumnList) {
     					writeMetadataDate(record, att, writer)
     				} else {
     					writer.writeAttribute(AsciiUtils.buildAttributeId(att), record.get(att)) // struct
+    				}
+    			}
     			writer.writeCharacters("\n")
     			writer.writeStartElement("metadata")
     			writer.writeStartElement("list")
     			writer.writeAttribute("type", "unordered")
     			writer.writeCharacters("\n")
     			structureMetadataColumnList.each { att ->
     				writer.writeStartElement("item")
     				writer.writeCharacters(att+" : "+record.get(att).replaceAll("\n", ";"))
     				writer.writeEndElement() // item
     				writer.writeCharacters("\n")
+    			}
     			writer.writeEndElement() // list
     			writer.writeEndElement() // metadata
     			writer.writeCharacters("\n")
     			for (String att : structureContentColumnList) {
     				if (att in prefixContentColumnList) {
     					writeContentPrefix(text, att, writer)
     				} else if (att in listContentColumnList) {
     					writeContentList(text, att, writer)
     				} else {
     					writer.writeStartElement("p");
     					writer.writeAttribute("type", att.trim())
     					writer.writeAttribute("id", record.get(textIDColumn))
     					writer.writeCharacters("\n") // simple XML formating
     					writer.writeStartElement("head")
     					writer.writeStartElement("hi")
     					writer.writeCharacters(att+" : ")
     					writer.writeEndElement() // hi
     					writer.writeEndElement() // head
     					writer.writeCharacters(record.get(att)) // get textColumnList content
     					writer.writeEndElement() // t
     					writer.writeCharacters("\n") // simple XML formating
+    				}
+    			}
     			writer.writeEndElement() // struct
     			writer.writeCharacters("\n") // simple XML formating
+    		}
     		writer.writeEndElement() // text
     		writer.writeCharacters("\n") // simple XML formating
     		writer.writeEndElement() // TEI
     		writer.close()
     		output.close()
     		reader.close()
     	} else {
     		// error
     		println "ERROR: '$id' text group with  no text line"
+    	}
+    }
     def writeContentList(def record, def att, def writer) {
     	writer.writeCharacters("\n")
     	found = false
     	def value = record.get(att)
     	value.findAll( /(?s)([^\n]+?)[\n]/ ).each { desc ->
     		found = true
     		writer.writeCharacters("\t")
     		writer.writeStartElement("p")
     		writer.writeAttribute("rend", "list")
     		matches = (desc =~ /(?s)([^\n]+?)[\n]/)
     		writer.writeCharacters(matches[0][1])
     		writer.writeEndElement() // p
     		writer.writeCharacters("\n")
+    	}
     	if (!found) {
     		writer.writeCharacters("\t")
     		writer.writeStartElement("p")
     		writer.writeAttribute("rend", "no-list")
     		writer.writeCharacters(value)
     		writer.writeEndElement() // p
     		writer.writeCharacters("\n")
+    	}
+    }
     def writeContentPrefix(def record, def att, def writer) {
     	writer.writeCharacters("\n")
     	writer.writeStartElement("list")
     	writer.writeAttribute("rend", "prefixes")
     	writer.writeAttribute("type", "unordered")
     	writer.writeCharacters("\n")
     	found = false
     	def value = record.get(att)
     	value.findAll( /(?s)[A-Z]{3}:? *([^;\n]+?) +[;\n]/ ).each { desc ->
     		found = true
     		writer.writeCharacters("\t")
     		writer.writeStartElement("item")
     		matches = (desc =~ /(?s)([A-Z]{3}):? *([^;\n]+?) +[;\n]/)
     		writer.writeAttribute("type", matches[0][1])
     		writer.writeStartElement("span")
     		writer.writeCharacters(matches[0][1]+" ")
     		writer.writeEndElement() // span
     		writer.writeCharacters(matches[0][2])
     		writer.writeEndElement() // item
     		writer.writeCharacters("\n")
+    	}
     	if (!found) {
     		writer.writeCharacters(value)
+    	}
     	writer.writeEndElement() // list
     	writer.writeCharacters("\n")
+    }
     def writeMetadataDate(def record, def att, def writer) {
     	String value = record.get(att)
     	String att_normalized = AsciiUtils.buildAttributeId(att)
     	matches = (value =~ /([0-9]{2})\/([0-9]{2})\/([0-9]{4})/)
     	writer.writeAttribute(att_normalized+"jour", matches[0][1])
     	writer.writeAttribute(att_normalized+"joursemaine", new java.text.SimpleDateFormat('EEEE').format(Date.parse("dd/MM/yyyy", value)))
     	writer.writeAttribute(att_normalized+"mois", matches[0][2])
     	writer.writeAttribute(att_normalized+"annee", matches[0][3])
     	writer.writeAttribute(att_normalized+"tri", matches[0][3]+"-"+matches[0][2]+"-"+matches[0][1])
+    }
     /*
      String name = inputFile.getName()
      int idx = name.lastIndexOf(".")
      if (idx > 0) name = name.substring(0, idx)
      */

     @Field @Option(name="word_property", usage="The word property to annotate", widget="String", required=true, def="type")
     		String word_property
     @Field @Option(name="do_not_update_corpus_indexes_and_editions", usage="Select to only update the XML-TXM files", widget="Boolean", required=true, def="false")
     		def do_not_update_corpus_indexes_and_editions
     @Field @Option(name="update_corpus_indexes_and_editions", usage="Unselect to only update the XML-TXM files", widget="Boolean", required=true, def="true")
     		def update_corpus_indexes_and_editions
     // Open the parameters input dialog box
     if (!ParametersDialog.open(this)) return
-...
     int n = gse.run(CQLList2WordAnnotationsMacro, hash)
     if (n > 0) {
     	println "Saving annotations..."
     	println "Saving $n annotations..."
     	//	monitor.syncExec(new Runnable() {
     	//		public void run() {
     	def saveJob = SaveAnnotations.save(mcorpus);
     	if (saveJob == null || saveJob.getResult() == Status.CANCEL_STATUS) {
     		// update editor corpus
     		System.out.println("Fail to save annotations of the corpus."); //$NON-NLS-1$
     		System.out.println("** Error: failed to save the annotations of the corpus."); //$NON-NLS-1$
     		return;
     	} else {
     		if (!do_not_update_corpus_indexes_and_editions) {
     		if (update_corpus_indexes_and_editions) {
     			println "Updating corpus indexes and editions..."
     			UpdateCorpus.update(mcorpus)
+    		}
-...
     } else {
     	println "No annotation to save."
     	return false
+    }
+    }

     // Copyright © 2021 ENS Lyon
     // Licensed under the terms of the GNU General Public License version 3 (http://www.gnu.org/licenses/gpl-3.0.html)
     // @author mdecorde
     // @author sheiden
     package org.txm.macro.annotation
-...
     Project project = mcorpus.getProject()
     File txmDir = new File(project.getProjectDirectory(), "txm/"+mcorpus.getName())
     @Field @Option(name="outputDirectory", usage="Directory of resulting XML-TXM files", widget="Folder", required=true, def="result_directory")
     @Field @Option(name="outputDirectory", usage="Directory of resulting XML-TXM files", widget="Folder", required=true, def="")
     File outputDirectory
     @Field @Option(name="word_property", usage="The word property to move", widget="String", required=true, def="type")
     @Field @Option(name="word_property", usage="The word property to project", widget="String", required=true, def="type")
     String word_property
     //@Field @Option(name="word_property_value_to_ignore", usage="The annotation type", widget="String", required=true, def="__undef__")
     //String word_property_value_to_ignore
     @Field @Option(name="values_to_ignore_regex", usage="regex of values not to project", widget="String", required=true, def="")
     String values_to_ignore_regex
     @Field @Option(name="debug", usage="Afficher les messages de debug", widget="Boolean", required=true, def="false")
     def debug
     // Open the parameters input dialog box
     if (!ParametersDialog.open(this)) return
-...
     	return false
+    }
     values_to_ignore_regex = /$values_to_ignore_regex/
     project.compute();
     for (Text text : project.getChildren(Text.class)) {
     	println "Text: "+text
     	File orig = text.getXMLTXMFile()
     	if (!orig.exists()) {
     		println "Warning: no XML-TXM file found for "+text
     		continue // next !
     	if ((orig == null) || !orig.exists()) {
     		println "** Error: no XML-TXM file found for "+text
     		return // next !
+    	}
     	File result = new File(outputDirectory, orig.getName())
-...
+    	}
     	XMLProcessor xp = new XMLProcessor(orig);
     	LocalNameHookActivator activator = new LocalNameHookActivator("w");
     	LocalNameHookActivator activator = new LocalNameHookActivator("w")
     	new DOMIdentityHook("word", activator, xp) {
     		@Override
     		public void processDom() {
     			//println dom
     			use(groovy.xml.dom.DOMCategory) {
     				def form = dom.form[0]
     				def anatype = dom.ana.findAll(){ a -> a['@type'] == "#$word_property"}
     				def anatype = dom.ana.findAll(){ a ->
     					if (debug && (a['@type'] == "#$word_property")) {
     						println 'a["@type"] = '+a["@type"]
     						println 'a.text() = '+a.text()
     						println 'a["@type"] == "#$word_property"'+" = "+(a['@type'] == "#$word_property")
     						println "values_to_ignore_regex = "+values_to_ignore_regex
     						println '!(a.text() ==~ values_to_ignore_regex))'+" = "+(!(a.text() ==~ values_to_ignore_regex))
     						println '((a["@type"] == "#$word_property") && !(a.text() ==~ values_to_ignore_regex)) = '+((a['@type'] == "#$word_property") && !(a.text() ==~ values_to_ignore_regex))
+    					}
     					return ((a['@type'] == "#$word_property") && !(a.text() ==~ values_to_ignore_regex))
+    				}
     //				println form.text()+" -> $anatype"
     				if (anatype.size() > 0) { // keep the word
     					anatype = anatype[0]
-...
     					anatype['@type'] = "#form"
     					anatype.setTextContent(s)
     				} else {
     					dom = null;
     					dom = null
+    				}
+    			}
+    		}
+    	}
     	xp.process(result)
+    }
+    }

     package org.txm.macro.table
     import org.kohsuke.args4j.*
     import groovy.transform.Field
     import java.nio.charset.Charset
     import org.txm.libs.msoffice.ReadExcel
     import org.txm.rcpapplication.swt.widget.parameters.*
     import org.txm.utils.*
     import javax.xml.stream.*
     import java.net.URL
     import java.text.SimpleDateFormat
     import org.apache.poi.ss.usermodel.*
     import org.apache.poi.hssf.usermodel.*
     import org.apache.poi.xssf.usermodel.*
     import org.apache.poi.ss.usermodel.WorkbookFactory
     import org.apache.poi.ss.util.*
     def stringToIndent = { str -> org.txm.utils.AsciiUtils.buildAttributeId(org.txm.utils.AsciiUtils.convertNonAscii(str)).toLowerCase() }
     @Field @Option(name="inputFile", usage="fichier Excel à traiter", widget="File", required=true, def="")
     		File inputFile
     @Field @Option(name="sheetName", usage="sheet name (if no name is given the first sheet will be used)", widget="String", required=false, def="")
     		def sheetName
     @Field @Option(name="rootTag", usage="root tag name", widget="String", required=false, def="root")
     		def rootTag
     @Field @Option(name="textTag", usage="line unit tag name", widget="String", required=false, def="unit")
     		def textTag
     @Field @Option(name="metadataColumnList", usage="metadata columns list separated by comma", widget="String", required=false, def="meta1,meta2")
     		def metadataColumnList
     @Field @Option(name="dateColumnList", usage="date columns list separated by comma", widget="String", required=false, def="meta1,meta2")
     		def dateColumnList
     @Field @Option(name="textColumnList", usage="text columns list separated by comma", widget="String", required=false, def="textColumnList1,textColumnList2")
     		def textColumnList
     @Field @Option(name="EmbedInTEI", usage="text columns list separated by comma", widget="Boolean", required=false, def="false")
     		def EmbedInTEI
     if (!ParametersDialog.open(this)) return
     	if (!inputFile.exists()) {
     		println "** Excel2XML: no '"+inputFile.name+"' file found. Aborting."
     		return false
+    	}
     if (!inputFile.canRead()) {
     	println "** Excel2XML: '"+inputFile.name+"' file not readable. Aborting."
     	return false
+    }
     try {
     	metadataColumnList = metadataColumnList.split(",").collect { it.trim() }
     	dateColumnList = dateColumnList.split(",").collect { it.trim() }
     	textColumnList = textColumnList.split(",").collect { it.trim() }
     	textTag = textTag.trim()
     	rootTag = rootTag.trim()
     	ReadExcel excel = new ReadExcel(inputFile, sheetName);
     	excel.readHeaders();
     	headers = excel.getHeaders()
     	println "Headers: $headers"
     	ok = true
     	metadataColumnList.each { m ->
     		if (!headers.contains(m)) {
     			println "** Excel2XML: missing metadataColumnList column: $m"
     			ok = false
+    		}
+    	}
     	textColumnList.each { t ->
     		if (!headers.contains(t)) {
     			println "** Excel2XML: missing textColumnList column: $t"
     			ok = false
+    		}
+    	}
     	if (!ok) { return false }
     	println "metadataColumnList = "+metadataColumnList
     	println "dateColumnList = "+dateColumnList
     	println "textColumnList = "+textColumnList
     	name = inputFile.getName()
     	idx = name.lastIndexOf(".")
     	if (idx > 0) name = name.substring(0, idx)
     	outputFile = new File(inputFile.getParentFile(), name+".xml")
     	factory = XMLOutputFactory.newInstance()
     	output = new FileOutputStream(outputFile)
     	writer = factory.createXMLStreamWriter(output, "UTF-8")
     	writer.writeStartDocument("UTF-8","1.0")
     	writer.writeCharacters("\n") // simple XML formating
     	if (EmbedInTEI) {
     		writer.writeStartElement("TEI")
     		writer.writeStartElement("teiHeader")
     		writer.writeEndElement() // teiHeader
     		writer.writeStartElement("text")
     		writer.writeCharacters("\n")
+    	}
     	writer.writeStartElement(rootTag)
     	writer.writeCharacters("\n")
     	pb_n = 1
     	//(1..nRows-1).each { rowIndex ->
     	def record = null
     	while (excel.readRecord()) {
     		record = excel.getRecord()
     		if (record.isEmpty()) continue;
     		//println "record=$record"
     		writer.writeCharacters("  ")
     		writer.writeEmptyElement("pb") // <pb/> to get one page per input line (don't forget high number of words per page in import module)
     		writer.writeAttribute("n", ""+pb_n++)
     		writer.writeCharacters("\n") // simple XML formating
     		writer.writeCharacters("  ")
     		writer.writeStartElement(textTag)
     		//metadataColumnIndex.each { colIndex -> // build an attribute for each metadata
     		for (def metadataName : metadataColumnList) {
     			String s = record.get(metadataName);
     			if (s == null) s = "";
     			value = s.replaceAll("\n", ";").trim()
     			writer.writeAttribute(stringToIndent(metadataName), value)
     			if (metadataName in dateColumnList) { // also split date attributes in day+month+year attributes
     				matches = (value =~ /([0-9]{2})\/([0-9]{2})\/([0-9]{4})/)
     				writer.writeAttribute(metadataName+"-jour", matches[0][1])
     				writer.writeAttribute(metadataName+"-joursemaine", new java.text.SimpleDateFormat('EEEE').format(Date.parse("dd/MM/yyyy", value)))
     				writer.writeAttribute(metadataName+"-mois", matches[0][2])
     				writer.writeAttribute(metadataName+"-annee", matches[0][3])
+    			}
+    		}
     		writer.writeCharacters("\n")
     		writer.writeCharacters("    ")
     		writer.writeStartElement("metadata")
     		writer.writeStartElement("list")
     		writer.writeAttribute("type", "unordered")
     		writer.writeCharacters("\n")
     		//metadataColumnIndex.each { colIndex ->
     		for (def metadataName : metadataColumnList) {
     			writer.writeStartElement("item")
     			writer.writeCharacters(metadataName+" : "+record.get(metadataName).replaceAll("\n", ";"))
     			writer.writeEndElement() // item
     			writer.writeCharacters("\n")
+    		}
     		writer.writeCharacters("    ")
     		writer.writeEndElement() // list
     		writer.writeEndElement() // head
     		writer.writeCharacters("\n")
     		//textColumnIndex.each { colIndex ->
     		for (def textColumnName : textColumnList) {
     			writer.writeCharacters("    ")
     			writer.writeStartElement(stringToIndent(textColumnName))
     			writer.writeStartElement("p")
     			writer.writeStartElement("head")
     			writer.writeStartElement("hi")
     			writer.writeCharacters(textColumnName+" : ")
     			writer.writeEndElement() // hi
     			writer.writeEndElement() // head
     			value = record.get(textColumnName)
     			if (value ==~ /(?s)^[A-Z]{3}:  [^;\n]+? +[;\n].*/) {
     				value.findAll( /(?s)[A-Z]{3}:  ([^;\n]+?) +[;\n]/ ).each { desc ->
     					writer.writeStartElement("descripteur")
     					matches = (desc =~ /(?s)([A-Z]{3}):  ([^;\n]+?) +[;\n]/)
     					writer.writeAttribute("type", matches[0][1])
     					writer.writeCharacters(matches[0][2])
     					writer.writeEndElement() // descripteur
+    				}
     			} else {
     				writer.writeCharacters(value)
+    			}
     			writer.writeEndElement() // p
     			writer.writeEndElement() // textColumn
     			writer.writeCharacters("\n")
+    		}
     		writer.writeCharacters("  ")
     		writer.writeEndElement() // textTag
     		writer.writeCharacters("\n")
+    	}
     	writer.writeEndElement() // rootTag
     	writer.writeCharacters("\n")
     	if (EmbedInTEI) {
     		writer.writeEndElement() // text
     		writer.writeCharacters("\n")
     		writer.writeEndElement() // TEI
     		writer.writeCharacters("\n")
+    	}
     	writer.close()
     	output.close()
     	println "Result file: $outputFile"
     } catch (Exception e) {
     	println "** Excel2XML: unable to read input file. Aborting."
     	println e.getLocalizedMessage()
     	println e.printStackTrace()
     	return false
+    }
     return true

     package org.txm.macro.table
     import org.kohsuke.args4j.*
     import groovy.transform.Field
     import java.nio.charset.Charset
     import org.txm.libs.msoffice.ReadExcel
     import org.txm.rcpapplication.swt.widget.parameters.*
     import org.txm.utils.*
     import javax.xml.stream.*
     import java.net.URL
     import java.text.SimpleDateFormat
     import org.apache.poi.ss.usermodel.*
     import org.apache.poi.hssf.usermodel.*
     import org.apache.poi.xssf.usermodel.*
     import org.apache.poi.ss.usermodel.WorkbookFactory
     import org.apache.poi.ss.util.*
     def stringToIndent = { str -> org.txm.utils.AsciiUtils.buildAttributeId(org.txm.utils.AsciiUtils.convertNonAscii(str)).toLowerCase() }
     @Field @Option(name="inputFile", usage="fichier Excel à traiter", widget="File", required=true, def="")
     		File inputFile
     @Field @Option(name="sheetName", usage="sheet name (if no name is given the first sheet will be used)", widget="String", required=false, def="")
     		def sheetName
     @Field @Option(name="EmbedInTEI", usage="embed xml content in  TEI text element", widget="Boolean", required=false, def="false")
     		def EmbedInTEI
     @Field @Option(name="rootTag", usage="root tag name", widget="String", required=false, def="root")
     		def rootTag
     @Field @Option(name="textTag", usage="line unit tag name", widget="String", required=false, def="unit")
     		def textTag
     @Field @Option(name="metadataColumnList", usage="metadata columns list separated by comma", widget="String", required=false, def="meta1,meta2")
     		def metadataColumnList
     @Field @Option(name="dateColumnList", usage="date columns list separated by comma", widget="String", required=false, def="meta1,meta2")
     		def dateColumnList
     @Field @Option(name="textColumnList", usage="text columns list separated by comma", widget="String", required=false, def="textColumnList1,textColumnList2")
     		def textColumnList
     @Field @Option(name="prefixContentColumnList", usage="columns which content is a semi-colon separated prefixes list", widget="String", required=false, def="")
     		def prefixContentColumnList
     @Field @Option(name="listContentColumnList", usage="columns which content is a semi-colon separated list", widget="String", required=false, def="")
     		def listContentColumnList
     if (!ParametersDialog.open(this)) return
     	if (!inputFile.exists()) {
     		println "** Excel2XML: no '"+inputFile.name+"' file found. Aborting."
     		return false
+    	}
     if (!inputFile.canRead()) {
     	println "** Excel2XML: '"+inputFile.name+"' file not readable. Aborting."
     	return false
+    }
     try {
     	metadataColumnList = metadataColumnList.split(",").collect { it.trim() }
     	dateColumnList = dateColumnList.split(",").collect { it.trim() }
     	textColumnList = textColumnList.split(",").collect { it.trim() }
     	prefixContentColumnList = prefixContentColumnList.split(",").collect { it.trim() }
     	listContentColumnList = listContentColumnList.split(",").collect { it.trim() }
     	textTag = textTag.trim()
     	rootTag = rootTag.trim()
     	ReadExcel excel = new ReadExcel(inputFile, sheetName);
     	excel.readHeaders();
     	headers = excel.getHeaders()
     	println "Headers: $headers"
     	ok = true
     	metadataColumnList.each { m ->
     		if (!headers.contains(m)) {
     			println "** Excel2XML: missing metadataColumnList column: $m"
     			ok = false
+    		}
+    	}
     	textColumnList.each { t ->
     		if (!headers.contains(t)) {
     			println "** Excel2XML: missing textColumnList column: $t"
     			ok = false
+    		}
+    	}
     	if (!ok) { return false }
     	println "metadataColumnList = "+metadataColumnList
     	println "dateColumnList = "+dateColumnList
     	println "textColumnList = "+textColumnList
     	name = inputFile.getName()
     	idx = name.lastIndexOf(".")
     	if (idx > 0) name = name.substring(0, idx)
     	outputFile = new File(inputFile.getParentFile(), name+".xml")
     	factory = XMLOutputFactory.newInstance()
     	output = new FileOutputStream(outputFile)
     	writer = factory.createXMLStreamWriter(output, "UTF-8")
     	writer.writeStartDocument("UTF-8","1.0")
     	writer.writeCharacters("\n") // simple XML formating
     	if (EmbedInTEI) {
     		writer.writeStartElement("TEI")
     		writer.writeStartElement("teiHeader")
     		writer.writeEndElement() // teiHeader
     		writer.writeStartElement("text")
     		writer.writeCharacters("\n")
+    	}
     	if (rootTag != null && rootTag.length() > 0) {
     		writer.writeStartElement(rootTag)
     		writer.writeCharacters("\n")
+    	}
     	pb_n = 1
     	//(1..nRows-1).each { rowIndex ->
     	def record = null
     	while (excel.readRecord()) {
     		record = excel.getRecord()
     		if (record.isEmpty()) continue;
     		//println "record=$record"
     		writer.writeCharacters("  ")
     		writer.writeEmptyElement("pb") // <pb/> to get one page per input line (don't forget high number of words per page in import module)
     		writer.writeAttribute("n", ""+pb_n++)
     		writer.writeCharacters("\n") // simple XML formating
     		writer.writeCharacters("  ")
     		if (textTag != null && textTag.length() > 0) {
     			writer.writeStartElement(textTag)
     			//metadataColumnIndex.each { colIndex -> // build an attribute for each metadata
     			for (def metadataName : metadataColumnList) {
     				String s = record.get(metadataName);
     				if (s == null) s = "";
     				value = s.replaceAll("\n", ";").trim()
     				writer.writeAttribute(stringToIndent(metadataName), value)
     				if (metadataName in dateColumnList) { // also split date attributes in day+month+year attributes
     					matches = (value =~ /([0-9]{2})\/([0-9]{2})\/([0-9]{4})/)
     					writer.writeAttribute(metadataName+"-jour", matches[0][1])
     					writer.writeAttribute(metadataName+"-joursemaine", new java.text.SimpleDateFormat('EEEE').format(Date.parse("dd/MM/yyyy", value)))
     					writer.writeAttribute(metadataName+"-mois", matches[0][2])
     					writer.writeAttribute(metadataName+"-annee", matches[0][3])
+    				}
+    			}
     			writer.writeCharacters("\n")
+    		}
     		writer.writeCharacters("    ")
     		writer.writeStartElement("metadata")
     		writer.writeStartElement("list")
     		writer.writeAttribute("type", "unordered")
     		writer.writeCharacters("\n")
     		//metadataColumnIndex.each { colIndex ->
     		for (def metadataName : metadataColumnList) {
     			writer.writeStartElement("item")
     			writer.writeCharacters(metadataName+" : "+record.get(metadataName).replaceAll("\n", ";"))
     			writer.writeEndElement() // item
     			writer.writeCharacters("\n")
+    		}
     		writer.writeCharacters("    ")
     		writer.writeEndElement() // list
     		writer.writeEndElement() // head
     		writer.writeCharacters("\n")
     		//textColumnIndex.each { colIndex ->
     		for (def textColumnName : textColumnList) {
     			writer.writeCharacters("    ")
     			writer.writeStartElement(stringToIndent(textColumnName))
     			writer.writeStartElement("p")
     			writer.writeStartElement("head")
     			writer.writeStartElement("hi")
     			writer.writeCharacters(textColumnName+" : ")
     			writer.writeEndElement() // hi
     			writer.writeEndElement() // head
     			value = record.get(textColumnName)
     			if (value ==~ /(?s)^[A-Z]{3}:  [^;\n]+? +[;\n].*/) {
     				value.findAll( /(?s)[A-Z]{3}:  ([^;\n]+?) +[;\n]/ ).each { desc ->
     					writer.writeStartElement("descripteur")
     					matches = (desc =~ /(?s)([A-Z]{3}):  ([^;\n]+?) +[;\n]/)
     					writer.writeAttribute("type", matches[0][1])
     					writer.writeCharacters(matches[0][2])
     					writer.writeEndElement() // descripteur
+    				}
     			} else {
     				writer.writeCharacters(value)
+    			}
     			writer.writeEndElement() // p
     			writer.writeEndElement() // textColumn
     			writer.writeCharacters("\n")
+    		}
     		writer.writeCharacters("  ")
     		if (textTag != null && textTag.length() > 0) {
     			writer.writeEndElement() // textTag
     			writer.writeCharacters("\n")
+    		}
+    	}
     	if (rootTag != null && rootTag.length() > 0) {
     		writer.writeEndElement() // rootTag
     		writer.writeCharacters("\n")
+    	}
     	if (EmbedInTEI) {
     		writer.writeEndElement() // text
     		writer.writeCharacters("\n")
     		writer.writeEndElement() // TEI
     		writer.writeCharacters("\n")
+    	}
     	writer.close()
     	output.close()
     	println "Result file: $outputFile"
     } catch (Exception e) {
     	println "** Excel2XML: unable to read input file. Aborting."
     	println e.getLocalizedMessage()
     	println e.printStackTrace()
     	return false
+    }
     return true

     package org.txm.macro.csv
     import org.kohsuke.args4j.*
     import groovy.transform.Field
     import java.nio.charset.Charset
     import org.txm.rcp.swt.widget.parameters.*
     import org.txm.utils.*
     import javax.xml.stream.*
     import java.net.URL
     import org.txm.libs.msoffice.ReadExcel
     @Field @Option(name="inputFile", usage="CSV File", widget="File", required=false, def="file.xlsx")
     		File inputFile;
     @Field @Option(name="outputDirectory", usage="output directory", widget="Folder", required=false, def="directory")
     		File outputDirectory;
     @Field @Option(name="textsSeparator", usage="Texts", widget="Separator", required=false, def="Texts")
     		def textsSeparator
     @Field @Option(name="textIDColumn", usage="<text> id column", widget="String", required=false, def="Identifiant de la notice")
     		def textIDColumn;
     @Field @Option(name="textSelector", usage="<text> lines selector format is column=value", widget="String", required=false, def="Type de notice=Notice sommaire")
     		def textSelector;
     @Field @Option(name="textMetadataColumnList", usage="<text> metadata columns", widget="String", required=false, def="Identifiant de la notice,Date de diffusion,Durée,Genre,Identifiant Matériels (info.)")
     		def textMetadataColumnList;
     @Field @Option(name="textContentColumnList", usage="<text> textual content columns", widget="String", required=false, def="Titre propre,Résumé,Descripteurs (Aff. Lig.),Descripteurs (Aff. Col.),Séquences")
     		def textContentColumnList;
     @Field @Option(name="structuresSeparator", usage="Structures", widget="Separator", required=false, def="Structures")
     		def structuresSeparator
     @Field @Option(name="structureTag", usage="structure element to create", widget="String", required=false, def="div")
     		def structureTag;
     @Field @Option(name="structureSelector", usage="column_to_test=regexp", widget="String", required=false, def="Type de notice=Notice sujet")
     		def structureSelector;
     @Field @Option(name="textJoinColumn", usage="jointure column, values should point to the textIDColumn values", widget="String", required=false, def="Lien notice principale")
     		def textJoinColumn;
     @Field @Option(name="structureMetadataColumnList", usage="structure metadata columns", widget="String", required=false, def="Identifiant de la notice,Date de diffusion,Durée,Genre,Identifiant Matériels (info.)")
     		def structureMetadataColumnList;
     @Field @Option(name="structureContentColumnList", usage="structure textual content columns", widget="String", required=false, def="Titre propre,Résumé,Descripteurs (Aff. Lig.),Descripteurs (Aff. Col.),Séquences")
     		def structureContentColumnList;
     @Field @Option(name="typesSeparator", usage="Columns types", widget="Separator", required=false, def="Columns types")
     		def typesSeparator
     @Field @Option(name="dateColumnTypeList", usage="metadata columns of type=Date", widget="String", required=false, def="")
     		def dateColumnTypeList
     @Field @Option(name="prefixesColumnTypeList", usage="metadata columns of type=Prefixes", widget="String", required=false, def="")
     		def prefixesColumnTypeList
     @Field @Option(name="listColumnTypeList", usage="metadata columns of type=List semi-colon separated", widget="String", required=false, def="")
     		def listColumnTypeList
     		@Field @Option(name="debug", usage="Show devug messages", widget="Boolean", required=false, def="false")
     		def debug
     //@Field @Option(name="structureOrderColumn", usage="structure column coding structure order", widget="String", required=false, def="Titre propre,Résumé,Descripteurs (Aff. Lig.),Descripteurs (Aff. Col.),Séquences")
     //		def structureOrderColumn;
     if (!ParametersDialog.open(this)) return;
     textMetadataColumnList = textMetadataColumnList.split(",").collect { it.trim() }
     textContentColumnList = textContentColumnList.split(",").collect { it.trim() }
     structureMetadataColumnList = structureMetadataColumnList.split(",").collect { it.trim() }
     structureContentColumnList = structureContentColumnList.split(",").collect { it.trim() }
     dateColumnTypeList = dateColumnTypeList.split(",").collect { it.trim() }
     prefixesColumnTypeList = prefixesColumnTypeList.split(",").collect { it.trim() }
     listColumnTypeList = listColumnTypeList.split(",").collect { it.trim() }
     if (textSelector != null && textSelector.contains("=")) {
     	textSelector = textSelector.trim()
     	textSelector = [textSelector.substring(0, textSelector.indexOf("=")).trim(), textSelector.substring(textSelector.indexOf("=")+1).trim()]
     } else {
     	textSelector = [null, null]
+    }
     if (structureSelector != null && structureSelector.contains("=")) {
     	structureSelector = structureSelector.trim()
     	structureSelector = [structureSelector.substring(0, structureSelector.indexOf("=")).trim(), structureSelector.substring(structureSelector.indexOf("=")+1).trim()]
     } else {
     	structureSelector = [null, null]
+    }
     println "textIDColumn, textJoinColumn=$textIDColumn, $textJoinColumn"
     println "textMetadataColumnList columns: $textMetadataColumnList"
     println "textContentColumnList columns: $textContentColumnList"
     println "structureMetadataColumnList columns: $structureMetadataColumnList"
     println "structureContentColumnList columns: $structureContentColumnList"
     println "text selector="+textSelector
     println "structure selector="+structureSelector
     println "structureTag="+structureTag
     def reader = null
     try {
     	reader = new TableReader(inputFile);
     	println "Reading $inputFile with TableReader..."
     } catch(Exception e) {
     	reader = new ReadExcel(inputFile, null);
     	println "Reading $inputFile with ReadExcel..."
+    }
     if (!reader.readHeaders()) {
     	println "** Error: no header"
     	return
+    }
     def headers = Arrays.asList(reader.getHeaders())
     println "$inputFile table column names: $headers"
     def ok = true
     def hash = ["selection":[textIDColumn, textJoinColumn], "textMetadataColumnList":textMetadataColumnList,
     	"textContentColumnList":textContentColumnList, "structureMetadataColumnList":structureMetadataColumnList,
     	"structureContentColumnList":structureContentColumnList]
     for (def key : hash.keySet()) {
     	for (def m : hash[key]) {
     		if (!headers.contains(m)) {
     			println "** Error: missing $key column: $m"
     			ok = false
+    		}
+    }
+    }
     if (!ok) { return; }
     // group records by text
     def texts = new LinkedHashMap()
     def nRecord = 0
     def nRecordToWrite = 0
     while (reader.readRecord()) {
     nRecord++
     //println "record="+reader.getRecord().get(textSelector[0])+" "+reader.getRecord().get(structureSelector[0])
     String id = reader.get(textIDColumn).trim()
     String join = reader.get(textJoinColumn).trim()
     String textSelectorValue = reader.get(textSelector[0]).trim()
     String structureSelectorValue = reader.get(structureSelector[0]).trim()
     if (textIDColumn != null && textJoinColumn != null && textIDColumn.length() > 0 && textJoinColumn.length() > 0) {
     	if (textSelectorValue != null && structureSelectorValue != null) {
     		if (textSelectorValue != null && textSelectorValue.matches(textSelector[1])) {
     			if (!texts.containsKey(id)) texts[id] = []
     			texts[id].add(0, reader.getRecord())
     		} else if (structureSelectorValue != null && structureSelectorValue.matches(structureSelector[1])) {
     			if (!texts.containsKey(join)) texts[join] = []
     			texts[join].add(reader.getRecord())
     			nRecordToWrite++
     		} else {
     			// ignore record
+    		}
     	} else { // no text&structure selector set, take the record if 'id' or 'join' are set
     		if (id.length() > 0) {
     			if (!texts.containsKey(id)) texts[id] = []
     			texts[id].add(0, reader.getRecord())
     		} else if (join.length() > 0) {
     			if (!texts.containsKey(join)) texts[join] = []
     			texts[join].add(reader.getRecord())
     			nRecordToWrite++
     		} else {
     			// ignore record
+    		}
+    	}
     } else { // no id & join parameter set -> regroup all record in one file
     	if (!texts.containsKey("result.xml")) texts["result.xml"] = []
     	texts["result.xml"].add(reader.getRecord())
     	nRecordToWrite++
+    }
+    }
     println "N records: "+nRecord
     println "N records to write: "+nRecordToWrite
     println "N texts to build: "+texts.size()
     if (texts.size()  == 0) {
     println "No text found. Aborting."
     return
+    }
     outputDirectory.mkdir()
     for (def id : texts.keySet()) {
     def toWrite = texts[id]
     def text = toWrite[0]
     String textSelectorValue = text.get(textSelector[0]).trim()
     if (textSelectorValue == null || (textSelectorValue != null && textSelectorValue.matches(textSelector[1]))) {
     	if (debug) println "Processing text: $id"
     	File outputfile = new File(outputDirectory, id+".xml")
     	XMLOutputFactory factory = XMLOutputFactory.newInstance()
     	FileOutputStream output = new FileOutputStream(outputfile)
     	XMLStreamWriter writer = factory.createXMLStreamWriter(output, "UTF-8")
     	writer.writeStartDocument("UTF-8","1.0")
     	writer.writeCharacters("\n") // simple XML formating
     	writer.writeStartElement("TEI")
     	writer.writeCharacters("\n") // simple XML formating
     	writer.writeStartElement("teiHeader")
     	writer.writeEndElement() // teiHeader
     	writer.writeCharacters("\n") // simple XML formating
     	writer.writeStartElement("text")
     	writer.writeAttribute("id", id)
     	for (String att : textMetadataColumnList) {
     		if (att in dateColumnTypeList) {
     			writeMetadataDate(text, att, writer)
     		} else {
     			writer.writeAttribute(AsciiUtils.buildAttributeId(att), text.get(att)) // struct
+    		}
+    	}
     	writer.writeCharacters("\n") // simple XML formating
     	writer.writeStartElement("metadata")
     	writer.writeStartElement("list")
     	writer.writeAttribute("type", "unordered")
     	writer.writeCharacters("\n")
     	textMetadataColumnList.each { att ->
     		writer.writeStartElement("item")
     		writer.writeCharacters(att+" : "+text.get(att).replaceAll("\n", ";"))
     		writer.writeEndElement() // item
     		writer.writeCharacters("\n")
+    	}
     	writer.writeEndElement() // list
     	writer.writeEndElement() // metadata
     	writer.writeCharacters("\n")
     	for (String att : textContentColumnList) {
     		if (att in prefixesColumnTypeList) {
     			writePrefixTextContent(text, att, writer)
     		} else if (att in listColumnTypeList) {
     			writeListTextContent(text, att, writer)
     		} else {
     			writer.writeStartElement("p");
     			writer.writeAttribute("type", att.trim())
     			writer.writeCharacters("\n") // simple XML formating
     			writer.writeStartElement("head")
     			writer.writeStartElement("hi")
     			writer.writeCharacters(att+" : ")
     			writer.writeEndElement() // hi
     			writer.writeEndElement() // head
     			writer.writeCharacters(text.get(att)) // get textColumnList content
     			writer.writeEndElement() // t
     			writer.writeCharacters("\n") // simple XML formating)
+    		}
+    	}
     	int pb_n = 1;
     	for (int i = 1 ; i < toWrite.size() ; i++) {
     		def record = toWrite[i]
     		writer.writeEmptyElement("pb") // <pb/>
     		writer.writeAttribute("n", ""+pb_n++)
     		writer.writeAttribute("type", "record")
     		writer.writeStartElement(structureTag)
     		for (String att : structureMetadataColumnList) {
     			if (att in dateColumnTypeList) {
     				writeMetadataDate(record, att, writer)
     			} else {
     				writer.writeAttribute(AsciiUtils.buildAttributeId(att), record.get(att)) // struct
+    			}
+    		}
     		writer.writeCharacters("\n")
     		writer.writeStartElement("metadata")
     		writer.writeStartElement("list")
     		writer.writeAttribute("type", "unordered")
     		writer.writeCharacters("\n")
     		structureMetadataColumnList.each { att ->
     			writer.writeStartElement("item")
     			writer.writeCharacters(att+" : "+record.get(att).replaceAll("\n", ";"))
     			writer.writeEndElement() // item
     			writer.writeCharacters("\n")
+    		}
     		writer.writeEndElement() // list
     		writer.writeEndElement() // metadata
     		writer.writeCharacters("\n")
     		for (String att : structureContentColumnList) {
     			if (att in prefixesColumnTypeList) {
     				writePrefixTextContent(text, att, writer)
     			} else if (att in listColumnTypeList) {
     				writeListTextContent(text, att, writer)
     			} else {
     				writer.writeStartElement("p");
     				writer.writeAttribute("type", att.trim())
     				writer.writeAttribute("id", record.get(textIDColumn))
     				writer.writeCharacters("\n") // simple XML formating
     				writer.writeStartElement("head")
     				writer.writeStartElement("hi")
     				writer.writeCharacters(att+" : ")
     				writer.writeEndElement() // hi
     				writer.writeEndElement() // head
     				writer.writeCharacters(record.get(att)) // get textColumnList content
     				writer.writeEndElement() // t
     				writer.writeCharacters("\n") // simple XML formating
+    			}
+    		}
     		writer.writeEndElement() // struct
     		writer.writeCharacters("\n") // simple XML formating
+    	}
     	writer.writeEndElement() // text
     	writer.writeCharacters("\n") // simple XML formating
     	writer.writeEndElement() // TEI
     	writer.close()
     	output.close()
     	reader.close()
     } else {
     	// error
     	println "ERROR: '$id' text group with  no text line"
+    }
+    }
     def writeListTextContent(def record, def att, def writer) {
     writer.writeCharacters("\n")
     found = false
     def value = record.get(att)
     value.findAll( /(?s)([^\n]+?)[\n]/ ).each { desc ->
     	found = true
     	writer.writeCharacters("\t")
     	writer.writeStartElement("p")
     	writer.writeAttribute("rend", "list")
     	matches = (desc =~ /(?s)([^\n]+?)[\n]/)
     	writer.writeCharacters(matches[0][1])
     	writer.writeEndElement() // p
     	writer.writeCharacters("\n")
+    }
     if (!found) {
     	writer.writeCharacters("\t")
     	writer.writeStartElement("p")
     	writer.writeAttribute("rend", "no-list")
     	writer.writeCharacters(value)
     	writer.writeEndElement() // p
     	writer.writeCharacters("\n")
+    }
+    }
     def writePrefixTextContent(def record, def att, def writer) {
     writer.writeCharacters("\n")
     writer.writeStartElement("list")
     writer.writeAttribute("rend", "prefixes")
     writer.writeAttribute("type", "unordered")
     writer.writeCharacters("\n")
     found = false
     def value = record.get(att)
     value.findAll( /(?s)[A-Z]{3}:? *([^;\n]+?) +[;\n]/ ).each { desc ->
     	found = true
     	writer.writeCharacters("\t")
     	writer.writeStartElement("item")
     	matches = (desc =~ /(?s)([A-Z]{3}):? *([^;\n]+?) +[;\n]/)
     	writer.writeAttribute("type", matches[0][1])
     	writer.writeStartElement("span")
     	writer.writeCharacters(matches[0][1]+" ")
     	writer.writeEndElement() // span
     	writer.writeCharacters(matches[0][2])
     	writer.writeEndElement() // item
     	writer.writeCharacters("\n")
+    }
     if (!found) {
     	writer.writeCharacters(value)
+    }
     writer.writeEndElement() // list
     writer.writeCharacters("\n")
+    }
     def writeMetadataDate(def record, def att, def writer) {
     String value = record.get(att)
     String att_normalized = AsciiUtils.buildAttributeId(att)
     matches = (value =~ /([0-9]{2})\/([0-9]{2})\/([0-9]{4})/)
     writer.writeAttribute(att_normalized+"jour", matches[0][1])
     writer.writeAttribute(att_normalized+"joursemaine", new java.text.SimpleDateFormat('EEEE').format(Date.parse("dd/MM/yyyy", value)))
     writer.writeAttribute(att_normalized+"mois", matches[0][2])
     writer.writeAttribute(att_normalized+"annee", matches[0][3])
     writer.writeAttribute(att_normalized+"tri", matches[0][3]+"-"+matches[0][2]+"-"+matches[0][1])
+    }
     /*
      String name = inputFile.getName()
      int idx = name.lastIndexOf(".")
      if (idx > 0) name = name.substring(0, idx)
      */

     // Copyright © 2021 ENS Lyon
     // Licensed under the terms of the GNU General Public License version 3 (http://www.gnu.org/licenses/gpl-3.0.html)
     // @author mdecorde
     // @author sheiden
     package org.txm.macro.annotation
-...
     Project project = mcorpus.getProject()
     File txmDir = new File(project.getProjectDirectory(), "txm/"+mcorpus.getName())
     @Field @Option(name="outputDirectory", usage="Directory of resulting XML-TXM files", widget="Folder", required=true, def="result_directory")
     @Field @Option(name="outputDirectory", usage="Directory of resulting XML-TXM files", widget="Folder", required=true, def="")
     File outputDirectory
     @Field @Option(name="word_property", usage="The word property to move", widget="String", required=true, def="type")
     @Field @Option(name="word_property", usage="The word property to project", widget="String", required=true, def="type")
     String word_property
     @Field @Option(name="word_property_value_to_ignore", usage="The property value to ignore", widget="String", required=true, def="__undef__")
     String word_property_value_to_ignore
     @Field @Option(name="values_to_ignore_regex", usage="regex of values not to project", widget="String", required=true, def="")
     String values_to_ignore_regex
     @Field @Option(name="debug", usage="Afficher les messages de debug", widget="Boolean", required=true, def="false")
     def debug
     // Open the parameters input dialog box
     if (!ParametersDialog.open(this)) return
-...
     	return false
+    }
     values_to_ignore_regex = /$values_to_ignore_regex/
     for (Text text : project.getChildren(Text.class)) {
     	println "Text: "+text
-...
+    	}
     	XMLProcessor xp = new XMLProcessor(orig);
     	LocalNameHookActivator activator = new LocalNameHookActivator("w");
     	LocalNameHookActivator activator = new LocalNameHookActivator("w")
     	new DOMIdentityHook("word", activator, xp) {
     		@Override
     		public void processDom() {
     			//println dom
     			use(groovy.xml.dom.DOMCategory) {
     				def form = dom.form[0]
     				def anatype = dom.ana.findAll(){ a -> a['@type'] == "#$word_property"}
     				def anatype = dom.ana.findAll(){ a ->
     					if (debug && (a['@type'] == "#$word_property")) {
     						println 'a["@type"] = '+a["@type"]
     						println 'a.text() = '+a.text()
     						println 'a["@type"] == "#$word_property"'+" = "+(a['@type'] == "#$word_property")
     						println "values_to_ignore_regex = "+values_to_ignore_regex
     						println '!(a.text() ==~ values_to_ignore_regex))'+" = "+(!(a.text() ==~ values_to_ignore_regex))
     						println '((a["@type"] == "#$word_property") && !(a.text() ==~ values_to_ignore_regex)) = '+((a['@type'] == "#$word_property") && !(a.text() ==~ values_to_ignore_regex))
+    					}
     					return ((a['@type'] == "#$word_property") && !(a.text() ==~ values_to_ignore_regex))
+    				}
     //				println form.text()+" -> $anatype"
     				if (anatype.size() > 0) { // keep the word
     					anatype = anatype[0]
-...
     					anatype['@type'] = "#form"
     					anatype.setTextContent(s)
     				} else {
     					dom = null;
     					dom = null
+    				}
+    			}
+    		}
+    	}
     	xp.process(result)
+    }
+    }

Formats disponibles : Unified diff

Laboratoire ICAR » Plateforme TXM

Révision 3209