/ - Diff - Plateforme TXM - Forge du Centre Blaise Pascal

tmp/org.txm.groovy.core/src/groovy/org/txm/scripts/importer/limsi/limsiLoader.groovy (revision 3010)
65	65
66	66
67	67	//PARAMETERS
68		boolean removeInterviewer = false;//if true the transcription of speakers (en1 and enq2) defined in metadatas file will be ignored
69	68	boolean includeComments = false;
70	69	boolean ignoreTranscriberMetadata = false;
71	70	int csvHeaderNumber = 1;

     	/** The debug. */
     	boolean debug = false;
     	/** The removeinterviewers. */
     	boolean removeinterviewers = false;
     	/** The indexInterviewer: index interviewer speech if true. */
     	boolean indexInterviewer = true;
     	/** The trans. */
     	HashMap<String, ArrayList<Pair<String, String>>> trans;
-...
     	HashMap<String, ArrayList<Pair<String, String>>> topics;
     	/** The interviewers. */
     	/** The interviewers regex */
     	def interviewers = null
     	static HashSet<String> sectionAttrs;
-...
     	 * @param value the value
     	 * @return the java.lang. object
     	 */
     	public removeInterviewers(boolean value) {
     		this.removeinterviewers = value;
     	public setIndexInterviewer(boolean value) {
     		this.indexInterviewer = value;
+    	}
     	File cqpFile
-...
     							vForm = vForm.replaceAll("\n", "").replaceAll("&", "&amp;").replaceAll("<", "&lt;");
     							if (removeinterviewers) {
     								if (!interviewers.matches(u_name))
     							if (!indexInterviewer) {
     								if (!interviewers.matches(u_name)) {
     									output.write(vForm+"\t"+wordid+vAna+"\n");
+    								}
     							} else {
     								output.write(vForm+"\t"+wordid+vAna+"\n");
+    							}

     						cpb.tick()
     						if (!metadatas.injectMetadatasInXml(infile, outfile, "text")) {
     							println("Failed to inject metadata in "+infile)
     							outfile.delete()
     							//outfile.delete()
+    						}
     						if (!infile.delete()) {
     							println "ERROR: could not delete $infile"

     import org.txm.utils.xml.DomUtils;
     //PARAMETERS
     boolean removeInterviewer = false;//if true the transcription of speakers (en1 and enq2) defined in metadatas file will be ignored
     boolean indexInterviewer = true;//if true the transcription of speakers (en1 and enq2) defined in metadatas file will be ignored
     boolean includeComments = false;
     boolean ignoreTranscriberMetadata = false;
     //int csvHeaderNumber = 1;
-...
     	props.load(input);
     	input.close();
     	if (props.getProperty("removeInterviewer") != null)
     		removeInterviewer = Boolean.parseBoolean(props.get("removeInterviewer").toString());
     	if (props.getProperty("indexInterviewer") != null)
     		indexInterviewer = Boolean.parseBoolean(props.get("indexInterviewer").toString());
     	if (props.getProperty("ignoreTranscriberMetadata") != null)
     		ignoreTranscriberMetadata = Boolean.parseBoolean(props.get("ignoreTranscriberMetadata").toString());
     //	if (props.getProperty("metadataList") != null)
-...
     	//	includeComments = props.get("includeComments").toString();
     	println "import properties: "
     	println " removeInterviewer: "+removeInterviewer
     	println " indexInterviewer: "+indexInterviewer
     	println " ignoreTranscriberMetadata: "+ignoreTranscriberMetadata
     //	println " metadataToKeep: "+metadatasToKeep
     //	println " ignored csvHeaderSize: "+csvHeaderNumber
-...
     		if (MONITOR != null) MONITOR.worked(5)
     		if (MONITOR != null && MONITOR.isCanceled()) { return MONITOR.done(); }
     		println "-- Remove interviewer: "+removeInterviewer
     		if (removeInterviewer) 	{
     			if (metadatas == null) {
     				println "Can't remove interviewer without a metadata.csv file defining who are the interviewers."
     		println "-- Remove interviewer: "+(!indexInterviewer)
     		if (!indexInterviewer) 	{
     			if (metadatas == null || !metadatas.headersList.contains("interviewer-id-regex")) {
     				println "Can't remove interviewer without a metadata.csv file defining who are the interviewers. Add the 'interviewer-id-regex' column"
     			} else {
     				println "Removing some speakers in "+txmDir.listFiles().length+" file(s)"
     				for (File infile : txmDir.listFiles()) {
-...
     					ArrayList<Pair<String, String>> metas = metadatas.get(filename)
     					//println "filename=$filename metas= $metas"
     					for (Pair p : metas) {
     						if (p.getFirst().startsWith("out-of-text-to-edit-locutor")) {
     						if (p.getFirst().startsWith("interviewer-id-regex")) {
     							new RemoveSpeaker(infile, infile, p.getSecond())
+    						}
+    					}
-...
     	def comp = new compiler()
     	if(debug) comp.setDebug();
     	comp.removeInterviewers(removeInterviewer);
     	comp.setIndexInterviewer(indexInterviewer);
     	comp.setIgnoreTranscriberMetadata(ignoreTranscriberMetadata);
     	if (!comp.run(project, xmltxmFiles, corpusname, "default", binDir)) {
     		println "Failed to compile files";

     import org.txm.utils.AsciiUtils;
     import org.txm.utils.CsvReader;
     import org.txm.utils.Pair;
     import org.txm.utils.io.FileCopy;
     import org.txm.utils.logger.Log;
     import org.txm.utils.xml.DomUtils;
     import org.w3c.dom.Document;
-...
     	/** The ns context. */
     	NamespaceContext nsContext = new PersonalNamespaceContext();
     	private File inputMetadataFile;
     	/**
     	 * Instantiates a new metadatas.
+    	 *
-...
     	 */
     	public Metadatas(File inputFile, String encoding, String separator, String txtseparator, int nbheaderline) {
     		this.inputMetadataFile = inputFile;
     		File xmlfile = new File(inputFile.getParent(), inputFile.getName() + ".xml");
     		// println "create xml file version of "+csvfile+" : "+xmlfile
     		try {
-...
     	public boolean injectMetadatasInXml(File infile, File outfile, String tag, String namespace) throws MalformedURLException, IOException, XMLStreamException {
     		String key = infile.getName();
     		if (key.lastIndexOf(".") > 0)
     		if (key.lastIndexOf(".") > 0) {
     			key = key.substring(0, key.lastIndexOf("."));
+    		}
     		ArrayList<org.txm.metadatas.Entry> metas = get(key);
     		if (metas == null) {
     			System.out.println("\nError: can't find metadata for text of id=" + key);
     			System.out.println("Maybe the metadata file doesn't have the right format (comma or tab separated values?)");
     			return false;
     			System.out.println("\nWarning: can't find metadata for text of id=" + key);
     			if (this.inputMetadataFile != null && inputMetadataFile.getName().toLowerCase().endsWith(".csv")) {
     				System.out.println("Maybe the metadata file doesn't have the right format (comma or tab separated values?)");
+    			}
     			if (!infile.equals(outfile)) {
     				FileCopy.copy(infile, outfile);
+    			}
     			return true;
+    		}
     		// ensure attribute names format

Laboratoire ICAR » Plateforme TXM

Révision 3010