/ - Diff - Plateforme TXM - Forge du Centre Blaise Pascal

TXM/trunk/org.txm.groovy.core/src/groovy/org/txm/scripts/importer/transcriber/importer.groovy (revision 3344)
188	188	try {
189	189	TranscriberTokenizer tokenizer = new TranscriberTokenizer(pfile, tfile, lang)
190	190	tokenizer.setRetokenize("true" == project.getTokenizerParameter("doRetokenizeStep", "false"))
	191	tokenizer.setDoBuildWordIDs("true" == project.getTokenizerParameter("doBuildWordIds", "true"))
191	192	if (!tokenizer.process()) {
192	193	println("Failed to tokenize "+pfile)
193	194	}

     		new File(module.getBinaryDirectory(),"tokenized").deleteDir()
     		new File(module.getBinaryDirectory(),"tokenized").mkdir()
     		boolean retokenize = "true" == module.getProject().getTokenizerParameter("doRetokenizeStep", "false")
     		String outSideTextTagsRegex = "";
     		String outSideTextTagsAndKeepContentRegex = "";
     		String noteRegex = "";
-...
     						tokenizer.setStringTokenizer(stringTokenizer)
+    					}
+    				}
     				tokenizer.setRetokenize(retokenize)
     				tokenizer.setRetokenize("true" == project.getTokenizerParameter("doRetokenizeStep", "false"))
     				tokenizer.setDoBuildWordIDs("true" == project.getTokenizerParameter("doBuildWordIds", "true"))
     				if (outSideTextTagsRegex != null && outSideTextTagsRegex.trim().length() > 0) {
     					tokenizer.setOutSideTextTags(outSideTextTagsRegex)
+    				}

     				File infile = f
     				File outfile = new File(binDir, "tokenized/"+f.getName())
     				SimpleTokenizerXml tokenizer = new SimpleTokenizerXml(infile, outfile, TokenizerClasses.newTokenizerClasses(project.getPreferencesScope(), lang))
     				boolean retokenize = "true" == project.getTokenizerParameter("doRetokenizeStep", "false")
     				tokenizer.setRetokenize(retokenize)
     				tokenizer.setRetokenize("true" == project.getTokenizerParameter("doRetokenizeStep", "false"))
     				tokenizer.setDoBuildWordIDs("true" == project.getTokenizerParameter("doBuildWordIds", "true"))
     				if (ignoredElements != null && ignoredElements.trim().length() > 0) {
     					tokenizer.setOutSideTextTagsAndKeepContent(ignoredElements)
+    				}

     	StringTokenizer stringTokenizer;
     	boolean retokenize = false
     	boolean doBuildWordIDs = true
     	ArrayList noIdWrittenErrors = new ArrayList()
     	LinkedHashMap<String, String>retokenizedWordProperties = new LinkedHashMap()
     	/** The word_tags. */
-...
     		if (event == XMLStreamConstants.START_ELEMENT ) {
     			localname = parser.getLocalName();
     			if (wordid != null) {
     			if (wordid != null) { // normalizing word elements
     				localname = word_element_to_create;
+    			}
-...
+    				}
+    			}
     			String attrprefix, attname;
     			boolean hasId = false;
     			//boolean hasType = false
     			boolean hasN = false
     			for (int i = 0 ; i < parser.getAttributeCount() ; i++) {
     				attname = parser.getAttributeLocalName(i);
     				attrprefix = parser.getAttributePrefix(i);
     				if ("id".equals(attname)) hasId = true;
     				//if ("type".equals(attname)) hasType = true;
     				if ("n".equals(attname)) hasN = true;
     				if (attrprefix != null && attrprefix.length() > 0) {
     					writer.writeAttribute(attrprefix+":"+attname, parser.getAttributeValue(i))
     				} else {
     					writer.writeAttribute(attname, parser.getAttributeValue(i))
     			if (word_element_to_create.equals(localname)) { // the localname has been normalized to word_element_to_create
     				writeWordAttributes(true)
     			} else {
     				String attrprefix, attname;
     				for (int i = 0 ; i < parser.getAttributeCount() ; i++) {
     					attname = parser.getAttributeLocalName(i);
     					attrprefix = parser.getAttributePrefix(i);
     					if (attrprefix != null && attrprefix.length() > 0) {
     						writer.writeAttribute(attrprefix+":"+attname, parser.getAttributeValue(i))
     					} else {
     						writer.writeAttribute(attname, parser.getAttributeValue(i))
+    					}
+    				}
+    			}
     			if (wordid != null && !hasId && localname == word_element_to_create) {
     				writer.writeAttribute("id", "w_"+filename+"_"+wordcount);
+    			}
     			if (!hasN && localname == word_element_to_create) {
     				writer.writeAttribute("n", ""+wordcount);
+    			}
     			if (!reg_word_tags.matcher(localname).matches()) {
     				writer.writeCharacters("\n");
+    			}
-...
     				previousEvent = event;
+    			}
     			if (noIdWrittenErrors.size() > 0) {
     				println "Missing word IDs in source XML: "+noIdWrittenErrors.join(", ")
+    			}
     			parser.close()
     			writer.close();
     			output.close();
-...
     		this.retokenize = retokenize
+    	}
     	public void setDoBuildWordIDs(boolean doBuildWordIDs) {
     		this.doBuildWordIDs = doBuildWordIDs
+    	}
     	/**
     	 * Set the element and content to ignore
+    	 *
-...
     			for (def word : words) {
     				wordcount++;
     				writer.writeStartElement(word_element_to_create);
     				writeWordAttributes();// id
     				writeWordAttributes(false);// id
     				writer.writeCharacters(word);
     				writer.writeEndElement();
     				writer.writeCharacters("\n");
-...
+    	 *
     	 * @return the java.lang. object
     	 */
     	protected writeWordAttributes() {
     		writer.writeAttribute("id", "w_"+filename+"_"+wordcount);
     		writer.writeAttribute("n",""+wordcount);
     	protected writeWordAttributes(boolean fromParser) {
     		boolean idWritten = doBuildWordIDs;
     		if (doBuildWordIDs) {
     			writer.writeAttribute("id", "w_"+filename+"_"+wordcount);
     			writer.writeAttribute("n",""+wordcount);
+    		}
     		// rewrite the properties of the retokenized word
     		for (String attr : retokenizedWordProperties.keySet()) {
     			if ("id" == attr) {
     				writer.writeAttribute("old-id", retokenizedWordProperties[attr]);
     			} else if ("n" == attr) {
     				writer.writeAttribute("old-n", retokenizedWordProperties[attr]);
     			if (doBuildWordIDs && "id" == attr) {
     				writer.writeAttribute("foreign-id", retokenizedWordProperties[attr]);
     			} else if (doBuildWordIDs && "n" == attr) {
     				writer.writeAttribute("foreign-n", retokenizedWordProperties[attr]);
     			} else {
     				writer.writeAttribute(attr, retokenizedWordProperties[attr]);
     				if ("id" == attr) idWritten = true;
+    			}
+    		}
     		if (fromParser) {
     			String attrprefix, attname;
     			for (int i = 0 ; i < parser.getAttributeCount() ; i++) {
     				attname = parser.getAttributeLocalName(i);
     				attrprefix = parser.getAttributePrefix(i);
     				if (doBuildWordIDs && "id" == attname) {
     					writer.writeAttribute("foreign-id", parser.getAttributeValue(i));
     				} else if (doBuildWordIDs && "n" == attname) {
     					writer.writeAttribute("foreign-n", parser.getAttributeValue(i));
     				} else {
     					if (attrprefix != null && attrprefix.length() > 0) {
     						writer.writeAttribute(attrprefix+":"+attname, parser.getAttributeValue(i))
     					} else {
     						writer.writeAttribute(attname, parser.getAttributeValue(i))
+    					}
     					if ("id" == attname) idWritten = true;
+    				}
+    			}
+    		}
     		if (!idWritten && noIdWrittenErrors.size() < 20) {
     			noIdWrittenErrors << parser.getLocation().toString();
     			if (noIdWrittenErrors.size() == 20) {
     				noIdWrittenErrors << "...";
+    			}
+    		}
+    	}
     	public void setStartTag(String tag)

     	Button doRetokenizeStepButton;
     	Button doBuildWordIDsButton;
     	Text textElisions;
     	Text textPuncts;
-...
     		gdata.colspan = 3;
     		doRetokenizeStepButton.setLayoutData(gdata);
     		doBuildWordIDsButton = toolkit.createButton(sectionClient, "Build word identifiers", SWT.CHECK);
     		doBuildWordIDsButton.setToolTipText(TXMUIMessages.performWordSegmentationWithinWord);
     		doBuildWordIDsButton.setSelection(true);
     		doBuildWordIDsButton.setVisible(moduleParams.get(ImportModuleCustomization.ADVANCEDTOKENIZER));
     		gdata = new TableWrapData(TableWrapData.LEFT, TableWrapData.FILL);
     		gdata.colspan = 3;
     		doBuildWordIDsButton.setLayoutData(gdata);
     		Label l0 = toolkit.createLabel(sectionClient, TXMUIMessages.separatorCharacters, SWT.WRAP);
     		gdata = new TableWrapData(TableWrapData.LEFT, TableWrapData.FILL);
-...
     	protected void updateFieldsEnableState() {
     		boolean enabled = doTokenizeStepButton.getSelection();
     		doRetokenizeStepButton.setEnabled(enabled);
     		doBuildWordIDsButton.setEnabled(enabled);
     		textWhiteSpaces.setEnabled(enabled);
     		textPuncts.setEnabled(enabled);
     		textElisions.setEnabled(enabled);
-...
     		doTokenizeStepButton.setSelection(doTokenizeStep);
     		boolean doRetokenizeStep = "true".equals(project.getTokenizerParameter("doRetokenizeStep", "false")); //$NON-NLS-1$ //$NON-NLS-2$ //$NON-NLS-3$
     		doRetokenizeStepButton.setSelection(doRetokenizeStep);
     		boolean doBuildWordIds = "true".equals(project.getTokenizerParameter("doBuildWordIds", "true")); //$NON-NLS-1$ //$NON-NLS-2$ //$NON-NLS-3$
     		doBuildWordIDsButton.setSelection(doBuildWordIds);
     		updateFieldsEnableState();
     		// HashMap<String, TTest> additionalTests = project.getTokenizerAdditionalTests();
-...
     		project.addTokenizerParameter("word_tags", wordElementText.getText()); //$NON-NLS-1$
     		project.addTokenizerParameter("doTokenizeStep", "" + doTokenizeStepButton.getSelection()); //$NON-NLS-1$ //$NON-NLS-2$
     		project.addTokenizerParameter("doRetokenizeStep", "" + doRetokenizeStepButton.getSelection()); //$NON-NLS-1$ //$NON-NLS-2$
     		project.addTokenizerParameter("doBuildWordIds", "" + doBuildWordIDsButton.getSelection()); //$NON-NLS-1$ //$NON-NLS-2$
     		project.addTokenizerParameter("onlyThoseTests", "false"); //$NON-NLS-1$ //$NON-NLS-2$
     		// project.setTokenizerAdditionalTests(additionalTokenizerTests); //$NON-NLS-1$

Laboratoire ICAR » Plateforme TXM

Révision 3344