/ - Diff - Plateforme TXM - Forge du Centre Blaise Pascal

Révision 4018

+     *
      */
     class CoNLLUImporter extends XTZImporter {
     	public CoNLLUImporter(ImportModule module) {
     		super(module)
+    	}
     	public final String merge(String orig, def sss) {
     		int n = 0;
     		for (String s : sss) {
     			if (s != "" && s != "_") {
     				def ssset = new HashSet(sss);
     				if (ssset.size() == 1) return ssset.join(".")
     				return sss.join(".")
+    			}
+    		}
     		return orig;
+    	}
     	@Override
     	public void process() {
     		File conlluSrcDirectory = inputDirectory
     		boolean usenewdocid =  "true".equals(UDPreferences.getInstance().getProjectPreferenceValue(project, UDPreferences.IMPORT_USE_NEW_DOC_ID)); // THE conllu -> Tiger XSL MUST HAVE THE SAME BEHAVIOR BEFORE //
     		if (usenewdocid) {
     			conlluSrcDirectory = new File(outputDirectory.getParentFile().getParentFile(), "conllu")
     			conlluSrcDirectory.deleteDir()
     			conlluSrcDirectory.mkdirs()
     			if (!splitCoNLLUFiles(inputDirectory, conlluSrcDirectory, project)) {
     				return
+    			}
+    		}
     		def files = conlluSrcDirectory.listFiles()
     		files.sort()
     		// Keep or not contractions
     		String contractionsManagement =  UDPreferences.getInstance().getProjectPreferenceValue(project, UDPreferences.CONTRACTIONS_MANAGEMENT, UDPreferences.getInstance().getString(UDPreferences.CONTRACTIONS_MANAGEMENT));
     			println "Contractions managment ($contractionsManagement) & add XmlId if necessary & remove empty nodes"
     			ConsoleProgressBar cpb_texts = new ConsoleProgressBar(files.size())
     			for (File conlluFile : files) {
     				cpb_texts.tick()
     				if (conlluFile.getName().endsWith(".conllu")) {
     					String textid = FileUtils.stripExtension(conlluFile)
     					int wcounter = 1;
     		println "Contractions managment ($contractionsManagement) & add XmlId if necessary & remove empty nodes"
     		ConsoleProgressBar cpb_texts = new ConsoleProgressBar(files.size())
     		for (File conlluFile : files) {
     			cpb_texts.tick()
     			if (conlluFile.getName().endsWith(".conllu")) {
     				String textid = FileUtils.stripExtension(conlluFile)
     				int wcounter = 1;
     				ArrayList<String> lines = IOUtils.getLines(conlluFile, "UTF-8");
     				for (int i = 0 ; i < lines.size() ; i++) {
     					String line = lines[i]
     					ArrayList<String> lines = IOUtils.getLines(conlluFile, "UTF-8");
     					if (line.length() == 0 || line.startsWith("#") || !line.contains("\t")) continue;
     					def temp_multiwords = [:]
     					for (int i = 0 ; i < lines.size() ; i++) {
     						String line = lines[i]
     						if (line.length() == 0 || line.startsWith("#") || !line.contains("\t")) continue;
     						def split = line.split("\t", ImportCoNLLUAnnotations.UD_PROPERTY_NAMES.length);
     						if (split[-1] != null && !split[-1].contains("XmlId=")) {
     							if (split[-1] == "_") {
     								split[-1] = "XmlId=w_"+textid+"_"+(wcounter++)
     							} else {
     								split[-1] += "|XmlId=w_"+textid+"_"+(wcounter++)
     					def split = line.split("\t", ImportCoNLLUAnnotations.UD_PROPERTY_NAMES.length);
     					if (split[0].contains(".")) {
     						//println "REMOVE EMPTY NODE: $split : "+
     						lines.remove(i)
     						i--
     						continue; // next !
+    					}
+    				}
     				def temp_multiwords = [:]
     				for (int i = 0 ; i < lines.size() ; i++) {
     					String line = lines[i]
     					if (line.length() == 0 || line.startsWith("#") || !line.contains("\t")) continue;
     					def split = line.split("\t", ImportCoNLLUAnnotations.UD_PROPERTY_NAMES.length);
     					if (split[-1] != null && !split[-1].contains("XmlId=")) {
     						if (split[-1] == "_") {
     							split[-1] = "XmlId=w_"+textid+"_"+(wcounter++)
     						} else {
     							split[-1] += "|XmlId=w_"+textid+"_"+(wcounter++)
+    						}
+    					}
     					if (contractionsManagement == UDPreferences.ALL) {
     						// ok on fait rien
     					} else if (contractionsManagement == UDPreferences.SYNTAX) {
     						if (split[0].contains("-")) {
     							// stores the syntatic word id and the ortographic word properties
     							temp_multiwords = [:]
     							int n1 = Integer.parseInt(split[0].substring(0,  split[0].indexOf("-")));
     							int n2 = Integer.parseInt(split[0].substring(1 + split[0].indexOf("-")));
     							for (int ii = n1 ; ii <= n2 ; ii++) {
     								temp_multiwords[""+ii] = split;
+    							}
+    						}
     						if (split[0].contains(".")) {
     							//println "REMOVE EMPTY NODE: $split : "+
     							//println "REMOVE - $split"
     							lines.remove(i)
     							i--
     							continue; // next !
     							continue; /// next !
     						} else if (temp_multiwords.containsKey(split[0])) { // it's a syntactic word of an orthographic word
     							def split_ortho = temp_multiwords.remove(split[0])
     							if (split[9].length() > 0) split[9] += "|"
     							split[9] += "multiword="+split_ortho[1] // the orthographic form
+    						}
     						if (contractionsManagement == UDPreferences.ALL) {
     							// ok on fait rien
     						} else if (contractionsManagement == UDPreferences.SYNTAX) {
     							if (split[0].contains("-")) {
     								// stores the syntatic word id and the ortographic word properties
     								temp_multiwords = [:]
     								int n1 = Integer.parseInt(split[0].substring(0,  split[0].indexOf("-")));
     								int n2 = Integer.parseInt(split[0].substring(1 + split[0].indexOf("-")));
     								for (int ii = n1 ; ii <= n2 ; ii++) {
     									temp_multiwords[""+ii] = split;
+    								}
     								//println "REMOVE - $split"
     								lines.remove(i)
     								i--
     								continue; /// next !
     							} else if (temp_multiwords.containsKey(split[0])) { // it's a syntactic word of an orthographic word
     								def split_ortho = temp_multiwords.remove(split[0])
     								if (split[9].length() > 0) split[9] += "|"
     								split[9] += "multiword="+split_ortho[1] // the orthographic form
+    							}
     						} else if (contractionsManagement == UDPreferences.SURFACE) {
     							if (split[0].contains("-")) {
     								int n1 = Integer.parseInt(split[0].substring(0,  split[0].indexOf("-")));
     								int n2 = Integer.parseInt(split[0].substring(1 + split[0].indexOf("-")));
     								int n =  n2 - n1
     								split[0] = ""+n1
     					} else if (contractionsManagement == UDPreferences.SURFACE) {
     						if (split[0].contains("-")) {
     							int n1 = Integer.parseInt(split[0].substring(0,  split[0].indexOf("-")));
     							int n2 = Integer.parseInt(split[0].substring(1 + split[0].indexOf("-")));
     							int n =  n2 - n1
     							//split[0] = ""+n1
     							// before merging and deleting words, check if they are the right ones
     							if (lines[i+1].startsWith(""+n1+"\t") && lines[i+n+1].startsWith(""+n2+"\t")) {
     								def splits = []
     								for (int j = 0 ; j <= n ;j++) {
     									def tmp = lines[i+j+1].split("\t", ImportCoNLLUAnnotations.UD_PROPERTY_NAMES.length);
     									if (tmp[0].contains(".")) {
     										//println "PRE-REMOVE EMPTY NODE: $split : "+
     										lines.remove(i+j)
     										j--
     										continue // next token
+    									}
     									splits << tmp
+    								}
     								for (int j = 2 ; j < 8 ; j++) {
     									split[j] = merge(split[j], splits.collect(){it[j]})
+    								}
     								//println "REMOVE non- $split"
     								for (int j = 0 ; j <= n ;j++) {
     									lines.remove(i+1)
+    								}
     								//println "splits=$splits"
+    							}
     							//println "splits=$splits"
+    						}
     						lines[i] = split.join("\t") // rebuild the line
+    					}
     					IOUtils.write(conlluFile, lines.join("\n") + "\n") // CoNLLU needs the last line
     					lines[i] = split.join("\t") // rebuild the line
+    				}
     				IOUtils.write(conlluFile, lines.join("\n") + "\n") // CoNLLU needs the last line
+    			}
     			cpb_texts.done()
     //		// Fix missing XmlId in conllu files
     //		println "Setting word XmlID if necessary"
     //		ConsoleProgressBar cpb_texts = new ConsoleProgressBar(files.size())
     //		for (File conlluFile : files) {
     //			cpb_texts.tick()
     //			if (conlluFile.getName().endsWith(".conllu")) {
     //				String textid = FileUtils.stripExtension(conlluFile)
     //				int wcounter = 1;
     //				ArrayList<String> lines = IOUtils.getLines(conlluFile, "UTF-8");
     //				for (int i = 0 ; i < lines.size() ; i++) {
     //					String line = lines[i]
     //					if (line.length() == 0 || line.startsWith("#") || !line.contains("\t")) continue;
     //
     //					def split = line.split("\t", ImportCoNLLUAnnotations.UD_PROPERTY_NAMES.length);
     //					if (split[-1] != null && !split[-1].contains("XmlId=")) {
     //						split[-1] += "|XmlId=w_"+textid+"_"+(wcounter++)
     //						lines[i] = split.join("\t")
     //					}
     //
     //				}
     //				IOUtils.write(conlluFile, lines.join("\n") + "\n")
     //			}
     //		}
     //		cpb_texts.done()
+    		}
     		cpb_texts.done()
     		//		// Fix missing XmlId in conllu files
     		//		println "Setting word XmlID if necessary"
     		//		ConsoleProgressBar cpb_texts = new ConsoleProgressBar(files.size())
     		//		for (File conlluFile : files) {
     		//			cpb_texts.tick()
     		//			if (conlluFile.getName().endsWith(".conllu")) {
     		//				String textid = FileUtils.stripExtension(conlluFile)
     		//				int wcounter = 1;
     		//				ArrayList<String> lines = IOUtils.getLines(conlluFile, "UTF-8");
     		//				for (int i = 0 ; i < lines.size() ; i++) {
     		//					String line = lines[i]
     		//					if (line.length() == 0 || line.startsWith("#") || !line.contains("\t")) continue;
     		//
     		//					def split = line.split("\t", ImportCoNLLUAnnotations.UD_PROPERTY_NAMES.length);
     		//					if (split[-1] != null && !split[-1].contains("XmlId=")) {
     		//						split[-1] += "|XmlId=w_"+textid+"_"+(wcounter++)
     		//						lines[i] = split.join("\t")
     		//					}
     		//
     		//				}
     		//				IOUtils.write(conlluFile, lines.join("\n") + "\n")
     		//			}
     		//		}
     		//		cpb_texts.done()
     		File metadataFile = Metadatas.findMetadataFile(module.sourceDirectory)
     		File srcDirectory = new File(outputDirectory.getParentFile().getParentFile(), "conllu2tei")
     		srcDirectory.deleteDir()
     		srcDirectory.mkdirs()
     		if (metadataFile != null && metadataFile.exists()) {
     			File metadataFile2 = new File(srcDirectory, metadataFile.getName())
     			FileCopy.copy(metadataFile, metadataFile2)
+    		}
     		println "Convert CoNLL-U to XML-TEI..."
     		convertCoNLLU2TEI(conlluSrcDirectory, srcDirectory, project)
     		inputDirectory = srcDirectory // switch files source directory
     		super.process()
+    	}
     	public static def splitCoNLLUFiles(File inputDirectory, File srcDirectory, def project) {
     		def files = inputDirectory.listFiles(new FilenameFilter() {
     			boolean accept(File dir, String name) {
     				return name.toLowerCase().endsWith(".conllu")
+    			}
     		});
     					boolean accept(File dir, String name) {
     						return name.toLowerCase().endsWith(".conllu")
+    					}
     				});
     		if (files == null) {
     			println "Aborting. No CONLL file found in $inputDirectory."
     			return false
+    		}
     		files.sort()
     		ConsoleProgressBar cpb_texts = new ConsoleProgressBar(files.size())
     		println "Splitting CoNLL-U files..."
     		for (File master : files) {
     			cpb_texts.tick()
     			if (!master.getName().endsWith(".conllu")) {
     				continue
+    			}
     			String orig_text_id = FileUtils.stripExtension(master)
     			String current_text_id = FileUtils.stripExtension(master)
     			File conlluFile = new File(srcDirectory, current_text_id+".conllu")
     			def writer = conlluFile.newWriter("UTF-8", true)
     			master.eachLine("UTF-8") { line ->
     				if (line.startsWith("# newdoc id = ")) {
     					String text_id = line.substring("# newdoc id = ".length())
     					if (!text_id.equals(current_text_id)) {
     						writer.close()
-...
     						writer = conlluFile.newWriter("UTF-8", true)
+    					}
+    				}
     				writer.println(line)
+    			}
     			writer.close()
-...
     		cpb_texts.done()
     		return true
+    	}
     	public static def convertCoNLLU2TEI(File inputDirectory, File srcDirectory, def project) {
     		def files = inputDirectory.listFiles()
     		if (files == null) {
     			println "Aborting. No CONLL file found in $inputDirectory."
     			return false
+    		}
     		files.sort()
     		def properties = Arrays.asList(ImportCoNLLUAnnotations.UD_PROPERTY_NAMES)
     		String prefix = UDPreferences.getInstance().getProjectPreferenceValue(project, UDPreferences.UDPREFIX, UDPreferences.getInstance().getString(UDPreferences.UDPREFIX));
     		UDPreferences.getInstance().setProjectPreferenceValue(project, UDPreferences.UDPREFIX, prefix); // copy the current preference into the corpus preference
     		def headPropertiesToProject = UDPreferences.getInstance().getProjectPreferenceValue(project, UDPreferences.IMPORT_HEAD_TO_PROJECT, UDPreferences.getInstance().getString(UDPreferences.IMPORT_HEAD_TO_PROJECT)).split(",") as Set
     		def depsPropertiesToProject = UDPreferences.getInstance().getProjectPreferenceValue(project, UDPreferences.IMPORT_DEPS_TO_PROJECT, UDPreferences.getInstance().getString(UDPreferences.IMPORT_DEPS_TO_PROJECT)).split(",") as Set
     		def formatSentences = "true" == UDPreferences.getInstance().getProjectPreferenceValue(project, UDPreferences.IMPORT_PRINT_NEWLINES_AFTER_SENTENCES, ""+UDPreferences.getInstance().getString(UDPreferences.IMPORT_PRINT_NEWLINES_AFTER_SENTENCES))
     		String contractionsManagement =  UDPreferences.getInstance().getProjectPreferenceValue(project, UDPreferences.CONTRACTIONS_MANAGEMENT, UDPreferences.getInstance().getString(UDPreferences.CONTRACTIONS_MANAGEMENT));
     		ConsoleProgressBar cpb_texts = new ConsoleProgressBar(files.size())
     		println "Parsing CoNLL-U files..."
     		for (File master : files) {
     			cpb_texts.tick()
     			if (!master.getName().endsWith(".conllu")) {
     				continue
+    			}
     			def content = [] // list of sentence
     			String text_id = FileUtils.stripExtension(master)
     			String sent_id = ""
     			String par_id = "1"
     			def comments = [] // /text/par/sent
     			def words = []
     			master.eachLine("UTF-8") { line ->
     				if (line.startsWith("# newdoc id = ")) {
     					// already set or ignored
     				} else if (line.startsWith("# sent_id = ")) {
-...
     					if (words.size() > 0) {
     						def sentence = [par_id, sent_id, words, comments]
     						content.add(sentence)
     						sent_id = ""
     						par_id = "1"
     						comments = []
     						words = []
+    					}
     				} else {
     					LinkedHashMap<String, String> wProperties = new LinkedHashMap<String, String>()
     					def split = line.split("\t", ImportCoNLLUAnnotations.UD_PROPERTY_NAMES.length)
     					if (split.size() == properties.size()) {
     						String id = split[0]
     						for (int i = 0 ; i < split.size() ; i++) {
     							wProperties[properties[i]] = split[i]
+    						}
     //						if (wProperties.get("id").equals("1") || wProperties.get("id").startsWith("1-")) { // it's a new sentence, store the current if any and starts a new sentence
     //							if (words.size() > 0) {
     //								def sentence = [par_id, sent_id, words, comments]
     //								content.add(sentence)
     //
     //								sent_id = ""
     //								par_id = "1"
     //								comments = []
     //								words = []
     //							}
     //						}
     						//						if (wProperties.get("id").equals("1") || wProperties.get("id").startsWith("1-")) { // it's a new sentence, store the current if any and starts a new sentence
     						//							if (words.size() > 0) {
     						//								def sentence = [par_id, sent_id, words, comments]
     						//								content.add(sentence)
     						//
     						//								sent_id = ""
     						//								par_id = "1"
     						//								comments = []
     						//								words = []
     						//							}
     						//						}
     						if (wProperties[properties[0]].contains(".")) { // id
     							// empty node
     						} else {
-...
+    					}
+    				}
+    			}
     			if (words.size() > 0) { // last sentence ?
     				def sentence = [par_id, sent_id, words, comments]
     				content.add(sentence)
+    			}
     			if (content.size() == 0) {
     				continue;
+    			}
     			//println "${content.size()} sentences found."
     			File xmlFile = new File(srcDirectory, text_id+".xml")
     			// println "xmlFile=$xmlFile"
     			BufferedOutputStream output = new BufferedOutputStream(new FileOutputStream(xmlFile))
     			XMLOutputFactory factory = XMLOutputFactory.newInstance()
     			XMLStreamWriter writer = factory.createXMLStreamWriter(output, "UTF-8")
     			writer.writeStartDocument("UTF-8","1.0")
     			writer.writeStartElement ("TEI")
     			writer.writeDefaultNamespace("http://www.tei-c.org/ns/1.0")
-...
     			writer.writeEndElement()
     			writer.writeCharacters("\n")
     			writer.writeStartElement ("text")
     			writer.writeCharacters("\n")
     			String current_par_id = null
     			int wordCounter = 0
     			for (def sentence : content) { // for all paragraph of the current text
     				par_id = sentence[0]
     				sent_id = sentence[1]
     				words = sentence[2]
     				comments = sentence[3]
     				if (current_par_id == null || par_id != current_par_id) {
     					if (current_par_id != null) {
     						writer.writeEndElement() // p
-...
     					writer.writeStartElement ("p")
     					writer.writeAttribute("id", par_id)
     					writer.writeCharacters("\n")
     					current_par_id = par_id
+    				}
     				writer.writeStartElement ("s")
     				writer.writeAttribute("id", sent_id)
     				writer.writeCharacters("\n")
     				for (def comment : comments) {
     					writer.writeComment(comment.replace("--", "&#x2212;&#x2212;"))
     					writer.writeCharacters("\n")
+    				}
     				if (headPropertiesToProject.size() > 0 || depsPropertiesToProject.size() > 0) {
     					LinkedHashMap sentencehash = new LinkedHashMap()
     					//println "WORDS="+words
-...
     					//println "SENTENCE="+sentencehash
     					ImportCoNLLUAnnotations.buildPropertiesProjections(sentencehash, headPropertiesToProject, depsPropertiesToProject)
+    				}
     				if (formatSentences) {
     					 writer.writeStartElement("p")
     					 writer.writeAttribute("type", "sentence")
     					 writer.writeAttribute("style", "--before-content:'$sent_id';")
     					writer.writeStartElement("p")
     					writer.writeAttribute("type", "sentence")
     					writer.writeAttribute("style", "--before-content:'$sent_id';")
+    				}
     				for (def word : words) {
     					println "UD-ID="+word["id"]
     					//println "UD-ID="+word["id"]
     					if (word["id"].contains("-")) {
     						writer.writeStartElement("seg")
     						writer.writeCharacters("******")
     						writer.writeEndElement() // span
+    					}
     					String id = null
     					wordCounter++
     					writer.writeStartElement ("w")
-...
     						//println "WORD="+word
     						writer.writeAttribute(prefix+p, word[p])
+    					}
     					if (id != null) {
     						writer.writeAttribute("id", id)
     						writer.writeAttribute("id", id)
     					} else {
     						writer.writeAttribute("id", "w_"+text_id+"_"+wordCounter)
+    					}
     					writer.writeCharacters(word["form"])
     					writer.writeEndElement() // w
     					writer.writeCharacters(" ")
+    				}
     				if (formatSentences) writer.writeEndElement()
     				writer.writeCharacters("\n")
     				writer.writeEndElement() // s
+    			}
     			if (current_par_id != null) {
     				writer.writeEndElement() // p
     				writer.writeCharacters("\n")
+    			}
     			writer.writeEndElement() // text
     			writer.writeCharacters("\n")
     			writer.writeEndElement() // TEI
     			writer.close()
+    		}
     		cpb_texts.done()
     		return true
+    	}
+    }

     import java.io.File;
     import java.io.IOException;
     import java.util.ArrayList;
     import java.util.List;
     import org.apache.commons.lang.StringUtils;
-...
     	public static File print(File file, List<String> conll, String[] Tvalues, String[] NTvalues) {
     		try {
     			ArrayList<String[]> splittedLines = new ArrayList<>();
     			for (int i = 0 ; i < conll.size() ; i++) {
     				String l = conll.get(i);
     				String split[] = l.split("\t");
     				splittedLines.add(split);
+    			}
     			ArrayList<String> conll2 = new ArrayList<>();
     			for (int i = 0 ; i < splittedLines.size() ; i++) {
     				String split[] = splittedLines.get(i);
     				if (split[0].contains("-")) {
     					int n1 = Integer.parseInt(split[0].substring(0,  split[0].indexOf("-")));
     					int n2 = Integer.parseInt(split[0].substring(1 + split[0].indexOf("-")));
     					int n =  n2 - n1;
     					ArrayList<String[]> newlines = new ArrayList<>();
     					for (int j = 0 ; j <= n ; j++) {
     						newlines.add(new String[split.length]);
     						for (int p = 0 ; p < split.length ; p++) {
     							newlines.get(j)[p] = "_";
+    						}
+    					}
     					if ( !(splittedLines.get(i+1)[0].equals(""+n1)) || !(splittedLines.get(i+n+1)[0].equals(""+n2)) ) {
     						System.out.println("FIXING "+conll.get(i));
     						for (int p = 2 ; p < split.length - 1 ; p++) {
     							String[] splittedValues = split[p].split(".");
     							for (int j = 0 ; j <= n ; j++) {
     								if (p >= splittedValues.length) {
     								} else {
     									newlines.get(j)[p] = splittedValues[p];
+    								}
+    							}
+    						}
     					} else {
     						System.out.println("NOT FIXING "+conll.get(i));
+    					}
+    				}
     				conll2.add(StringUtils.join(split, "\t"));
+    			}
     			for (String l : conll2) System.out.println(l);
     			String bundle_id = "org.txm.conllu.core";
     			File HTMLTEMPATE = BundleUtils.getFile(bundle_id, "template", "/", "index.html");
     			File root = HTMLTEMPATE.getParentFile();
     			String content = IOUtils.getText(HTMLTEMPATE);
     			content = content.replace("HTMLROOTDIRECTORY", root.getAbsolutePath());
     			content = content.replace("CONLLUSENTENCE", StringUtils.join(conll, "\n"));
     			content = content.replace("CONLLUSENTENCE", StringUtils.join(conll2, "\n"));
     			IOUtils.write(file, content);
     			//BundleUtils.copyFiles(bundle_id, "groovy", "org/txm/scripts/importer", "", scriptsPackageDirectory, true);

Formats disponibles : Unified diff

Laboratoire ICAR » Plateforme TXM

Révision 4018