Task #3313
Import, CoNLL-U corpus, interpret empty sentences as paragraph break
Status: | New | Start date: | 11/09/2022 | |
---|---|---|---|---|
Priority: | Normal | Due date: | ||
Assignee: | - | % Done: | 0% |
|
Category: | Import | Spent time: | - | |
Target version: | TXM Profiterole 2.0 |
Description
When a full sentence text - as a comment in front of each sentence - is empty, with the following form "# text = ", insert a paragraph break in the XML encoding.
An example real corpus case¶
In the following corpus (produced by the UIMA ConllUWriter class - http://dkpro.github.io/dkpro-core/releases/1.11.0/apidocs/index.html?org/dkpro/core/io/conll/package-summary.html):
# text = Präsident :: Die Sitzung ist eröffnet. 1 Präsident Präsident NOUN NN Case=Nom|Gender=Masc|Number=Sing 6 PD _ _ 2 : : PUNCT $. _ 6 PUNCT _ SpaceAfter=No 3 : : PUNCT $. _ 6 PUNCT _ _ 4 Die der DET ART Case=Nom|Definite=Def|Gender=Fem|Number=Sing|PronType=Art 5 NK _ _ 5 Sitzung Sitzung NOUN NN Case=Nom|Gender=Fem|Number=Sing 6 SB _ _ 6 ist sein VERB VAFIN Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin 0 ― _ _ 7 eröffnet eröffnen VERB VVPP VerbForm=Part 6 PD _ SpaceAfter=No 8 . . PUNCT $. _ 6 PUNCT _ _ # text = # text = Das Protokoll der vorigen Sitzung liegt zur Einsicht aus. 1 Das der DET ART Case=Nom|Definite=Def|Gender=Neut|Number=Sing|PronType=Art 2 NK _ _ 2 Protokoll Protokoll NOUN NN Case=Nom|Gender=Neut|Number=Sing 6 SB _ _ 3 der der DET ART Case=Gen|Definite=Def|Gender=Fem|Number=Sing|PronType=Art 5 NK _ _ 4 vorigen vorig ADJ ADJA Case=Gen|Degree=Pos|Gender=Fem|Number=Sing 5 NK _ _ 5 Sitzung Sitzung NOUN NN Case=Gen|Gender=Fem|Number=Sing 2 AG _ _ 6 liegt liegen VERB VVFIN Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin 0 ― _ _ 7 zur zur ADP APPRART Case=Dat|Gender=Fem|Number=Sing 6 MO _ _ 8 Einsicht Einsicht NOUN NN Case=Dat|Gender=Fem|Number=Sing 7 NK _ _ 9 aus aus VERB PTKVZ _ 6 SVP _ SpaceAfter=No 10 . . PUNCT $. _ 6 PUNCT _ _ # text = # text = Für die heutige Sitzung sind die Abgeordneten Chevalier, Genast und Decker; 1 Für Für ADP APPR _ 5 MO _ _ 2 die der DET ART Case=Acc|Definite=Def|Gender=Fem|Number=Sing|PronType=Art 4 NK _ _ 3 heutige heutige ADJ ADJA Case=Acc|Degree=Pos|Gender=Fem|Number=Sing 4 NK _ _ 4 Sitzung Sitzung NOUN NN Case=Acc|Gender=Fem|Number=Sing 1 NK _ _ 5 sind sein VERB VAFIN Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin 0 ― _ _ 6 die der DET ART Case=Nom|Definite=Def|Number=Plur|PronType=Art 7 NK _ _ 7 Abgeordneten Abgeordnete NOUN NN Case=Nom|Number=Plur 5 SB _ _ 8 Chevalier Chevalier NOUN NN Case=Nom|Gender=Neut|Number=Sing 7 NK _ SpaceAfter=No 9 , , PUNCT $, _ 7 PUNCT _ _ 10 Genast Genast NOUN NN Case=Nom|Gender=Fem|Number=Sing 7 CJ _ _ 11 und und CONJ KON _ 10 CD _ _ 12 Decker Decker NOUN NN Case=Acc|Gender=Masc|Number=Plur 11 CJ _ SpaceAfter=No 13 ; ; PUNCT $. _ 5 PUNCT _ _There are beginning of paragraphs before:
- "Präsident :: Die Sitzung..."
- "Das Protokoll..."
- "Für die heutige..."
Solution¶
- Create a new macro to replace the empty sentences with the "newpar" UD comment. (increment the newpar id for each new empty sentence)
- Ensure TXM creates the paragraphs during the import
History
#1 Updated by Matthieu Decorde 8 months ago
- Description updated (diff)