Task #3313
Mis à jour par Matthieu Decorde il y a plus de 2 ans
When a full sentence text - as a comment in front of each sentence - is empty, with the following form "# text = ", insert a paragraph break in the XML encoding.
h3. An example real corpus case
In the following corpus (produced by the UIMA ConllUWriter class - http://dkpro.github.io/dkpro-core/releases/1.11.0/apidocs/index.html?org/dkpro/core/io/conll/package-summary.html):
<pre>
# text = Präsident :: Die Sitzung ist eröffnet.
1 Präsident Präsident NOUN NN Case=Nom|Gender=Masc|Number=Sing 6 PD _ _
2 : : PUNCT $. _ 6 PUNCT _ SpaceAfter=No
3 : : PUNCT $. _ 6 PUNCT _ _
4 Die der DET ART Case=Nom|Definite=Def|Gender=Fem|Number=Sing|PronType=Art 5 NK _ _
5 Sitzung Sitzung NOUN NN Case=Nom|Gender=Fem|Number=Sing 6 SB _ _
6 ist sein VERB VAFIN Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin 0 ― _ _
7 eröffnet eröffnen VERB VVPP VerbForm=Part 6 PD _ SpaceAfter=No
8 . . PUNCT $. _ 6 PUNCT _ _
# text =
# text = Das Protokoll der vorigen Sitzung liegt zur Einsicht aus.
1 Das der DET ART Case=Nom|Definite=Def|Gender=Neut|Number=Sing|PronType=Art 2 NK _ _
2 Protokoll Protokoll NOUN NN Case=Nom|Gender=Neut|Number=Sing 6 SB _ _
3 der der DET ART Case=Gen|Definite=Def|Gender=Fem|Number=Sing|PronType=Art 5 NK _ _
4 vorigen vorig ADJ ADJA Case=Gen|Degree=Pos|Gender=Fem|Number=Sing 5 NK _ _
5 Sitzung Sitzung NOUN NN Case=Gen|Gender=Fem|Number=Sing 2 AG _ _
6 liegt liegen VERB VVFIN Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin 0 ― _ _
7 zur zur ADP APPRART Case=Dat|Gender=Fem|Number=Sing 6 MO _ _
8 Einsicht Einsicht NOUN NN Case=Dat|Gender=Fem|Number=Sing 7 NK _ _
9 aus aus VERB PTKVZ _ 6 SVP _ SpaceAfter=No
10 . . PUNCT $. _ 6 PUNCT _ _
# text =
# text = Für die heutige Sitzung sind die Abgeordneten Chevalier, Genast und Decker;
1 Für Für ADP APPR _ 5 MO _ _
2 die der DET ART Case=Acc|Definite=Def|Gender=Fem|Number=Sing|PronType=Art 4 NK _ _
3 heutige heutige ADJ ADJA Case=Acc|Degree=Pos|Gender=Fem|Number=Sing 4 NK _ _
4 Sitzung Sitzung NOUN NN Case=Acc|Gender=Fem|Number=Sing 1 NK _ _
5 sind sein VERB VAFIN Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin 0 ― _ _
6 die der DET ART Case=Nom|Definite=Def|Number=Plur|PronType=Art 7 NK _ _
7 Abgeordneten Abgeordnete NOUN NN Case=Nom|Number=Plur 5 SB _ _
8 Chevalier Chevalier NOUN NN Case=Nom|Gender=Neut|Number=Sing 7 NK _ SpaceAfter=No
9 , , PUNCT $, _ 7 PUNCT _ _
10 Genast Genast NOUN NN Case=Nom|Gender=Fem|Number=Sing 7 CJ _ _
11 und und CONJ KON _ 10 CD _ _
12 Decker Decker NOUN NN Case=Acc|Gender=Masc|Number=Plur 11 CJ _ SpaceAfter=No
13 ; ; PUNCT $. _ 5 PUNCT _ _
</pre>
There are beginning of paragraphs before:
* "Präsident :: Die Sitzung..."
* "Das Protokoll..."
* "Für die heutige..."
h3. Solution
* Create a new macro to replace the empty sentences with the "newpar" UD comment. (increment the newpar id for each new empty sentence)
* Ensure TXM creates the paragraphs during the import
h3. An example real corpus case
In the following corpus (produced by the UIMA ConllUWriter class - http://dkpro.github.io/dkpro-core/releases/1.11.0/apidocs/index.html?org/dkpro/core/io/conll/package-summary.html):
<pre>
# text = Präsident :: Die Sitzung ist eröffnet.
1 Präsident Präsident NOUN NN Case=Nom|Gender=Masc|Number=Sing 6 PD _ _
2 : : PUNCT $. _ 6 PUNCT _ SpaceAfter=No
3 : : PUNCT $. _ 6 PUNCT _ _
4 Die der DET ART Case=Nom|Definite=Def|Gender=Fem|Number=Sing|PronType=Art 5 NK _ _
5 Sitzung Sitzung NOUN NN Case=Nom|Gender=Fem|Number=Sing 6 SB _ _
6 ist sein VERB VAFIN Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin 0 ― _ _
7 eröffnet eröffnen VERB VVPP VerbForm=Part 6 PD _ SpaceAfter=No
8 . . PUNCT $. _ 6 PUNCT _ _
# text =
# text = Das Protokoll der vorigen Sitzung liegt zur Einsicht aus.
1 Das der DET ART Case=Nom|Definite=Def|Gender=Neut|Number=Sing|PronType=Art 2 NK _ _
2 Protokoll Protokoll NOUN NN Case=Nom|Gender=Neut|Number=Sing 6 SB _ _
3 der der DET ART Case=Gen|Definite=Def|Gender=Fem|Number=Sing|PronType=Art 5 NK _ _
4 vorigen vorig ADJ ADJA Case=Gen|Degree=Pos|Gender=Fem|Number=Sing 5 NK _ _
5 Sitzung Sitzung NOUN NN Case=Gen|Gender=Fem|Number=Sing 2 AG _ _
6 liegt liegen VERB VVFIN Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin 0 ― _ _
7 zur zur ADP APPRART Case=Dat|Gender=Fem|Number=Sing 6 MO _ _
8 Einsicht Einsicht NOUN NN Case=Dat|Gender=Fem|Number=Sing 7 NK _ _
9 aus aus VERB PTKVZ _ 6 SVP _ SpaceAfter=No
10 . . PUNCT $. _ 6 PUNCT _ _
# text =
# text = Für die heutige Sitzung sind die Abgeordneten Chevalier, Genast und Decker;
1 Für Für ADP APPR _ 5 MO _ _
2 die der DET ART Case=Acc|Definite=Def|Gender=Fem|Number=Sing|PronType=Art 4 NK _ _
3 heutige heutige ADJ ADJA Case=Acc|Degree=Pos|Gender=Fem|Number=Sing 4 NK _ _
4 Sitzung Sitzung NOUN NN Case=Acc|Gender=Fem|Number=Sing 1 NK _ _
5 sind sein VERB VAFIN Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin 0 ― _ _
6 die der DET ART Case=Nom|Definite=Def|Number=Plur|PronType=Art 7 NK _ _
7 Abgeordneten Abgeordnete NOUN NN Case=Nom|Number=Plur 5 SB _ _
8 Chevalier Chevalier NOUN NN Case=Nom|Gender=Neut|Number=Sing 7 NK _ SpaceAfter=No
9 , , PUNCT $, _ 7 PUNCT _ _
10 Genast Genast NOUN NN Case=Nom|Gender=Fem|Number=Sing 7 CJ _ _
11 und und CONJ KON _ 10 CD _ _
12 Decker Decker NOUN NN Case=Acc|Gender=Masc|Number=Plur 11 CJ _ SpaceAfter=No
13 ; ; PUNCT $. _ 5 PUNCT _ _
</pre>
There are beginning of paragraphs before:
* "Präsident :: Die Sitzung..."
* "Das Protokoll..."
* "Für die heutige..."
h3. Solution
* Create a new macro to replace the empty sentences with the "newpar" UD comment. (increment the newpar id for each new empty sentence)
* Ensure TXM creates the paragraphs during the import