Task #3313

Import, CoNLL-U corpus, interpret empty sentences as paragraph break

Added by Serge Heiden about 1 year ago. Updated 8 months ago.

Status:New Start date:11/09/2022
Priority:Normal Due date:
Assignee:- % Done:

0%

Category:Import Spent time: -
Target version:TXM Profiterole 2.0

Description

When a full sentence text - as a comment in front of each sentence - is empty, with the following form "# text = ", insert a paragraph break in the XML encoding.

An example real corpus case

In the following corpus (produced by the UIMA ConllUWriter class - http://dkpro.github.io/dkpro-core/releases/1.11.0/apidocs/index.html?org/dkpro/core/io/conll/package-summary.html):

# text =   Präsident :: Die Sitzung ist eröffnet.
1    Präsident    Präsident    NOUN    NN    Case=Nom|Gender=Masc|Number=Sing    6    PD    _    _
2    :    :    PUNCT    $.    _    6    PUNCT    _    SpaceAfter=No
3    :    :    PUNCT    $.    _    6    PUNCT    _    _
4    Die    der    DET    ART    Case=Nom|Definite=Def|Gender=Fem|Number=Sing|PronType=Art    5    NK    _    _
5    Sitzung    Sitzung    NOUN    NN    Case=Nom|Gender=Fem|Number=Sing    6    SB    _    _
6    ist    sein    VERB    VAFIN    Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin    0    ―    _    _
7    eröffnet    eröffnen    VERB    VVPP    VerbForm=Part    6    PD    _    SpaceAfter=No
8    .    .    PUNCT    $.    _    6    PUNCT    _    _

# text =   

# text = Das Protokoll der vorigen Sitzung liegt zur Einsicht aus.
1    Das    der    DET    ART    Case=Nom|Definite=Def|Gender=Neut|Number=Sing|PronType=Art    2    NK    _    _
2    Protokoll    Protokoll    NOUN    NN    Case=Nom|Gender=Neut|Number=Sing    6    SB    _    _
3    der    der    DET    ART    Case=Gen|Definite=Def|Gender=Fem|Number=Sing|PronType=Art    5    NK    _    _
4    vorigen    vorig    ADJ    ADJA    Case=Gen|Degree=Pos|Gender=Fem|Number=Sing    5    NK    _    _
5    Sitzung    Sitzung    NOUN    NN    Case=Gen|Gender=Fem|Number=Sing    2    AG    _    _
6    liegt    liegen    VERB    VVFIN    Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin    0    ―    _    _
7    zur    zur    ADP    APPRART    Case=Dat|Gender=Fem|Number=Sing    6    MO    _    _
8    Einsicht    Einsicht    NOUN    NN    Case=Dat|Gender=Fem|Number=Sing    7    NK    _    _
9    aus    aus    VERB    PTKVZ    _    6    SVP    _    SpaceAfter=No
10    .    .    PUNCT    $.    _    6    PUNCT    _    _

# text =   

# text = Für die heutige Sitzung sind die Abgeordneten Chevalier, Genast und Decker;
1    Für    Für    ADP    APPR    _    5    MO    _    _
2    die    der    DET    ART    Case=Acc|Definite=Def|Gender=Fem|Number=Sing|PronType=Art    4    NK    _    _
3    heutige    heutige    ADJ    ADJA    Case=Acc|Degree=Pos|Gender=Fem|Number=Sing    4    NK    _    _
4    Sitzung    Sitzung    NOUN    NN    Case=Acc|Gender=Fem|Number=Sing    1    NK    _    _
5    sind    sein    VERB    VAFIN    Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin    0    ―    _    _
6    die    der    DET    ART    Case=Nom|Definite=Def|Number=Plur|PronType=Art    7    NK    _    _
7    Abgeordneten    Abgeordnete    NOUN    NN    Case=Nom|Number=Plur    5    SB    _    _
8    Chevalier    Chevalier    NOUN    NN    Case=Nom|Gender=Neut|Number=Sing    7    NK    _    SpaceAfter=No
9    ,    ,    PUNCT    $,    _    7    PUNCT    _    _
10    Genast    Genast    NOUN    NN    Case=Nom|Gender=Fem|Number=Sing    7    CJ    _    _
11    und    und    CONJ    KON    _    10    CD    _    _
12    Decker    Decker    NOUN    NN    Case=Acc|Gender=Masc|Number=Plur    11    CJ    _    SpaceAfter=No
13    ;    ;    PUNCT    $.    _    5    PUNCT    _    _

There are beginning of paragraphs before:
  • "Präsident :: Die Sitzung..."
  • "Das Protokoll..."
  • "Für die heutige..."

Solution

  • Create a new macro to replace the empty sentences with the "newpar" UD comment. (increment the newpar id for each new empty sentence)
  • Ensure TXM creates the paragraphs during the import

History

#1 Updated by Matthieu Decorde 8 months ago

  • Description updated (diff)

Also available in: Atom PDF