Adnotări la grup nominal

corpus

1984

George Orwell

parte de vorbire

lemă

grup nominal

adnotare manuală

POS tagging

lemma

nominal group

NP

manual annotation

Accesul la această resursă este restricționat. Pentru a o descărca adresați-vă unui membru al echipei.

Versiuni
Încărcată de
Petru Rebeja
Data încărcării
Nov. 25, 2021
Descriere

Autori: Dan Cristea, Oana Postolache, Cecilia Bolea

Varianta românească a textului literar „1984”, autor George Orwell, etichetat la parte de vorbire și lemă, este adnotat la grup nominal: s-a adăugat eticheta “NP”, 16 fisiere.

Exemplu

<NP ID="NP5" HEADID="TOK13-14">

<W ID="W18" root="Winston" pv="Noun" Type="proper" RO="TOK13">Winston</W>

    <W ID="W19" root="Smith" pv="Noun" Type="proper" RO="TOK14">Smith</W>

</NP>

    <W ID="W20" type="COMMA" RO="PUNCT2">,</W>

    <W ID="W21" root="cu" pv="Adposition" Type="preposition" Formation="simple" RO="TOK15">cu</W>

    <NP ID="NP6" HEADID="TOK16">

        <W ID="W22" root="bãrbie" pv="Noun" Type="common" Gender="feminine" Number="singular" Definiteness="yes" RO="TOK16">bãrbia</W>

        <W ID="W23" root="înfundat" pv="Adjective" Type="qualificative" Degree="positive" Gender="feminine" Number="singular" Definiteness="no" RO="TOK17">înfundatã</W>

        <W ID="W24" root="în" pv="Adposition" Type="preposition" Formation="simple" RO="TOK18">în</W>

        <NP ID="NP7" HEADID="TOK19">

            <W ID="W25" root="piept" pv="Noun" Type="common" Gender="masculine" Number="singular" Definiteness="no" RO="TOK19">piept</W>

        </NP>

    </NP>

    <W ID="W26" root="pentru" pv="Adposition" Type="preposition" Formation="simple" RO="TOK20">pentru</W>

    <W ID="W27" root="a" pv="Particle" Type="infinitive" RO="TOK21">a</W>

    <W ID="W28" root="scãpa" pv="Verb" Type="main" Mood="infinitive" Tense="present" RO="TOK22">scãpa</W>

    <W ID="W29" root="de" pv="Adposition" Type="preposition" Formation="simple" RO="TOK23">de</W>

    <NP ID="NP8" HEADID="TOK24">

        <W ID="W30" root="vânt" pv="Noun" Type="common" Gender="masculine" Number="singular" Definiteness="yes" RO="TOK24">vântul</W>

    </NP>

Tip resursă
corpus
Referințe
  • Dan Cristea, Dan Tufiș (2002). Resurse lingvistice românești și tehnologii informatice aplicate limbii române. In Ofelia Ichim, Florin-Teodor Olariu (eds.): Identitatea limbii și literaturii române în perspectiva globalizării, Romanian Academy, Institute of Romanian Philology "A. Philippide", Trinitas Publishing House, Iași, Link: https://profs.info.uaic.ro/~dcristea/papers/Cristea-Tufis-2002.pdf