Resurse


Nov. 25, 2021 • Petru, Rebeja

corpus

1984

George Orwell

parte de vorbire

lemă

grup nominal

adnotare manuală

POS tagging

lemma

nominal group

NP

manual annotation

Autori: Dan Cristea, Oana Postolache, Cecilia Bolea

Varianta românească a textului literar „1984”, autor George Orwell, etichetat la parte de vorbire și lemă, este adnotat la grup nominal: s-a adăugat eticheta “NP”, 16 fisiere.

Exemplu

<NP ID="NP5" HEADID="TOK13-14">

<W ID="W18" root="Winston" pv="Noun" Type="proper" RO="TOK13">Winston</W>

    <W…

Nov. 24, 2021 • Petru, Rebeja

corpus

1984

George Orwell

parte de vorbire

lemă

grup nominal

referințe anaforice

anafora

adnotare manuală

POS tagging

lemma

nominal group

NP

COREF

anaphora

coreferential links

manual annotation

Autori: Dan Cristea, Oana Postolache, Cecilia Bolea

Varianta românească a textului literar „1984”, autor George Orwell, adnotat la grup nominal, a fost adnotat și la referințe anaforice, s-a adăugat eticheta “COREF”, 10 fisiere.

Exemplu: 

<NP ID="NP5" HEADID="TOK13-14">

<W ID="W18" root="Winston" pv="Noun" Type="proper" RO="TOK13">Winston</W>

  &nbs…

Nov. 24, 2021 • Petru, Rebeja

UD-Romanian-Nonstandard

Autori: Cătălina Mărănduc, Augusto Perez

Treebank pentru limba română diacronică al Universității Alexandru Ioan Cuza din Iași, adnotat în formalismul Universal Dependency Grammar.

Din cele 21.403 fraze ale resursei, 2.500 reprezintă folclor din România și din Republica Moldova, iar restul sunt texte vechi din secolele XVI-XVII. Menționăm că o parte din treebank UAIC (4.000 fraze) a fost transpus de către Augusto Perez în format UD și inclus într-un alt treeb…

Nov. 24, 2021 • Petru, Rebeja

strategia SCD (Segmentare-Coeziune-Dependenta)

marcheri SCD

adnotare la grup verbal

adnotare la clauza

Autori: N. Curteanu, A. Moruz, C. Butnariu, E. Amihăesei

Strategia de parsare SCD utilizează trei clase de marcheri având funcţii de delimitare a structurilor sintactice, şi anume de tip XG, clauzal sau  interclauzal. Aceste clase sunt prezentate în cele ce urmează.

a) Clasa M1 – cuprinde marcheri ce delimitează structurile XG

            Clasa de marcheri M1 corespunde nivelului X1 (X = N, V, A), i.e. din ma…

Nov. 24, 2021 • Petru, Rebeja

dicționar în format electronic

lexicografie computațională

editare colaborativă

XML

eDTLR

lectronic dictionaries

computational lexicography

collaborative editing

Autori: Alex Moruz, Neculai Curteanu

 

O colecție de 130.645 de fișiere XML (680MB) cu intrările din eDTLR.

 

Un exemplu:

<?xml version="1.0" encoding="UTF-8"?>
<entries>
    <entry>
        <sense class="0" value="AGRAVÁ">
            <definition>
      &n…

Nov. 25, 2021 • Petru, Rebeja

MLD

index

lemă

formă flexionară

limbă veche românească

index

lemma

flexed forms

Romanian old language

Resursă primită de la dr. Mădălina Andronic Ungureanu. 

Instituția: Institutul de Studii Interdisciplinare în Științe Sociale și Umanioare din cadrul Universității “Alexandru Ioan Cuza” din Iași, Facultatea de Litere - Universitatea “Alexandru Ioan Cuza” din Iași

Prima variantă a resursei a fost elaborată în perioada 1986-1988, la Albert-Ludwigs-Universitat, Freiburg, Germania, în cadrul proiectului Monumenta linguae Dacoromanorum. Biblia 168…

Nov. 24, 2021 • Petru, Rebeja

presă scrisă

secolul al XIX-lea

parte de vorbire

lemă

grup nominal

Autor: Daniela Gîfu

O colecție de texte (articole din presa vremii) provenite din patru provincii istorice (Moldova, Transilvania, Țara Românească și Basarabia), tipărite în perioada 1817-2015, criptată în grafia latină. Este singura resursă pe care o putem considera suficient de reprezentativă pentru a reflecta folosirea cultivată a limbii române și care acoperă cvasi-complet perioada precizată. RODICA se dorește a face obiectul cercetării similarității lingvis…

Nov. 24, 2021 • Petru, Rebeja

corpus

sintaxă

limba română

dialoguri din media socială

limbă nestandard

româna contemporană

folclor

poezie

treebank

syntax

Romanian language

chat

social media

poetry

nonstandard Romanian

Autori: Cătălina Mărănduc, Augusto Perez

Un treebank balansat, documentele au în titlu CHAT (social media - 2 fișiere xml) - 2500 fraze, CONT (contemporan - 9 fișiere xml) - 8444 fraze, OLD (limbă veche - 33 fișiere) - 20000 fraze și  POP (folclor - 5 fișiere xml) - 25000 fraze. Dimensiunea totală a resursei: 38.600 de fraze adnotate manual.

Exemplu 1. Corpus contemporan - 1984, George Orwell

      <treebank id="CONT_1984_orwel">

 …

Nov. 2, 2023 • Laura, Pistol

înregistrare audio

transcriere

Colecție de înregistrări audio și transcrierile aferente reprezentând declarații și conferințe de presă susținute de către Președintele României, Klaus Iohannis, în perioada ianuarie - octombrie 2021. Resursa însumează șase ore de înregistrări audio, peste 60 de jurnaliști (>40 gen feminin și 20 gen masculin). Pașii întreprinși: achiziția de înregistrări audio și transcrieri (www.presidency.ro), prelucrarea înregistrărilor audio în …