corpus
1984
George Orwell
parte de vorbire
lemă
grup nominal
adnotare manuală
POS tagging
lemma
nominal group
NP
manual annotation
Autori: Dan Cristea, Oana Postolache, Cecilia Bolea
Varianta românească a textului literar „1984”, autor George Orwell, etichetat la parte de vorbire și lemă, este adnotat la grup nominal: s-a adăugat eticheta “NP”, 16 fisiere.
Exemplu
<NP ID="NP5" HEADID="TOK13-14">
<W ID="W18" root="Winston" pv="Noun" Type="proper" RO="TOK13">Winston</W>
<W…
corpus
1984
George Orwell
parte de vorbire
lemă
grup nominal
referințe anaforice
anafora
adnotare manuală
POS tagging
lemma
nominal group
NP
COREF
anaphora
coreferential links
manual annotation
Autori: Dan Cristea, Oana Postolache, Cecilia Bolea
Varianta românească a textului literar „1984”, autor George Orwell, adnotat la grup nominal, a fost adnotat și la referințe anaforice, s-a adăugat eticheta “COREF”, 10 fisiere.
Exemplu:
<NP ID="NP5" HEADID="TOK13-14">
<W ID="W18" root="Winston" pv="Noun" Type="proper" RO="TOK13">Winston</W>
&nbs…
UD-Romanian-Nonstandard
Autori: Cătălina Mărănduc, Augusto Perez
Treebank pentru limba română diacronică al Universității Alexandru Ioan Cuza din Iași, adnotat în formalismul Universal Dependency Grammar.
Din cele 21.403 fraze ale resursei, 2.500 reprezintă folclor din România și din Republica Moldova, iar restul sunt texte vechi din secolele XVI-XVII. Menționăm că o parte din treebank UAIC (4.000 fraze) a fost transpus de către Augusto Perez în format UD și inclus într-un alt treeb…
strategia SCD (Segmentare-Coeziune-Dependenta)
marcheri SCD
adnotare la grup verbal
adnotare la clauza
Autori: N. Curteanu, A. Moruz, C. Butnariu, E. Amihăesei
Strategia de parsare SCD utilizează trei clase de marcheri având funcţii de delimitare a structurilor sintactice, şi anume de tip XG, clauzal sau interclauzal. Aceste clase sunt prezentate în cele ce urmează.
a) Clasa M1 – cuprinde marcheri ce delimitează structurile XG
Clasa de marcheri M1 corespunde nivelului X1 (X = N, V, A), i.e. din ma…
dicționar în format electronic
lexicografie computațională
editare colaborativă
XML
eDTLR
lectronic dictionaries
computational lexicography
collaborative editing
Autori: Alex Moruz, Neculai Curteanu
O colecție de 130.645 de fișiere XML (680MB) cu intrările din eDTLR.
Un exemplu:
<?xml version="1.0" encoding="UTF-8"?>
<entries>
<entry>
<sense class="0" value="AGRAVÁ">
<definition>
&n…
MLD
index
lemă
formă flexionară
limbă veche românească
index
lemma
flexed forms
Romanian old language
Resursă primită de la dr. Mădălina Andronic Ungureanu.
Instituția: Institutul de Studii Interdisciplinare în Științe Sociale și Umanioare din cadrul Universității “Alexandru Ioan Cuza” din Iași, Facultatea de Litere - Universitatea “Alexandru Ioan Cuza” din Iași
Prima variantă a resursei a fost elaborată în perioada 1986-1988, la Albert-Ludwigs-Universitat, Freiburg, Germania, în cadrul proiectului Monumenta linguae Dacoromanorum. Biblia 168…
presă scrisă
secolul al XIX-lea
parte de vorbire
lemă
grup nominal
Autor: Daniela Gîfu
O colecție de texte (articole din presa vremii) provenite din patru provincii istorice (Moldova, Transilvania, Țara Românească și Basarabia), tipărite în perioada 1817-2015, criptată în grafia latină. Este singura resursă pe care o putem considera suficient de reprezentativă pentru a reflecta folosirea cultivată a limbii române și care acoperă cvasi-complet perioada precizată. RODICA se dorește a face obiectul cercetării similarității lingvis…
corpus
sintaxă
limba română
dialoguri din media socială
limbă nestandard
româna contemporană
folclor
poezie
treebank
syntax
Romanian language
chat
social media
poetry
nonstandard Romanian
Autori: Cătălina Mărănduc, Augusto Perez
Un treebank balansat, documentele au în titlu CHAT (social media - 2 fișiere xml) - 2500 fraze, CONT (contemporan - 9 fișiere xml) - 8444 fraze, OLD (limbă veche - 33 fișiere) - 20000 fraze și POP (folclor - 5 fișiere xml) - 25000 fraze. Dimensiunea totală a resursei: 38.600 de fraze adnotate manual.
Exemplu 1. Corpus contemporan - 1984, George Orwell
<treebank id="CONT_1984_orwel">
…