Adnotări la grup nominal

corpus

1984

George Orwell

parte de vorbire

lemă

grup nominal

adnotare manuală

POS tagging

lemma

nominal group

NP

manual annotation

Accesul la această resursă este restricționat. Pentru a o descărca adresați-vă unui membru al echipei.

Versiuni
Încărcată de
Petru Rebeja
Data încărcării
Nov. 25, 2021
Descriere

Autori: Dan Cristea, Oana Postolache, Cecilia Bolea

Varianta românească a textului literar „1984”, autor George Orwell, etichetat la parte de vorbire și lemă, este adnotat la grup nominal: s-a adăugat eticheta “NP”, 16 fisiere.

Exemplu

<NP ID="NP5" HEADID="TOK13-14">

<W ID="W18" root="Winston" pv="Noun" Type="proper" RO="TOK13">Winston</W>

    <W ID="W19" root="Smith" pv="Noun" Type="proper" RO="TOK14">Smith</W>

</NP>

    <W ID="W20" type="COMMA" RO="PUNCT2">,</W>

    <W ID="W21" root="cu" pv="Adposition" Type="preposition" Formation="simple" RO="TOK15">cu</W>

    <NP ID="NP6" HEADID="TOK16">

        <W ID="W22" root="bãrbie" pv="Noun" Type="common" Gender="feminine" Number="singular" Definiteness="yes" RO="TOK16">bãrbia</W>

        <W ID="W23" root="înfundat" pv="Adjective" Type="qualificative" Degree="positive" Gender="feminine" Number="singular" Definiteness="no" RO="TOK17">înfundatã</W>

        <W ID="W24" root="în" pv="Adposition" Type="preposition" Formation="simple" RO="TOK18">în</W>

        <NP ID="NP7" HEADID="TOK19">

            <W ID="W25" root="piept" pv="Noun" Type="common" Gender="masculine" Number="singular" Definiteness="no" RO="TOK19">piept</W>

        </NP>

    </NP>

    <W ID="W26" root="pentru" pv="Adposition" Type="preposition" Formation="simple" RO="TOK20">pentru</W>

    <W ID="W27" root="a" pv="Particle" Type="infinitive" RO="TOK21">a</W>

    <W ID="W28" root="scãpa" pv="Verb" Type="main" Mood="infinitive" Tense="present" RO="TOK22">scãpa</W>

    <W ID="W29" root="de" pv="Adposition" Type="preposition" Formation="simple" RO="TOK23">de</W>

    <NP ID="NP8" HEADID="TOK24">

        <W ID="W30" root="vânt" pv="Noun" Type="common" Gender="masculine" Number="singular" Definiteness="yes" RO="TOK24">vântul</W>

    </NP>

Tip resursă
corpus
Referințe
  • Dan Cristea, Dan Tufiș (2002). Resurse lingvistice românești și tehnologii informatice aplicate limbii române. In Ofelia Ichim, Florin-Teodor Olariu (eds.): Identitatea limbii și literaturii române în perspectiva globalizării, Romanian Academy, Institute of Romanian Philology “A. Philippide”, Trinitas Publishing House, Iași, Link: https://profs.info.uaic.ro/~dcristea/papers/Cristea-Tufis-2002.pdf 

Corpus de adnotări la referințe anaforice

corpus

1984

George Orwell

parte de vorbire

lemă

grup nominal

referințe anaforice

anafora

adnotare manuală

POS tagging

lemma

nominal group

NP

COREF

anaphora

coreferential links

manual annotation

Accesul la această resursă este restricționat. Pentru a o descărca adresați-vă unui membru al echipei.

Versiuni
Încărcată de
Petru Rebeja
Data încărcării
Nov. 24, 2021
Descriere

Autori: Dan Cristea, Oana Postolache, Cecilia Bolea

Varianta românească a textului literar „1984”, autor George Orwell, adnotat la grup nominal, a fost adnotat și la referințe anaforice, s-a adăugat eticheta “COREF”, 10 fisiere.

Exemplu: 

<NP ID=”NP5″ HEADID=”TOK13-14″>

<W ID=”W18″ root=”Winston” pv=”Noun” Type=”proper” RO=”TOK13″>Winston</W>

    <W ID=”W19″ root=”Smith” pv=”Noun” Type=”proper” RO=”TOK14″>Smith</W>

</NP>

        <NP ID=”NP8″ HEADID=”TOK24″>

        <W ID=”W30″ root=”vânt” pv=”Noun” Type=”common” Gender=”masculine” Number=”singular” Definiteness=”yes” RO=”TOK24″>vântul</W>

    </NP>

    <NP ID=”NP9″ HEADID=”TOK25″ COREF=”NP8″>

        <W ID=”W31″ root=”care” pv=”Pronoun” Person=”third” Case=”direct” RO=”TOK25″>care</W>

    </NP>

    <NP ID=”NP10″ HEADID=”RSPLIT0″ COREF=”NP5″>

        <W ID=”W32″ root=”el” pv=”Pronoun” Type=”pers” Person=”third” Gender=”masculine” Number=”singular” Case=”accusative” RO=”RSPLIT0″>-l</W>

    </NP>

Tip resursă
corpus
Referințe
  1. G. Pavel, O. Postolache, I. C. Pistol, D. Cristea (2007). “Rezolutia anaforei pentru limba română”. In Corina Forăscu, Dan Tufiş, Dan Cristea (eds.): Lucrările atelierului „Resurse lingvistice şi instrumente pentru prelucrarea limbii române, Iaşi, noiembrie 2006”, Editura Universității “Alexandru Ioan Cuza” Iași, România, ISSN 1843-911X, p. 101-106, link: https://profs.info.uaic.ro/~consilr/editii_ant/2006/pages/volum.pdf  
  2. O. Postolache, O. (2004) RARE – Robust Anaphora Resolution Engine. Teză de disertaţie în  Lingvistică Computaţională, Facultatea de Informatică, Universitatea „Al.I.Cuza” Iaşi.
  3. O. Postolache,  D. Cristea (2004): Designing Test-beds for General Anaphora Resolution, in Proceedings of the Discourse Anaphora and Anaphor Resolution Colloquium – DAARC, St. Miguel, Portugal, link: https://profs.info.uaic.ro/~dcristea/papers/Postolache&Cristea-DAARC2004BW.pdf 

UD-Romanian-Nonstandard

UD-Romanian-Nonstandard

Versiuni
Încărcată de
Petru Rebeja
Data încărcării
Nov. 24, 2021
Descriere

Autori: Cătălina Mărănduc, Augusto Perez

Treebank pentru limba română diacronică al Universității Alexandru Ioan Cuza din Iași, adnotat în formalismul Universal Dependency Grammar.

Din cele 21.403 fraze ale resursei, 2.500 reprezintă folclor din România și din Republica Moldova, iar restul sunt texte vechi din secolele XVI-XVII. Menționăm că o parte din treebank UAIC (4.000 fraze) a fost transpus de către Augusto Perez în format UD și inclus într-un alt treebank, UD-Romanian RRT în anul 2015.

Dimensiunea resursei: 21.403 fraze și 449.959 cuvinte și semne de punctuație, adnotate manual

 

Tip resursă
treebank
Referințe
  • Bobicev, V., T. Bumbu, V. Lazu, V. Maxim, D. Istrati, Folk poetry for computers: Moldovan Codri’s ballads parsin, in Proceedings of the 12th International Conference “Linguistic Resources and Tools for Processing the Romanian Language, pp. 39-50, 2016.
  • Svetlana C.,, A. Colesnicov, L. Malahov, Digitization of Old Romanian Texts Printed in the Cyrillic Script, in Proceedings of International Conference on Digital Access to Textual Cultural Heritage. pages 143–148, 2017.
  • Colhon, M., C. Mărănduc, C. Mititelu, A Multiform Balanced Dependency Treebank for Romanian, in Proceedings of Knowledge Resources for the Socio-Economic Sciences and Humanities, (KnowRSH), Varna, Bulgaria September 8, 2017 workshop at the Recent Advances in Natural Language Processing (RANLP) p. 9-19, 2017.
  • Mărănduc. C., F. Hociung, V. Bobicev, Treebank Annotator for multiple formats and conventions, in Proceedings of The 4th Conference of Mathematical and Computer Science Society of the Republic of Moldova, Chisinau, Republic of Moldova, June 28 – July 2, 2017, p. 529-534, 2017.
  • Mărănduc C., V. Bobicev, C.-A. Perez, Tools for Building a Corpus to Study the Historical and Geographical Variation of the Romanian Language, in Proceeding of Language technology for Digital Humanities in Central and (South-) Eastern Europe (LT4DH-CEE 2017) Varna, Bulgaria September 8, 2017 workshop at the Recent Advances in Natural Language Processing (RANLP) conference, p. 10-20, 2017.
  • Mărănduc C., V. Bobicev, Non Standard Treebank Romania – Republic of Moldova in the Universal Dependencies, in Proceedings of Conference on Mathematical Foundations of Informatics (MFOI-2017) November 9–11, 2017, Chisinau, Moldova, pp. 111-116, 2017.
  • Mărănduc C., C. Mititelu, V. Bobicev, Syntactic Semantic Correspondence in Dependency Grammar, in Proceedings of 16th International Workshop on Treebanks and Linguistic Theories Prague, Jan. 23-24, 2018.
  • Mărănduc C., V. Bobicev, R. Untilov, Syntactic Parser for Old and Regional Romanian, at the 3-rd DATeCH Conference, Brussels May 2019.

Adnotări la grup verbal și clauză

strategia SCD (Segmentare-Coeziune-Dependenta)

marcheri SCD

adnotare la grup verbal

adnotare la clauza

Accesul la această resursă este restricționat. Pentru a o descărca adresați-vă unui membru al echipei.

Versiuni
Încărcată de
Petru Rebeja
Data încărcării
Nov. 24, 2021
Descriere

Autori: N. Curteanu, A. Moruz, C. Butnariu, E. Amihăesei

Strategia de parsare SCD utilizează trei clase de marcheri având funcţii de delimitare a structurilor sintactice, şi anume de tip XG, clauzal sau  interclauzal. Aceste clase sunt prezentate în cele ce urmează.

a) Clasa M1 – cuprinde marcheri ce delimitează structurile XG

            Clasa de marcheri M1 corespunde nivelului X1 (X = N, V, A), i.e. din marcheri aplicaţi construcţiilor de nivel X1 (sau XG). Aceste construcţii sintactice sunt alcătuite dintr-un nucleu semantic (o categorie A, V, N), înconjurat de modificatori (adjective sau adverbe) şi/sau de cuantificatori (care include determinatorii, negaţia, etc) şi/sau prepoziţii care exprimă cazul (NG) sau aspectul (VG).

            Clasa M1 a fost divizată în cateva subclase utile pentru  delimitarea structurilor XG, conform regulilor specificate mai sus.

Astfel,

M11 = { M11N , M11P }

            M11N = {apariţia unui substantiv comun, obiectual, nepredicaţional, sau a unui             substantiv propriu}

            M11P = {apariţia unui pronume}

M12 = {M12N, M12V}

            M12N = {apariţia unui modificator al unui substantiv (adjectiv, pronume             adjectival)}

            M12V = {apariţia unui modificator al unui verb (adverb)}

 

b) Clasa M2 – cuprinde marcheri care introduc o clauză (finită sau nefinită)

            Clasa M2 poate fi împărţită în urmatoarele subclase:

M20 – conţine un singur element, şi anume virgula (,).

M21 – conţine marcheri ce introduc o relaţie de coordonare, cum ar fi “şi”,  “sau”, “ca şi”, etc.

M22 – marcher ce semnalează prezenţa trasăturii nefinit asociate categoriei V

M23 – marchează apariţia trăsăturii de predicaţionalitate, ce poate fi asociată oricarei categorii N, A, V

M24 – marcher ce semnalează apariţia unui grup verbal finit, sau a trăsăturii finit asociate unui verb, introducând astfel o clauză finită

M25 – marcher  ce introduce subordonată relativă (atributivă)

 

c) Clasa M3 – conţine marcheri inter-clauzali şi de discurs

            Marcherii din această clasă reprezintă funcţii sau relaţii ce au ca argumente două sau mai multe clauze finite (nefinite).

Clasa M3 este împărţită în urmatoarele subclase (în ordinea descrescătoare a priorităţii de introducere a relaţiilor de dependenţă):

M31 – cuprinde marcheri inter-clauzali (discurs) care introduc o dependenţă de subordonare, precum “(“ “ca”, “ca să”, “unde”, “cum”, etc.

M32 – conţine marcheri interclauzali (discurs) ce introduc o relaţie de tip coordonator

M33 – conţine marcheri inter-clauzali (discurs) care introduc o clauză supra-ordonată (ridicarea cu cel puţin un nivel a dependenţei clauzale), cum ar fi “atunci”, altfel”, etc.

M34 – cuprinde semne de punctuaţie care separă propoziţii (fraze). Sunt incluşi aici : “:”, “.”, “?”, “!”, “;”, etc.

            Ca o remarcă, un element din clasa M1 (M12V) poate aparţine şi clasei M31 în cazul în care adverbul respectiv are şi rol de marcher inter-clauzal.

De asemenea, marcherul din clasa M2, M25 are întotdeauna şi rol inter-clauzal, introducând o subordonată relativă.

 

Exemplu de iesire:

<clauza id=’6′>

<TOK id=’TOK66′ mark=’M14′>La</TOK>

<TOK id=’TOK67′ mark=’M11P’>unul</TOK>

<TOK id=’TOK68′ mark=’M14′>din</TOK>

<TOK id=’TOK69′ mark=’M11N’>capete</TOK>

<FVGIN ID=’FVGIN_5′ mark=’M24′>

<TOK id=’TOK70′ mark=’M11P’>se</TOK>

<TOK id=’TOK71′ mark=’M24′>afla</TOK>

</FVGIN>

<TOK id=’TOK72′ mark=’M13′>un</TOK>

<TOK id=’TOK73′ mark=’M11N’>afiº</TOK>

<TOK id=’TOK74′ mark=’M12V’>mult</TOK>

<TOK id=’TOK75′ mark=’M12V’>prea</TOK>

<TOK id=’TOK76′ mark=’M12N’>mare</TOK>

<TOK id=’TOK77′ mark=’M14′>pentru</TOK>

<TOK id=’TOK78′ mark=’M11N’>interior</TOK>

</clauza>

<clauza id=’7′>

<MRK ID=’MRK12′ mark=’M20′>

<TOK id=’PUNCT5′ mark=’M20′>,</TOK>

</MRK>

<MRK ID=’MRK13′ mark=’M25′>

<TOK id=’TOK79′ mark=’M25′>care</TOK>

</MRK>

<FVGIN ID=’FVGIN_6′ mark=’M24′>

<TOK id=’TOK80′ mark=’M24′>înfãþiºa</TOK>

</FVGIN>

<TOK id=’TOK81′ mark=’M11N’>figura</TOK>

<TOK id=’TOK82′ mark=’M12N’>enormã</TOK>

<MRK ID=’MRK14′ mark=’M20′>

<TOK id=’PUNCT6′ mark=’M20′>,</TOK>

</MRK>

<TOK id=’TOK83′ mark=’M12N’>latã</TOK>

<TOK id=’COMP2′ mark=’M14′>de peste</TOK>

<TOK id=’TOK84′ mark=’M13′>un</TOK>

<TOK id=’TOK85′ mark=’M11N’>metru</TOK>

<MRK ID=’MRK15′ mark=’M20′>

<TOK id=’PUNCT7′ mark=’M20′>,</TOK>

</MRK>

<TOK id=’TOK86′ mark=’M14′>a</TOK>

<TOK id=’TOK87′ mark=’M13′>unui</TOK>

<TOK id=’TOK88′ mark=’M11N’>bãrbat</TOK>

<TOK id=’COMP3′ mark=’M12V’>în jur de</TOK>

<TOK id=’TOK89′ mark=’M13′>patruzeci</TOK>

<MRK ID=’MRK16′ mark=’M21′>

<TOK id=’TOK90′ mark=’M32′>ºi</TOK>

</MRK>

<TOK id=’TOK91′ mark=’M13′>cinci</TOK>

<TOK id=’TOK92′ mark=’M14′>de</TOK>

<TOK id=’TOK93′ mark=’M11N’>ani</TOK>

<MRK ID=’MRK17′ mark=’M20′>

<TOK id=’PUNCT8′ mark=’M20′>,</TOK>

</MRK>

<TOK id=’TOK94′ mark=’M14′>cu</TOK>

<TOK id=’TOK95′ mark=’M13′>o</TOK>

<TOK id=’TOK96′ mark=’M11N’>mustaþã</TOK>

<TOK id=’TOK97′ mark=’M12N’>neagrã</TOK>

<MRK ID=’MRK18′ mark=’M21′>

<TOK id=’TOK98′ mark=’M32′>ºi</TOK>

</MRK>

<TOK id=’TOK99′ mark=’M12N’>stufoasã</TOK>

<MRK ID=’MRK19′ mark=’M21′>

<TOK id=’PUNCT9′ mark=’M20′>,</TOK>

<TOK id=’TOK100′ mark=’M32′>ºi</TOK>

</MRK>

<TOK id=’TOK101′ mark=’M14′>cu</TOK>

<TOK id=’TOK102′ mark=’M11N’>trãsãturi</TOK>

<TOK id=’TOK103′ mark=’M12N’>frumoase</TOK>

<MRK ID=’MRK20′ mark=’M21′>

<TOK id=’TOK104′ mark=’M21′>dar</TOK>

</MRK>

<TOK id=’TOK105′ mark=’M12N’>dure</TOK>

<MRK ID=’MRK21′ mark=’M34′>

<TOK id=’PTERM_P2′ mark=’M34′>.</TOK>

</MRK>

</clauza>

 

Tip resursă
embeddings
Referințe
  • Curteanu, N. (2006): Local and Global Parsing with Functional (F)X-bar Theory and SCD Linguistic Strategy (I. + II.). Computer Science Journal of Moldova, Vol. 14, no.1, 2006, p. 74-102 (Part I.), Vol. 14, no.2, 2006, p. 155-182, (Part II.), http://www.math.md/files/csjm/v14-n1/v14-n1-(pp74-102).pdf
  • Curteanu, Neculai; Mihai Moruz; Diana Trandabăţ; Cecilia Bolea; Iustin Dornescu, (2006): The Structure and Parsing of Romanian Verbal Group and Predicate, Proceedings of the ECIT2006 – 4th European Conference on Intelligent Systems and Technologies, Iasi, Romania, Septembrie 21-23, 2006, pp. 93-105.
  • Curteanu, N., D. Trandabăţ, M. Moruz (2006): Structura grupului verbal, predicaţia lexicală şi reprezentarea logică a predicatului în limba română. In Lucrările atelierului RESURSE LINGVISTICE ŞI INSTRUMENTE PENTRU PRELUCAREA LIMBII ROMÂNE, (Ed. C. Rorăscu, D. Tufiş, D. Cristea), Editura Univ. “Al.I. Cuza” Iaşi, ISBN: 978-973-703-208-9, pp. 143-148. 
  • Curteanu, N., E. Zlavog, C. Bolea (2005): Sentence-Level and Discourse Segmentation / Parsing with SCD Linguistic Strategy, în Volumul “Intelligent Systems” (H.-N. Teodorescu, J. Watada, J.G. Aluja, M. Mihaila Eds.), Performantica Press, Iasi 2005, p. 153-168. 
  • Curteanu, N., D. Gâlea, C. Butnariu, C. Bolea (2004): Marcu’s Clause-like Discourse Segmentation Algorithm and SCD Clause Segmentation-based Parsing, Proceedings ECIT-2004 Conference, p. 59-86, Iaşi, România. 

eDTLR – Dicționarul tezaur al limbii române în format electronic

dicționar în format electronic

lexicografie computațională

editare colaborativă

XML

eDTLR

lectronic dictionaries

computational lexicography

collaborative editing

Accesul la această resursă este restricționat. Pentru a o descărca adresați-vă unui membru al echipei.

Versiuni
Încărcată de
Petru Rebeja
Data încărcării
Nov. 24, 2021
Descriere

Autori: Alex Moruz, Neculai Curteanu

 

O colecție de 130.645 de fișiere XML (680MB) cu intrările din eDTLR.

 

Un exemplu:

<?xml version="1.0" encoding="UTF-8"?>
<entries>
    <entry>
        <sense class="0" value="AGRAVÁ">
            <definition>
                <ItalMarker>
                    vb. I
                    <norm>
                        <sup>a</sup>
                        .
                    </norm>
                    „Aggraver”. -
                    <norm>1°. (Jur.)</norm>
                    T r a n s.
                    <norm>şi</norm>
                    r e f l.
                    <norm>„A (se) îngreunà (fapta, vina), a (se) împovărà, a (se) mărì”.</norm>
                    Pedeapsa i s'a agravat.
                    <norm>|| 2°. (Med). „A (se) înrăutăţì”.</norm>
                    Starea bolnavului s'a agravat.
                    <norm />
                </ItalMarker>
            </definition>
            <sense class="1" value="NewPrg">
                <definition>
                    <RegDef>-</RegDef>
                    <ItalMarker>
                        N.
                        <norm>din fran. (</norm>
                    </ItalMarker>
                    <RegDef>
                        =lat.
                        <b>aggravare.</b>
                        )
                    </RegDef>
                </definition>
            </sense>
        </sense>
    </entry>

</entries>

 

Parteneri:

  •     Facultatea de Informatică a Universității “Alexandru Ioan Cuza” din Iași (coordonator: Dan Cristea)
  •     Institutul de Lingvistică “Iorgu Iordan – Alexandru Rosetti”, Academia Română, București
  •     Institutul de Filologie Română “Alexandru Philippide”, Filiala Iași a Academiei Române
  •     Institute of Istorie Literară “Sextil Puscariu”, Filiala Cluj-Napoca a Academiei Române
  •     Institutul de Cercetări în Inteligență Artificială “M.Drăgănescu”, Academia Română, București
  •     Institutul de Informatică Teoretică, Filiala Iași a Academiei Române
  •     Facultatea de Litere a Universității “Alexandru Ioan Cuza” din Iași
Tip resursă
corpus
Referințe
  • Dan Cristea, Marius Răschip, Corina Forăscu, Gabriela Haja, Cristina Florescu, Bodgan Aldea, Elena Dănilă (2007). The Digital Form of the Thesaurus Dictionary of the Romanian Language. In Proceedings of SPeD-2007 (Speech Technology and Human – Computer Dialogue), Iași, May 10-12, link: https://profs.info.uaic.ro/~dcristea/papers/Cristea%20et%20al-SPeD07.pdf 
  • Dan Cristea, Corina Forăscu, Marius Răschip, Michael Zock (2008). How to Evaluate and Raise the Quality in a Collaborative Lexicographic Approach, in Proceedings of the International Conference on Language Resources and Evaluation, LREC 2008, 26 May – 1 June 2008, Marrakech, Morocco, link: https://profs.info.uaic.ro/~dcristea/papers/Cristea_etal_LREC.pdf 
  • Dan Cristea, Marius Răschip, Alex Moruz (2009). Steps in Building the Electronic Version of the Thesaurus Dictionary of the Romanian Language. In Proceedings of the IVth National Conference The Academic Days of the Academy of Technical Science of Romania, ASTR – the Iași branch and “Gheorghe Asachi” Tehnical University Iași, Agir Publishing House, ISSN 2006-6586, link: https://profs.info.uaic.ro/~dcristea/papers/ASTR09_CristeaRaschipMoruz.pdf 
  • Dan Cristea (2010). Very large language resources? At our finger! In Proceedings of the Workshop Language Resources: From Storyboard to Sustainability and LR Lifecycle Management, LREC 2010, Malta, link: https://profs.info.uaic.ro/~dcristea/papers/LREC2010-Storyboard-Cristea.pdf 
  • Dan Cristea. Gabriela Haja, Alex Moruz, Marius Răschip, Mădălin Ionel Patrașcu (2011). Statistici parțiale la încheierea proiectului eDTLR – Dicționarul Tezaur al Limbii Române în format electronic. În Rodica Zafiu, Camelia Ușurelu, Helga Bogdan Oprea (editori), Limba română. Ipostaze ale variației lingvistice. Actele celui de-al 10-lea Colocviu al Catedrei de limba română (Bucureşti, 3-4 decembrie 2010), vol. I, Gramatică şi fonologie, lexic, semantică, terminologii, istoria limbii române, dialectologie şi filologie, București, Editura Universității din București, 2011, pp. 213-224, ISBN 978-606-16-0046-5, link: https://profs.info.uaic.ro/~dcristea/papers/Cristea_Haja_Moruz_Raschip_Patrascu.pdf 
  • Dan Cristea (2011). Romanian Linguistic Resources on Very Large Scale, in Computer Science Journal of Moldova, vol.19, no.2 (56), pages 130-145, link: https://profs.info.uaic.ro/~dcristea/papers/Cristea-csj2011.pdf

Colecție de indici de cuvinte din MLD (Monumenta linguae Dacoromanorum)

MLD

index

lemă

formă flexionară

limbă veche românească

index

lemma

flexed forms

Romanian old language

Accesul la această resursă este restricționat. Pentru a o descărca adresați-vă unui membru al echipei.

Versiuni
Încărcată de
Petru Rebeja
Data încărcării
Nov. 25, 2021
Descriere

Resursă primită de la dr. Mădălina Andronic Ungureanu. 

Instituția: Institutul de Studii Interdisciplinare în Științe Sociale și Umanioare din cadrul Universității “Alexandru Ioan Cuza” din Iași, Facultatea de Litere – Universitatea “Alexandru Ioan Cuza” din Iași

Prima variantă a resursei a fost elaborată în perioada 1986-1988, la Albert-Ludwigs-Universitat, Freiburg, Germania, în cadrul proiectului Monumenta linguae Dacoromanorum. Biblia 1688, realizat în colaborare cu Universitatea „Alexandru Ioan Cuza” din Iași. În 2006-2007 a fost realizat la Institutul de Filologie Română „A. Philippide” din Iași un instrument de validare manuală a indexării și adnotării morfologice a cuvintelor din cele trei variante de traducere din secolul al 17-lea (Biblia 1688, ms. 45, ms. 4389) a cărților Regum I și Regum II din Vechiul Testament.  Instrumentele și maniera de adnotare automată și de validare manuală au fost optimizate în perioada 2009-2015 pentru finalizarea indexării Bibliei 1688 din tomurile 8-10 și 12-25 ale ediției. Parte din tomuri au fost editate și în format electronic (accesibile online: https://biblia1688.solirom.ro/7/, http://consilr.info.uaic.ro/~mld/monumenta/MLD_VIII/start.html

Resursa conține 17 fișiere .doc cu indici ale volumelor MLD, de la mld08__06__Indice.doc până la ​​mld24__06__Indice.doc (mld10 are două, mld11 lipsește). Primul fișier index cuprinde forme de la cuvântul a, la cuvântul ​​zmúlt (smuls) și are 403 pag., ultimul – de la cuvântul a la zmúlge (smulge) și are 1009 pag. 

Cuprinde formele lemă și un număr de forme flexionate. Prin parsare poate furniza o listă de forme flexionate vechi, cu trimiteri la leme. În acest caz, traducerile în germană și franceză, precum și trimiterile în text ale formelor flexionate, trebuie ignorate. 

Exemplu din fișierul mld08__06__Indice.doc: 

alége : (înc. sec. XVI Ps. H.) : v. III : „1. aussondern, -wählen, 2. unterscheiden, 3. entscheiden, 4. enden als…” : „1. choisir, séparer, trier, 2. distinguer, 3. décider, 4. finir comme…” : (18x)

ai ales  verb indicativ perfect compus 2 sg.  [1] 3, 8;  8, 44;  8, 48;

aleagă‑şi  verb conjunctiv prezent 3 pl.  [1] 18, 23;

alêgeţi‑vă  verb imp. 2 pl.  [1] 18, 25;

alêsără  verb indicativ perfect simplu 3 pl.  [1] 20, 33;

am ales  verb indicativ perfect compus 1 sg.  [1] 8, 16;  8, 16;  8, 16;  11, 13;  11, 32;  11, 34;  11, 36;  [2] 21, 7;  23, 27;

au ales  verb indicativ perfect compus 3 sg.  [1] 14, 21;

să alêge  verb indicativ prezent 3 sg.  [1] 14, 10;

  voiu alêge  verb viitor 1 indicativ 1 sg.  [1] 14, 10;

 

Aceeași lemă din fișierul mld24__06__Indice.doc: 

alége : (înc. sec. XVI Ps. H.) : v. III : „1. aussondern, -wählen, 2. unterscheiden, 3. entscheiden, 4. enden als…” : „1. choisir, séparer, trier, 2. distinguer, 3. décider, 4. finir comme…” : (31x)

alegînd  verb gerunziu  [1] 15, 22;  15, 25;  15, 40;  [15] 11, 25;

alêseră  verb indicativ perfect simplu 3 pl.  [1] 6, 5;

am ales  verb indicativ perfect compus 1 sg.  [3] 2, 2;  [4] 2, 1;

aţi ales  verb indicativ perfect compus 2 pl.  [1] 16, 15;

au ales  verb indicativ perfect compus 3 pl.  [1] 22, 14;  [24] 1, 9;  [10] 2, 13;

au ales  verb indicativ perfect compus 3 sg.  [1] 1, 2;  13, 17;  15, 7;  [3] 1, 27;  1, 27;  1, 28;  7, 37;  [5] 1, 15;  [6] 1, 4;  [16] 2, 5;

nealegînd  verb gerunziu  [3] 11, 29;

s-au ales  verb indicativ perfect compus 3 sg.  [1] 27, 1;

să aleg  verb conjunctiv prezent 1 sg.  [1] 26, 16;

să aleagă  verb conjunctiv prezent 3 sg.  [3] 6, 5;

să aleagă  verb conjunctiv prezent 3 pl.  [3] 14, 29;

să să aleagă  verb conjunctiv prezent 3 sg.  [11] 5, 9;

să vor alêge  verb viitor 1 indicativ 3 pl.  [2] 5, 19;

va alêge  verb viitor 1 indicativ 3 sg.  [3] 4, 7;

vei alêge  verb viitor 1 indicativ 2 sg.  [1] 1, 24;

voiu alêge  verb viitor 1 indicativ 1 sg.  [7] 1, 22;

Tip resursă
corpus
Referințe
  • Monumenta linguae Dacoromanorum. Biblia 1688, Iași, tom. I-XXIV, 1988-2015, coordonatori ai proiectului: Vasile Arvinte, Alexandru Andriescu, Gabriela Haja, Paul Miron, Eugen Munteanu.
  • Gabriela Haja, Politicile lingvistice ale Academiei Române și Dicționarul limbii române, în „Limba română”,  Chișinău, nr. 3, anul XXIX, 2019, p. 17-32 (https://ibn.idsi.md/sites/default/files/imag_file/17-32.pdf).
  • Gabriela Haja, Eugen Munteanu, Monumenta linguae Dacoromanorum. 1688 Bible Project, în Clarin, Newsletter of Clarin Project, nr. 8, 2010, p. 4-5(https://www.clarin.eu/content/newsletter)
  • Eugen Munteanu, Sulla tradizione biblica romena. Dissociazioni di principio, în „Quaderni della Casa Romena di Venezia“, VII, 2010. «Atti del Congresso Internazionale «La Tradizione biblica romena nel contesto europeo» (Venezia, 22 23 aprilie 2010), a cura di Eugen Munteanu, Ana Maria Gînsac, Corina Gabriela Bădeliță, Monica Joița, Editura Universității «Alexandru Ioan Cuza», Iași, 2010, p. 15-26.
  • Al. Andriescu, Psalmii în literatura română, Editura Universității „Alexandru Ioan Cuza”, Iași, 2004, 354 p. 

 

RODICA (ROmanian DIachonic Corpus with Annotations)

presă scrisă

secolul al XIX-lea

parte de vorbire

lemă

grup nominal

Accesul la această resursă este restricționat. Pentru a o descărca adresați-vă unui membru al echipei.

Versiuni
Încărcată de
Petru Rebeja
Data încărcării
Nov. 24, 2021
Descriere

Autor: Daniela Gîfu

O colecție de texte (articole din presa vremii) provenite din patru provincii istorice (Moldova, Transilvania, Țara Românească și Basarabia), tipărite în perioada 1817-2015, criptată în grafia latină. Este singura resursă pe care o putem considera suficient de reprezentativă pentru a reflecta folosirea cultivată a limbii române și care acoperă cvasi-complet perioada precizată. RODICA se dorește a face obiectul cercetării similarității lingvistice din cele patru provincii românești. Pașii întreprinși: achiziția de date textuale brute, ștergerea drepturilor de autor, OCR în unele cazuri, transliterații interpretative în altele (până în anul 1862 s-a scris cu grafie slavonă), stocarea, curățarea datelor, completarea metadatelor, prelucrarea lingvistică, analiza statistică și interpretarea rezultatelor.  A fost etichetat la parte de vorbire și lemă, este adnotat la nivel de cuvânt vechi  etichetat cu  “NotInDict”.

Ex: “… mai iantăi acistu al mieu prostatnic poem cătrŭ domnievoastrŭ” (din Cuvânt înainte de Dumitru Balica). 

<?xml version=“1.0” encoding=“UTF-8” standalone=“no”?>

<POS_Output>

<S>

    <W LEMMA=“mai” MSD=“Rg” POS=“ADVERB” id=“null.242” offset=“1323”>mai</W>

    <W Case=“direct” Definiteness=“no” EXTRA=“NotInDict” Gender=“masculine” LEMMA=“iantăi” MSD=“Afpmprn” Number=“plural” POS=“ADJECTIVE” id=“null.243” offset=“1327”>iantăi</W>

    <W Case=“direct” Definiteness=“no” EXTRA=“NotInDict” Gender=“masculine” LEMMA=“acistu” MSD=“Afpmsrn” Number=“singular” POS=“ADJECTIVE” id=“null.244” offset=“1334”>acistu</W>

    <W Case=“direct” Gender=“masculine” LEMMA=“al” MSD=“Tsmsr” Number=“singular” POS=“ARTICLE” Type=“possessive” id=“null.245” offset=“1341”>al</W>

    <W EXTRA=“NotInDict” LEMMA=“mieu” MSD=“Y” POS=“ABBREVIATION” id=“null.246” offset=“1344”>mieu</W>

    <W Case=“direct” Definiteness=“no” EXTRA=“NotInDict” Gender=“masculine” LEMMA=“prostatnic” MSD=“Afpmsrn” Number=“singular” POS=“ADJECTIVE” id=“null.247” offset=“1349”>prostatnic</W>

    <W Case=“direct” Definiteness=“no” Gender=“masculine” LEMMA=“poem” MSD=“Ncmsrn” Number=“singular” POS=“NOUN” Type=“common” id=“null.248” offset=“1360”>poem</W>

    <W Case=“direct” Definiteness=“no” EXTRA=“NotInDict” Gender=“masculine” LEMMA=“cătr” MSD=“Afpmsrn” Number=“singular” POS=“ADJECTIVE” id=“null.249” offset=“1365”>cătr</W>

    <W Case=“direct” Definiteness=“no” EXTRA=“NotInDict” Gender=“masculine” LEMMA=“domnievoastrŭ” MSD=“Afpmsrn” Number=“singular” POS=“ADJECTIVE” id=“null.250” offset=“1370”>domnievoastrŭ</W>

</S>

</POS_Output>

Tip resursă
corpus
Referințe
  •  Daniela Gifu, Mihai Dascălu, Ștefan Trăușan-Matu, Laura K. Allen. Time Evolution of Writing Styles in Romanian Language. In: Proceedings-International Conference on Tools With Artificial Intelligence, Bourbakis, N., Esposito, A., Mali, A. et al. (eds.), pp. 1048–1054, San Jose, CA: IEEE Computer Society, ISBN 2375-0197/16, DOI: 10.1109/ICTAI.2016.158 – indexed by ISI Web of Science, WOS:000404437500148.
  • Daniela Gîfu. Diachronic Analysis Using a Statistical Model. In: Proceedings of the Conference on Mathematical Foundations of Informatics, MFOI-2016, Cojocaru, S. and Gaindric, C. (eds.), Institute of Mathematics and Computer Science, Academy of Sciences of Moldova, Chișinău, 2016, pp. 208-221, ISBN: 978-9975-4237-4-8. – indexed by Mathematical Reviews, Zentralblatt MATH, MathSciNet, DBLP, DOAJ, EBSCO.
  • Daniela Gîfu. Diachronic Evaluation of Newspapers Language between Different Idioms. In: Proceedings of the IJCAI 2016 Workshop. Natural Language Processing meets Journalism, pdf, L. Birnbaum, O. Popescu and C. Strapparava (eds.), New York, USA, pp. 92-96.
  • Daniela Gîfu. The Chronology of Old Romanian Words. In: Globalization and National Identity. Studies on the Strategies of Intercultural Dialogue, pdf, I. Boldea (coord.), Vol. 3, Arhipelag XXI, Târgu-Mureș, pp. 246-262, ISBN 978-606-8624-03-7.
  • Daniela Gîfu. The Analysis of Diachronic Variation in Romanian Print Press. In: Proceedings of the First PhD Symposium on Sustainable Ultrascale Computing Systems, NESSUS PhD 2016, Carretero, J, Garcia Blas, J., Petcu, D. (eds.), Computer Architecture, Communications, and Systems Group (ARCOS), Spain, Feb. 2016, pp. 49-53, ISBN: 978-84-608-6309-0.
  • Mihai Dascălu, Daniela Gîfu. Evaluating the Complexity of Online Romanian Press. In: Proceedings of The 11th International Conference “Linguistic Resources and Tools for processing of the Romanian language”, D. Gîfu, D. Trandabăț, D. Cristea, D. Tufiș (eds.), “Alexandru Ioan Cuza” University Publishing House, Iaşi, 2015, pp. 149-162, ISSN: 1843-911X – indexed by ISI Web of Science, WOS:000461127000013.
  • Daniela Gîfu. Contrastive Diachronic Study on Romanian Language. In: Proceedings FOI-2015, pdf, S. Cojocaru, C.Gaindric (eds.), Institute of Mathematics and Computer Science, Academy of Sciences of Moldova, 2015, pp. 296-310, ISBN 978-9975-4237-3-1 – indexed by Mathematical Reviews and Zentralblatt MATH.
  • Mircea Petic, Daniela Gîfu. Transliteration and Alignment of Parallel Texts from Cyrillic to Latin. In: Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC’14), pdf, N. Calzolari (Conference Chair), K. Choukri, T. Declerck, H. Loftsson, B. Maegaard, J. Mariani, A. Moreno, J. Odijk, S. Piperidis (eds.), European Language Resources Association (ELRA), 26-31 May 2014, Reykjavik (Iceland), pp. 1819-1823, ISBN 978-2-9517408-8-4, indexed by DBLP and ISI Web of Science, WOS:000355611003069 

UAIC-RoDiaDepTb – Treebank diacronic de limbă română

corpus

sintaxă

limba română

dialoguri din media socială

limbă nestandard

româna contemporană

folclor

poezie

treebank

syntax

Romanian language

chat

social media

poetry

nonstandard Romanian

Accesul la această resursă este restricționat. Pentru a o descărca adresați-vă unui membru al echipei.

Versiuni
Încărcată de
Petru Rebeja
Data încărcării
Nov. 24, 2021
Descriere

Autori: Cătălina Mărănduc, Augusto Perez

Un treebank balansat, documentele au în titlu CHAT (social media – 2 fișiere xml) – 2500 fraze, CONT (contemporan – 9 fișiere xml) – 8444 fraze, OLD (limbă veche – 33 fișiere) – 20000 fraze și  POP (folclor – 5 fișiere xml) – 25000 fraze. Dimensiunea totală a resursei: 38.600 de fraze adnotate manual.

Exemplu 1. Corpus contemporan – 1984, George Orwell

      <treebank id=”CONT_1984_orwel”>

 <sentence id=”8″ parser=”” user=”augusto” date=”2016-05-27″>

  <word id=”1″ form=”Pe” lemma=”pe” postag=”Spsa” head=”15″ chunk=”” deprel=”c.c.l.”/>

  <word id=”2″ form=”fiecare” lemma=”fiecare” postag=”Di3-sr” head=”3″ chunk=”” deprel=”a.adj.”/>

  <word id=”3″ form=”palier” lemma=”palier” postag=”Ncmsrn” head=”1″ chunk=”” deprel=”prep.”/>

  <word id=”4″ form=”,” lemma=”,” postag=”COMMA” head=”5″ chunk=”” deprel=”punct.”/>

  <word id=”5″ form=”așezată” lemma=”așeza” postag=”Vmp–sf-p–r” head=”15″ chunk=”” deprel=”el.pred.”/>

  <word id=”6″ form=”faţă în faţă” lemma=”faţă_în_faţă” postag=”Rg” head=”5″ chunk=”” deprel=”c.c.l.”/>

  <word id=”7″ form=”cu” lemma=”cu” postag=”Spsa” head=”6″ chunk=”” deprel=”c.c.soc.”/>

  <word id=”8″ form=”ușa” lemma=”ușă” postag=”Ncfsry” head=”7″ chunk=”” deprel=”prep.”/>

  <word id=”9″ form=”liftului” lemma=”lift” postag=”Ncmsoy” head=”8″ chunk=”” deprel=”a.subst.”/>

  <word id=”10″ form=”,” lemma=”,” postag=”COMMA” head=”5″ chunk=”” deprel=”punct.”/>

  <word id=”11″ form=”figura” lemma=”figură” postag=”Ncfsry” head=”15″ chunk=”” deprel=”sbj.”/>

  <word id=”12″ form=”cea” lemma=”cel” postag=”Tdfsr” head=”13″ chunk=”” deprel=”det.”/>

  <word id=”13″ form=”enormă” lemma=”enorm” postag=”Afpfsrn” head=”11″ chunk=”” deprel=”a.adj.”/>

  <word id=”14″ form=”îl” lemma=”el” postag=”Pp3msa——–w” head=”15″ chunk=”” deprel=”c.d.”/>

  <word id=”15″ form=”privea” lemma=”privi” postag=”Vmii3s” head=”0″ chunk=””/>

  <word id=”16″ form=”fix” lemma=”fix” postag=”Rg” head=”15″ chunk=”” deprel=”c.c.m.”/>

  <word id=”17″ form=”din” lemma=”din” postag=”Spca” head=”15″ chunk=”” deprel=”c.c.l.”/>

  <word id=”18″ form=”perete” lemma=”perete” postag=”Ncmsrn” head=”17″ chunk=”” deprel=”prep.”/>

  <word id=”19″ form=”.” lemma=”.” postag=”PERIOD” head=”15″ chunk=”” deprel=”punct.”/>

 </sentence>

    ….

</treebank>

Exemplu 2. Corpus de limbă veche, secolul XVI, Pravila lui Coresi, 1560

<treebank id=”OLD_XVI_CORESI_Prav_1560″>

<sentence id=”2″ parser=”Victoria&apos;s parser” user=”ugla” date=”2020-27-23″>

  <word id=”1″ form=”Nu” lemma=”nu” postag=”Qz” head=”2″ chunk=”” deprel=”neg.”/>

  <word id=”2″ form=”priimeşti” lemma=”priimeşti” postag=”Vmip2s” head=”0″ chunk=””/>

  <word id=”3″ form=”Dumnezeu” lemma=”Dumnezeu” postag=”Npmsrn” head=”2″ chunk=”” deprel=”sbj.”/>

  <word id=”4″ form=”,” lemma=”,” postag=”COMMA” head=”5″ chunk=”” deprel=”punct.”/>

  <word id=”5″ form=”ce” lemma=”ce” postag=”Ccssp” head=”2″ chunk=”” deprel=”coord.”/>

  <word id=”6″ form=”priimeaşte” lemma=”primi” postag=”Vmip3s” head=”5″ chunk=”” deprel=”coord.”/>

  <word id=”7″ form=”Dumnezeul” lemma=”Dumnezeu” postag=”Npmsry” head=”6″ chunk=”” deprel=”sbj.”/>

  <word id=”8″ form=”acela” lemma=”acela” postag=”Dd3msr—o” head=”6″ chunk=”” deprel=”c.d.”/>

  <word id=”9″ form=”ce” lemma=”ce” postag=”Pw3–r” head=”8″ chunk=”” deprel=”a.vb.”/>

  <word id=”10″ form=”se” lemma=”sine” postag=”Px3–a——–w” head=”11″ chunk=”” deprel=”refl.”/>

  <word id=”11″ form=”roagă” lemma=”ruga” postag=”Vmip3s” head=”9″ chunk=”” deprel=”subord.”/>

  <word id=”12″ form=”bine” lemma=”bine” postag=”Rg” head=”11″ chunk=”” deprel=”c.c.m.”/>

  <word id=”13″ form=”.” lemma=”.” postag=”PERIOD” head=”2″ chunk=”” deprel=”punct.”/>

 </sentence>

….

</treebank>

Tip resursă
corpus
Referințe
  • Perez, C.-A, Linguistic Resources for Natural Language Processing, PhD thesis, Al. I. Cuza University, Iași, 2014.
  • Perez, C-A., A Syntactically Annotated Treebank Corpus for the Romanian Language, in the 14th International Conference of the Department of Linguistics, organized by the Faculty of Letters, University of Bucharest, 2014.
  • Perez, C.-A., C. Mărănduc, R. Simionescu, Including Social Media, a Very Dynamic Style, in the Corpora for Processing Romanian Language, in Proceedings at EUROLAN 2015. Springer Publishing, Switzerland, 139–153, 2016. https://link.springer.com/chapter/10.1007/978-3-319-32942-0_10
  • Perez, C.-A., C. Mărănduc, R. Simionescu, Social Media – Processing Romanian Chats and Discourse Analysis, Computación y Sistemas 20, 3, 404–414, 2016. http://dx.doi.org/10.13053/cys-20-3-2453.
  • Mărănduc, C., C.-A. Perez, A Resource for the Written Romanian: the UAIC Dependency Treebank, in Proceedings of ConsILR, Mălini, 27-29 Oct. pp. 79-90, 2016.
  • Mărănduc, C., F. Hociung, V. Bobicev, Treebank Annotator for multiple formats and conventions. 2017b Proceedings of The 4th Conference of Mathematical and Computer Science Society of the Republic of Moldova, pp. 529-534, 2017.
  • Mărănduc C., L. Malahov, C.-A. Perez, A. Colesnicov, RoDia project of a regional and historical corpus for Romanian, in Proceedings of MFOI, Chișinău, p. 268-284, 2016.
  • Mărănduc C., V. Bobicev, R. Untilov, Morpho-Syntactic Regularities in UD_Romanian-Nonstandard Parsing, in Proceedings of ConsILR, Cluj, 18-20 Nov. 2019, Iași, Al. I. Cuza University Publishing House, 2019.

Presidency

înregistrare audio

transcriere

Accesul la această resursă este restricționat. Pentru a o descărca adresați-vă unui membru al echipei.

Versiuni
Încărcată de
Laura Pistol
Data încărcării
Nov. 2, 2023
Descriere

Colecție de înregistrări audio și transcrierile aferente reprezentând declarații și conferințe de presă susținute de către Președintele României, Klaus Iohannis, în perioada ianuarie – octombrie 2021. Resursa însumează șase ore de înregistrări audio, peste 60 de jurnaliști (>40 gen feminin și 20 gen masculin). Pașii întreprinși: achiziția de înregistrări audio și transcrieri (www.presidency.ro), prelucrarea înregistrărilor audio în vederea stocării lor în format WAV, editarea prin completarea transcrierilor audio în vederea obținerii unui text fidel cu înregistrarea, completarea metadatelor.

Tip resursă
corpus
Referințe