RODICA (ROmanian DIachonic Corpus with Annotations)

Accesul la această resursă este restricționat. Pentru a o descărca adresați-vă unui membru al echipei.

Autor: Daniela Gîfu

O colecție de texte (articole din presa vremii) provenite din patru provincii istorice (Moldova, Transilvania, Țara Românească și Basarabia), tipărite în perioada 1817-2015, criptată în grafia latină. Este singura resursă pe care o putem considera suficient de reprezentativă pentru a reflecta folosirea cultivată a limbii române și care acoperă cvasi-complet perioada precizată. RODICA se dorește a face obiectul cercetării similarității lingvistice din cele patru provincii românești. Pașii întreprinși: achiziția de date textuale brute, ștergerea drepturilor de autor, OCR în unele cazuri, transliterații interpretative în altele (până în anul 1862 s-a scris cu grafie slavonă), stocarea, curățarea datelor, completarea metadatelor, prelucrarea lingvistică, analiza statistică și interpretarea rezultatelor.  A fost etichetat la parte de vorbire și lemă, este adnotat la nivel de cuvânt vechi  etichetat cu  “NotInDict”.

Ex: “… mai iantăi acistu al mieu prostatnic poem cătrŭ domnievoastrŭ” (din Cuvânt înainte de Dumitru Balica). 

<?xml version=“1.0” encoding=“UTF-8” standalone=“no”?>

<POS_Output>

<S>

    <W LEMMA=“mai” MSD=“Rg” POS=“ADVERB” id=“null.242” offset=“1323”>mai</W>

    <W Case=“direct” Definiteness=“no” EXTRA=“NotInDict” Gender=“masculine” LEMMA=“iantăi” MSD=“Afpmprn”Number=“plural” POS=“ADJECTIVE” id=“null.243” offset=“1327”>iantăi</W>

    <W Case=“direct” Definiteness=“no” EXTRA=“NotInDict” Gender=“masculine” LEMMA=“acistu” MSD=“Afpmsrn”Number=“singular” POS=“ADJECTIVE” id=“null.244” offset=“1334”>acistu</W>

    <W Case=“direct” Gender=“masculine” LEMMA=“al” MSD=“Tsmsr” Number=“singular” POS=“ARTICLE”Type=“possessive” id=“null.245” offset=“1341”>al</W>

    <W EXTRA=“NotInDict” LEMMA=“mieu” MSD=“Y” POS=“ABBREVIATION” id=“null.246” offset=“1344”>mieu</W>

    <W Case=“direct” Definiteness=“no” EXTRA=“NotInDict” Gender=“masculine” LEMMA=“prostatnic” MSD=“Afpmsrn”Number=“singular” POS=“ADJECTIVE” id=“null.247” offset=“1349”>prostatnic</W>

    <W Case=“direct” Definiteness=“no” Gender=“masculine” LEMMA=“poem” MSD=“Ncmsrn” Number=“singular”POS=“NOUN” Type=“common” id=“null.248” offset=“1360”>poem</W>

    <W Case=“direct” Definiteness=“no” EXTRA=“NotInDict” Gender=“masculine” LEMMA=“cătr” MSD=“Afpmsrn”Number=“singular” POS=“ADJECTIVE” id=“null.249” offset=“1365”>cătr</W>

    <W Case=“direct” Definiteness=“no” EXTRA=“NotInDict” Gender=“masculine” LEMMA=“domnievoastrŭ”MSD=“Afpmsrn” Number=“singular” POS=“ADJECTIVE” id=“null.250” offset=“1370”>domnievoastrŭ</W>

</S>

</POS_Output>

  • corpus
  1. Daniela Gifu, Mihai Dascălu, Ștefan Trăușan-Matu, Laura K. Allen. Time Evolution of Writing Styles in Romanian Language. In: Proceedings-International Conference on Tools With Artificial Intelligence, Bourbakis, N., Esposito, A., Mali, A. et al. (eds.), pp. 1048–1054, San Jose, CA: IEEE Computer Society, ISBN 2375-0197/16, DOI: 10.1109/ICTAI.2016.158 – indexed by ISI Web of Science, WOS:000404437500148.
  2. Daniela Gîfu. Diachronic Analysis Using a Statistical Model. In: Proceedings of the Conference on Mathematical Foundations of Informatics, MFOI-2016, Cojocaru, S. and Gaindric, C. (eds.), Institute of Mathematics and Computer Science, Academy of Sciences of Moldova, Chișinău, 2016, pp. 208-221, ISBN: 978-9975-4237-4-8. – indexed by Mathematical Reviews, Zentralblatt MATH, MathSciNet, DBLP, DOAJ, EBSCO.
  3. Daniela Gîfu. Diachronic Evaluation of Newspapers Language between Different Idioms. In: Proceedings of the IJCAI 2016 Workshop. Natural Language Processing meets Journalism, pdf, L. Birnbaum, O. Popescu and C. Strapparava (eds.), New York, USA, pp. 92-96.
  4. Daniela Gîfu. The Chronology of Old Romanian Words. In: Globalization and National Identity. Studies on the Strategies of Intercultural Dialogue, pdf, I. Boldea (coord.), Vol. 3, Arhipelag XXI, Târgu-Mureș, pp. 246-262, ISBN 978-606-8624-03-7.
  5. Daniela Gîfu. The Analysis of Diachronic Variation in Romanian Print Press. In: Proceedings of the First PhD Symposium on Sustainable Ultrascale Computing Systems, NESSUS PhD 2016, Carretero, J, Garcia Blas, J., Petcu, D. (eds.), Computer Architecture, Communications, and Systems Group (ARCOS), Spain, Feb. 2016, pp. 49-53, ISBN: 978-84-608-6309-0.
  6. Mihai Dascălu, Daniela Gîfu. Evaluating the Complexity of Online Romanian Press. In: Proceedings of The 11th International Conference “Linguistic Resources and Tools for processing of the Romanian language”, D. Gîfu, D. Trandabăț, D. Cristea, D. Tufiș (eds.), “Alexandru Ioan Cuza” University Publishing House, Iaşi, 2015, pp. 149-162, ISSN: 1843-911X – indexed by ISI Web of Science, WOS:000461127000013.
  7. Daniela Gîfu. Contrastive Diachronic Study on Romanian Language. In: Proceedings FOI-2015, pdf, S. Cojocaru, C.Gaindric (eds.), Institute of Mathematics and Computer Science, Academy of Sciences of Moldova, 2015, pp. 296-310, ISBN 978-9975-4237-3-1 – indexed by Mathematical Reviews and Zentralblatt MATH.
  8. Mircea Petic, Daniela Gîfu. Transliteration and Alignment of Parallel Texts from Cyrillic to Latin. In: Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC’14), pdf, N. Calzolari (Conference Chair), K. Choukri, T. Declerck, H. Loftsson, B. Maegaard, J. Mariani, A. Moreno, J. Odijk, S. Piperidis (eds.), European Language Resources Association (ELRA), 26-31 May 2014, Reykjavik (Iceland), pp. 1819-1823, ISBN 978-2-9517408-8-4, indexed by DBLP and ISI Web of Science, WOS:000355611003069 

Leave a Reply

Your email address will not be published. Required fields are marked*