RoBERT – A Romanian BERT Mode

Se introduce un model BERT preinstruit doar în limba română – ROBERT – care este comparat cu diferite modele multilingve pe șapte sarcini PLN specifice limbii române, grupate în trei categorii și anume: analiza sentimentelor, identificarea dialectelor și a subiectelor încrucișate și refacerea diacriticelor. În vederea preinstruirii modelului RoBERT, a fost construit un corpus românesc, extras din mai multe surse, variind de la text aleatoriu, accesat cu crawlere de pe Internet, la surse mai formale (ex: Wikipedia, cărți sau ziare). Corpusul a fost alcătuit din trei surse principale: Romanian Wikipedia dump, un corpus românesc creat de Oscar (Javier Ortiz Suarez et al., 2019), împreună cu colecția RoTex (https://github.com/aleris/ReadME-RoTex-Corpus-Builder from which the following sources were considered: ”biblior”, ”biblioteca-digitala-ase”, ”bestseller-md”, ”litera-net”, ”bzi”, ”dcep”, ”dezbateri-parlamentare”, ”dgt-aquis”, ”paul-goma”, ”rudolf-steiner” and ”ziarul-lumina”). Modelul depășește modelele multilingve, precum și o altă implementare monolingvă a BERT

  1. Mihai Masala, Stefan Ruseti, Mihai Dascalu (2020). RoBERT – A Romanian BERT Model. COLING 2020: 6626-6637, link: https://aclanthology.org/2020.coling-main.581.pdf 
  2. Pedro Javier Ortiz Suarez et al. 2019. Asynchronous Pipeline for Processing Huge Corpora on Medium to Low Resource Infrastructures. In the 7th Workshop on the Challenges in the Management of Large Corpora (CMLC-7).

Leave a Reply

Your email address will not be published. Required fields are marked*