RoBERT – A Romanian BERT Mode

bert

roBERT

word embeddings

Data încărcării
May 17, 2022
Autor
Cristian Padurariu
Descriere

Se introduce un model BERT preinstruit doar în limba română – ROBERT – care este comparat cu diferite modele multilingve pe șapte sarcini PLN specifice limbii române, grupate în trei categorii și anume: analiza sentimentelor, identificarea dialectelor și a subiectelor încrucișate și refacerea diacriticelor. În vederea preinstruirii modelului RoBERT, a fost construit un corpus românesc, extras din mai multe surse, variind de la text aleatoriu, accesat cu crawlere de pe Internet, la surse mai formale (ex: Wikipedia, cărți sau ziare). Corpusul a fost alcătuit din trei surse principale: Romanian Wikipedia dump, un corpus românesc creat de Oscar (Javier Ortiz Suarez et al., 2019), împreună cu colecția RoTex (https://github.com/aleris/ReadME-RoTex-Corpus-Builder from which the following sources were considered: ”biblior”, ”biblioteca-digitala-ase”, ”bestseller-md”, ”litera-net”, ”bzi”, ”dcep”, ”dezbateri-parlamentare”, ”dgt-aquis”, ”paul-goma”, ”rudolf-steiner” and ”ziarul-lumina”). Modelul depășește modelele multilingve, precum și o altă implementare monolingvă a BERT

Referințe