Fișe tehnologice

Long Short-Term Memory

Cod

May 17, 2022 • Cristian, Padurariu

lstm

rnn

Pagină web

Rețea neuronală recurentă, specializată pentru procesarea de secvențe, dotată cu memorie internă și mecanisme de acces la memorie numite ecluze/porți (gates în engleză). Ecluzele reglementează cantitatea de informație care este stocată în memoria rețelei, cantitatea de informație care este ștearsă din memorie și - deoarece rețeaua se ocupă de procesarea de secvențe - cantitatea de informație utilă pentru procesarea următorului element din secvență. În cazul experimentului de s…

TensorBoard

Cod

May 17, 2022 • Cristian, Padurariu

tensorboard

tensorflow

Pagină web

TensorBoard oferă posibilitatea de a urmări evoluția modelului antrenat prin crearea de grafice care afișează diverse metrici selectate de utilizator la dezvoltarea modelului. În plus, TensorBoard oferă posibilitatea de a vizualiza întreg graful computațional care stă la baza modelului antrenat. Tipul resursei: componentă TensorFlow; Scop: vizualizarea evoluției modelului antrenat.

Word2Vec

Cod

May 17, 2022 • Cristian, Padurariu

word2vec

word embeddings

Pagină web

Există două modele Word2Vec (ambele implicând rețele neuronale): Skip Gram și Common Bag of Words (CBOW).

Modelul CBOW: contextul fiecărui cuvânt este considerat intrare, ieșirea încercând să prezică cuvântul corespunzător contextului. Să luăm în considerare exemplul nostru: „Ai o zi minunată”.

Lăsând intrarea în rețeaua neurală să fie cuvântul „minunat”, să observăm că aici încercăm să prezicem un cuv&aci…

PyMagnitude

Cod

May 17, 2022 • Cristian, Padurariu

PyMagnitude

library

Pagină web

Este un pachet dezvoltat cu intenția de a folosi vector embeddings în machine learning și de a oferi o alternativă mai simplă și mai rapidă pentru Gensim. Principala caracteristică este utilizarea unui format unic de documente (.magnitude) care ajută foarte mult la îmbunătățirea timpului de căutare și de încărcare a vectorilor, în funcție de chei. Este folosit SQLite pentru a stoca și indexa datele, astfel timpul de căutare se îmbunătățește de la rulare la rulare.&…

CTC: Connectionist Temporal Classification

Cod

May 17, 2022 • Cristian, Padurariu

ctc

rnn

Pagină web

Multe sarcini de învățare a secvențelor din lumea reală necesită predicția secvențelor de etichete din date de intrare zgomotoase, nesegmentate. În recunoașterea vorbirii, de exemplu, semnalul acustic este transcris în cuvinte sau subcuvinte (unități). Rețelele neuronale recurente (RNN) reușesc să învețe cu succes secvențe, deci ar părea potrivite pentru astfel de sarcini. Cu toate acestea, pentru că au nevoie de date de antrenament pre-segmentate și post-procesate pentr…

RoBERT – A Romanian BERT Mode

Cod

May 17, 2022 • Cristian, Padurariu

bert

roBERT

word embeddings

Pagină web

Se introduce un model BERT preinstruit doar în limba română – ROBERT – care este comparat cu diferite modele multilingve pe șapte sarcini PLN specifice limbii române, grupate în trei categorii și anume: analiza sentimentelor, identificarea dialectelor și a subiectelor încrucișate și refacerea diacriticelor. În vederea preinstruirii modelului RoBERT, a fost construit un corpus românesc, extras din mai multe surse, variind de la text aleatoriu…

Rețele neuronale recurente de tip codor-decodor (RNN encoder-decoders)

Cod

May 17, 2022 • Cristian, Padurariu

encoder

decoder

seq2seq

rnn

În paradigma traducerii automate (TA), o rețea neurală codoare citește și codifică o frază din intrare dată în limba sursă într-un vector de lungime fixă, în timp ce decodorul produce în ieșire o traducere în limba țintă din vectorul codat. Perechea codor-decodor sunt antrenate pentru a produce traduceri corecte pentru perechea de limbi sursă-țintă.

Practic, intrarea de lungime variabilă este codată mai &ici…

Atenția (attention-based approaches)

Cod

May 17, 2022 • Cristian, Padurariu

attention

Pagină web

[Bahdanau et al., 2015] propun modelul de rețea care prezice cuvântul țintă, ținând cont cu predilecție de anumite cuvinte din fraza de intrare. Acest mecanism reflectă atenția focalizată, pe care oamenii o aplică instinctiv în enorm de multe activități mentale, atunci când o decizie se bazează doar pe unele dintre semnele pe care le avem la dispoziție, anumite părți ale tabloului pe care îl decodificăm fiind mai importante decât altele. De exemplu, în …

RoVG - Romanian Verbal Group Tagger

Cod

May 17, 2022 • Cristian, Padurariu

tagger

grupuri verbale

Un set de reguli de parsare a grupurilor verbale. Abordare simbolică.

eDTLR extraction software

Cod

May 17, 2022 • Cristian, Padurariu

Parsare dicționare

Creat special pentru DR+DLR. Poate fi generalizat pentru digitizarea altor tipuri de dicționare.