Fișe tehnologice


May 17, 2022 • Cristian, Padurariu

lda

dirichelt

clustering

Producător/Autor: Blei  et al., 2003; Li-Jia & Fei-Fei, 2007;

Latent Dirichlet Analysis este un model utilizat pentru clusterizarea unui corpus. Poate fi implementat un proces generativ de clusterizare nesupervizată a fluxului de știri pentru determinarea automată a similarităților detectabile în corpus. Intuiția principală a acestei tehnici este că putem asocia în mod automat fiecărui cuvânt o probabilitate de a semnala un tip de similaritate între cuvinte …

May 17, 2022 • Cristian, Padurariu

svm

support vectors

Producător/Autor: Nello & Shawe-Taylor, 2000; Tong & Chang, 2001;

SVM este un model și o tehnică de clasificare a datelor, care presupune existența unui set de date pentru antrenare și un set de date de testare. Fiecare instanță din setul de antrenare este deja clasificată ca aparținând unei anumite clase, iar acest set de date este folosit pentru a crea un model care este capabil să eticheteze instanțele din setul de testare ca aparținând unei anumite clase. SVM caută so…

May 17, 2022 • Cristian, Padurariu

nltk

nlp

toolkit

Autori: Steven Bird (Australia), Edward Loper (USA), Ewan Klein (USA), etc.; 

A fost dezvoltat la Universitatea din Pennsylvania

NLTK reprezintă o multitudine de module program open source, tutoriale și probleme, oferind cursuri de lingvistică computațională. NLTK acoperă procesarea limbajului natural (simbolică și statistică), fiind și o interfață la corpusuri adnotate. NLTK rulează pe toate platformele suportate de Python, inclusiv Windows, OS X, Linux și Unix. Tipul resursei: plat…

May 17, 2022 • Cristian, Padurariu

graph

neural networks

The method “generalizes and extends various approaches for neural networks that operate on graphs, and provides a straightforward interface for manipulating structured knowledge and producing structured behaviors”. Tipul resursei: model/metodă; Scop: raționament neural care lucrează cu relații (în grafuri) în loc de caracteristici.

Producător: DeepMind

May 17, 2022 • Cristian, Padurariu

nlp

ner

pos

Bibliotecă open-source de prelucrări a limbajului natural (Sentence Splitting, Tokenization, Lemmatization, Part-of-speech Tagging, Dependency Parsing and Named Entity Recognition) bazată pe modele Deep Learning. Tipul resursei: platformă.

Producător: Adobe;

May 17, 2022 • Cristian, Padurariu

glove

word embeddings

GloVe este o metoda nesupervizată de obținere de reprezentări vectoriale pentru cuvinte. Antrenarea se realizează pe o matrice de co-ocurențe între cuvinte, extrasă dintr-un corpus. Reprezentarea rezultată are rolul de a surprinde relații între cuvinte cu sensuri asemănătoare sau care se regăsesc în contexte similare. La adresa indicată se pot descărca modele pentru diverse limbi. Tipul resursei: model; Scop: obținerea reprezentărilor vectoriale pentru cuvintele unui corpus.&n…

May 17, 2022 • Cristian, Padurariu

elmo

word embeddings

ELMo este o metodă de reprezentare vectorială a cuvintelor care modelează caracteristici complexe ale cuvintelor (ex. sintaxa sau semantică) și modul în care acestea variază în diverse contexte lingvistice. Astfel, se propune o soluție pentru problema polisemiei cuvintelor. Modelele pre-antrenate pot fi adăugate cu ușurință peste reprezentări deja existente. S-a demonstrat experimental că ELMo ajută la îmbunătățirea multor rezultate state-of-the-art pentru mai multe probleme d…

May 17, 2022 • Cristian, Padurariu

char embeddings

nlp

Fiecare simbol din text este reprezentat sub forma unui vector al cărui număr de elemente este egal cu numărul de simboluri distincte din text, transformând astfel textul dintr-o secvență de simboluri (litere și caractere speciale) într-o secvență de vectori.

May 17, 2022 • Cristian, Padurariu

tensorflow

deep learning

neural networks

Platformă open-source pentru învățare automată, care pune la dispoziția utilizatorului un set complet de componente necesare pentru construirea modelelor bazate pe rețele neuronale. Tipul resursei: platformă; Exemplu de utilizare: antrenarea unui model neuronal pentru segmentarea clauzelor din text.

Producător: inițial Google; în prezent proiectul este open-source

May 17, 2022 • Cristian, Padurariu

seq2seq

nlp

embeddings

Modelul este compus din două părți:

– Codificatorul/codorul care primește la intrare o propoziție în limba engleză și o transformă într-o reprezentare vectorială.

– Decodorul care primește reprezentarea vectorială a propoziției în limba sursă și o transformă în propoziția corespunzătoare din limba țintă.

Atât codificatorul cât și decodorul au la baza celule Long Short-Term Memory (v. fișa Long Short-Term Memory).

Autori: Ilya Sutskever…