Fișe tehnologice

LDA (Latent Dirichlet Analysis)

Cod

May 17, 2022 • Cristian, Padurariu

lda

dirichelt

clustering

Pagină web

Producător/Autor: Blei et al., 2003; Li-Jia & Fei-Fei, 2007;

Latent Dirichlet Analysis este un model utilizat pentru clusterizarea unui corpus. Poate fi implementat un proces generativ de clusterizare nesupervizată a fluxului de știri pentru determinarea automată a similarităților detectabile în corpus. Intuiția principală a acestei tehnici este că putem asocia în mod automat fiecărui cuvânt o probabilitate de a semnala un tip de similaritate între cuvinte …

Support Vector Machine (SVM)

Cod

May 17, 2022 • Cristian, Padurariu

svm

support vectors

Pagină web

Producător/Autor: Nello & Shawe-Taylor, 2000; Tong & Chang, 2001;

SVM este un model și o tehnică de clasificare a datelor, care presupune existența unui set de date pentru antrenare și un set de date de testare. Fiecare instanță din setul de antrenare este deja clasificată ca aparținând unei anumite clase, iar acest set de date este folosit pentru a crea un model care este capabil să eticheteze instanțele din setul de testare ca aparținând unei anumite clase. SVM caută so…

Natural Language Toolkit (NLTK)

Cod

May 17, 2022 • Cristian, Padurariu

nltk

nlp

toolkit

Pagină web

Autori: Steven Bird (Australia), Edward Loper (USA), Ewan Klein (USA), etc.;

A fost dezvoltat la Universitatea din Pennsylvania

NLTK reprezintă o multitudine de module program open source, tutoriale și probleme, oferind cursuri de lingvistică computațională. NLTK acoperă procesarea limbajului natural (simbolică și statistică), fiind și o interfață la corpusuri adnotate. NLTK rulează pe toate platformele suportate de Python, inclusiv Windows, OS X, Linux și Unix. Tipul resursei: plat…

Graph networks (Relational Neural Networks)

Cod

May 17, 2022 • Cristian, Padurariu

graph

neural networks

Pagină web

The method “generalizes and extends various approaches for neural networks that operate on graphs, and provides a straightforward interface for manipulating structured knowledge and producing structured behaviors”. Tipul resursei: model/metodă; Scop: raționament neural care lucrează cu relații (în grafuri) în loc de caracteristici.

Producător: DeepMind

NLP-Cube

Cod

May 17, 2022 • Cristian, Padurariu

nlp

ner

pos

Pagină web

Bibliotecă open-source de prelucrări a limbajului natural (Sentence Splitting, Tokenization, Lemmatization, Part-of-speech Tagging, Dependency Parsing and Named Entity Recognition) bazată pe modele Deep Learning. Tipul resursei: platformă.

Producător: Adobe;

GloVe embeddings

Cod

May 17, 2022 • Cristian, Padurariu

glove

word embeddings

Pagină web

GloVe este o metoda nesupervizată de obținere de reprezentări vectoriale pentru cuvinte. Antrenarea se realizează pe o matrice de co-ocurențe între cuvinte, extrasă dintr-un corpus. Reprezentarea rezultată are rolul de a surprinde relații între cuvinte cu sensuri asemănătoare sau care se regăsesc în contexte similare. La adresa indicată se pot descărca modele pentru diverse limbi. Tipul resursei: model; Scop: obținerea reprezentărilor vectoriale pentru cuvintele unui corpus.&n…

ELMo embeddings

Cod

May 17, 2022 • Cristian, Padurariu

elmo

word embeddings

Pagină web

ELMo este o metodă de reprezentare vectorială a cuvintelor care modelează caracteristici complexe ale cuvintelor (ex. sintaxa sau semantică) și modul în care acestea variază în diverse contexte lingvistice. Astfel, se propune o soluție pentru problema polisemiei cuvintelor. Modelele pre-antrenate pot fi adăugate cu ușurință peste reprezentări deja existente. S-a demonstrat experimental că ELMo ajută la îmbunătățirea multor rezultate state-of-the-art pentru mai multe probleme d…

Character-level embeddings

Cod

May 17, 2022 • Cristian, Padurariu

char embeddings

nlp

Pagină web

Fiecare simbol din text este reprezentat sub forma unui vector al cărui număr de elemente este egal cu numărul de simboluri distincte din text, transformând astfel textul dintr-o secvență de simboluri (litere și caractere speciale) într-o secvență de vectori.

TensorFlow

Cod

May 17, 2022 • Cristian, Padurariu

tensorflow

deep learning

neural networks

Pagină web

Platformă open-source pentru învățare automată, care pune la dispoziția utilizatorului un set complet de componente necesare pentru construirea modelelor bazate pe rețele neuronale. Tipul resursei: platformă; Exemplu de utilizare: antrenarea unui model neuronal pentru segmentarea clauzelor din text.

Producător: inițial Google; în prezent proiectul este open-source

Seq2seq (Sequence to sequence learning)

Cod

May 17, 2022 • Cristian, Padurariu

seq2seq

nlp

embeddings

Pagină web

Modelul este compus din două părți:

– Codificatorul/codorul care primește la intrare o propoziție în limba engleză și o transformă într-o reprezentare vectorială.

– Decodorul care primește reprezentarea vectorială a propoziției în limba sursă și o transformă în propoziția corespunzătoare din limba țintă.

Atât codificatorul cât și decodorul au la baza celule Long Short-Term Memory (v. fișa Long Short-Term Memory).

Autori: Ilya Sutskever…