lda
dirichelt
clustering
Producător/Autor: Blei et al., 2003; Li-Jia & Fei-Fei, 2007;
Latent Dirichlet Analysis este un model utilizat pentru clusterizarea unui corpus. Poate fi implementat un proces generativ de clusterizare nesupervizată a fluxului de știri pentru determinarea automată a similarităților detectabile în corpus. Intuiția principală a acestei tehnici este că putem asocia în mod automat fiecărui cuvânt o probabilitate de a semnala un tip de similaritate între cuvinte …
svm
support vectors
Producător/Autor: Nello & Shawe-Taylor, 2000; Tong & Chang, 2001;
SVM este un model și o tehnică de clasificare a datelor, care presupune existența unui set de date pentru antrenare și un set de date de testare. Fiecare instanță din setul de antrenare este deja clasificată ca aparținând unei anumite clase, iar acest set de date este folosit pentru a crea un model care este capabil să eticheteze instanțele din setul de testare ca aparținând unei anumite clase. SVM caută so…
nltk
nlp
toolkit
Autori: Steven Bird (Australia), Edward Loper (USA), Ewan Klein (USA), etc.;
A fost dezvoltat la Universitatea din Pennsylvania
NLTK reprezintă o multitudine de module program open source, tutoriale și probleme, oferind cursuri de lingvistică computațională. NLTK acoperă procesarea limbajului natural (simbolică și statistică), fiind și o interfață la corpusuri adnotate. NLTK rulează pe toate platformele suportate de Python, inclusiv Windows, OS X, Linux și Unix. Tipul resursei: plat…
graph
neural networks
The method “generalizes and extends various approaches for neural networks that operate on graphs, and provides a straightforward interface for manipulating structured knowledge and producing structured behaviors”. Tipul resursei: model/metodă; Scop: raționament neural care lucrează cu relații (în grafuri) în loc de caracteristici.
Producător: DeepMind
nlp
ner
pos
Bibliotecă open-source de prelucrări a limbajului natural (Sentence Splitting, Tokenization, Lemmatization, Part-of-speech Tagging, Dependency Parsing and Named Entity Recognition) bazată pe modele Deep Learning. Tipul resursei: platformă.
Producător: Adobe;
glove
word embeddings
GloVe este o metoda nesupervizată de obținere de reprezentări vectoriale pentru cuvinte. Antrenarea se realizează pe o matrice de co-ocurențe între cuvinte, extrasă dintr-un corpus. Reprezentarea rezultată are rolul de a surprinde relații între cuvinte cu sensuri asemănătoare sau care se regăsesc în contexte similare. La adresa indicată se pot descărca modele pentru diverse limbi. Tipul resursei: model; Scop: obținerea reprezentărilor vectoriale pentru cuvintele unui corpus.&n…
elmo
word embeddings
ELMo este o metodă de reprezentare vectorială a cuvintelor care modelează caracteristici complexe ale cuvintelor (ex. sintaxa sau semantică) și modul în care acestea variază în diverse contexte lingvistice. Astfel, se propune o soluție pentru problema polisemiei cuvintelor. Modelele pre-antrenate pot fi adăugate cu ușurință peste reprezentări deja existente. S-a demonstrat experimental că ELMo ajută la îmbunătățirea multor rezultate state-of-the-art pentru mai multe probleme d…
char embeddings
nlp
Fiecare simbol din text este reprezentat sub forma unui vector al cărui număr de elemente este egal cu numărul de simboluri distincte din text, transformând astfel textul dintr-o secvență de simboluri (litere și caractere speciale) într-o secvență de vectori.
tensorflow
deep learning
neural networks
Platformă open-source pentru învățare automată, care pune la dispoziția utilizatorului un set complet de componente necesare pentru construirea modelelor bazate pe rețele neuronale. Tipul resursei: platformă; Exemplu de utilizare: antrenarea unui model neuronal pentru segmentarea clauzelor din text.
Producător: inițial Google; în prezent proiectul este open-source
seq2seq
nlp
embeddings
Modelul este compus din două părți:
– Codificatorul/codorul care primește la intrare o propoziție în limba engleză și o transformă într-o reprezentare vectorială.
– Decodorul care primește reprezentarea vectorială a propoziției în limba sursă și o transformă în propoziția corespunzătoare din limba țintă.
Atât codificatorul cât și decodorul au la baza celule Long Short-Term Memory (v. fișa Long Short-Term Memory).
Autori: Ilya Sutskever…