Word Embeddings este una dintre cele mai populare reprezentări ale vocabularului. Modelul este capabil să capteze contextul unui cuvânt într-un document, similaritatea semantică și sintactică a cuvintelor, relația cu alte cuvinte etc., utilizând pentru aceasta reprezentări vectoriale.
Să luăm ca exemplu următoarele fraze similare: “Ai o zi bună” și “Ai o zi minunată”. Ele au aproximativ același sens, iar dacă construim un vocabular exhaustiv (să îl numim V), acesta ar fi V = {Ai, o, zi, bună, minunată}.
Acum, să creăm un vector codificat pentru fiecare dintre aceste cuvinte din V. Lungimea vectorului nostru va fi egală cu dimensiunea lui V (= 5). Dacă vectorul este lung, multe valori vor fi zerouri, nenule fiind doar elementele de la indecșii ce reprezintă cuvintele din vocabular ce se găsesc și în contextul cuvântului dat.
Putem să vizualizăm aceste codificări într-un spațiu de 5 dimensiuni, în care fiecare cuvânt ocupă una dintre dimensiuni și nu are nimic de-a face cu restul (nici o proiecție de-a lungul celorlalte dimensiuni). Acest lucru înseamnă că “bună” și “minunată” sunt la fel de diferite ca “ziua” și “ai”, ceea ce, de fapt, nu este adevărat. De aici ideea de a genera reprezentări distribuite. Intuitiv, introducem o dependență a unui cuvânt de celelalte cuvinte.
Tipul resursei: model.
Scop: identificarea similarității semantice și sintactice a cuvintelor, relația cu alte cuvinte.
- Word embeddings, https://cbail.github.io/textasdata/word2vec/rmarkdown/word2vec.html
- Mikolov Tomas, Sutskever Ilya, Chen Kai, Corrado Greg, Dean, Jeffrey (2013), Distributed Representations of Words and Phrases and their Compositionality, https://arxiv.org/abs/1310.4546
- Levy Omer, Goldberg Yoav (2014), Linguistic Regularities in Sparse and Explicit Word Representations
- https://towardsdatascience.com/introduction-to-word-embedding-and-word2vec-652d0c2060fa,
- https://towardsdatascience.com/what-the-heck-is-word-embedding-b30f67f01c81