Există două modele Word2Vec (ambele implicând rețele neuronale): Skip Gram și Common Bag of Words (CBOW).
Modelul CBOW: contextul fiecărui cuvânt este considerat intrare, ieșirea încercând să prezică cuvântul corespunzător contextului. Să luăm în considerare exemplul nostru: „Ai o zi minunată”.
Lăsând intrarea în rețeaua neurală să fie cuvântul „minunat”, să observăm că aici încercăm să prezicem un cuvânt țintă (“zi”) folosind un singur cuvânt de intrare în context. Mai precis, utilizăm codificarea cuvântului de intrare și măsurăm eroarea de ieșire în comparație cu o singură codificare a cuvântului țintă (“zi”). În procesul de predicție a cuvântului țintă, învățăm reprezentarea vectorului cuvântului țintă.
Fig. 1. Arhitectura unui model CBOW simplu, cu un singur cuvânt în context
(Rong, 2014)
Cuvântul de intrare sau context este un vector codat cu dimensiunea V, stratul ascuns conține N neuroni și ieșirea este, din nou, un vector de lungime V.
Așadar, se poate observa maniera în care se generează reprezentări de cuvinte utilizând cuvintele de context. Dar există încă o cale: putem folosi cuvântul țintă (a cărui reprezentare vrem să generăm) să prezicem contextul, iar în acest proces, producem reprezentările. O altă variantă, numită modelul Skip Gram, face acest lucru.
Tipul resursei: model; Scop: construirea de word embeddings.
- Mikolov Tomas, Sutskever Ilya, Chen Kai, Corrado Greg, Dean, Jeffrey (2013), Distributed Representations of Words and Phrases and their Compositionality, https://arxiv.org/abs/1310.4546
- Levy Omer, Goldberg Yoav (2014), Linguistic Regularities in Sparse and Explicit Word Representations.