Descriere

[Bahdanau et al., 2015] propun modelul de rețea care prezice cuvântul țintă, ținând cont cu predilecție de anumite cuvinte din fraza de intrare. Acest mecanism reflectă atenția focalizată, pe care oamenii o aplică instinctiv în enorm de multe activități mentale, atunci când o decizie se bazează doar pe unele dintre semnele pe care le avem la dispoziție, anumite părți ale tabloului pe care îl decodificăm fiind mai importante decât altele. De exemplu, în paradigma traducerii automate, fraza din intrare poate fi mai lungă decât cele pe care a fost antrenat sistemul, ceea ce va produce erori în traducere, pentru că deteriorarea ieșirii este accelerată de lungimea intrării [Cho et al., 2014a]. De accea, limitarea contextului, dublată de focalizare, poate da rezultate mult mai bune.

Modelul propus de [Bahdanau et al., 2015] reprezintă o extensie a modelului codor-decodor, care aliniază și traduce simultan. De fiecare dată când un cuvânt este generat în traducere, se caută un set de poziții din propoziția sursă unde sunt concentrate cele mai relevante informații. Cuvântul țintă este astfel prezis pe baza vectorilor de context asociați acestor poziții sursă precum și a tuturor cuvintelor țintă generate anterior.

În [Bahdanau et al., 2015] mai întâi se definește:

DECODORUL

Probabilitățile condiționate din (3), detaliate în (4), devin acum:

p(y_i | y₁, · · · , y_i₋₁, x) = g(y_i₋₁, s_i, c_i), (5)

unde s_i este o stare ascunsă a RNN la momentul i, compusă din:

s_i = f(s_i₋₁, y_i_-1, c_i). (6)

Diferența față de ecuația (3) a unui codor-decodor clasic este că aici probabilitatea este condiționată de un vector de context distinct c_i pentru fiecare cuvânt țintă y_i. Vectorul de context c_i depinde de o serie de adnotări (h₁, · · · , h_Tx) cărora encoderul mapează fraza de intrare. Astfel, c_i se calculează ca o sumă ponderată a acestor adnotări h_i:

C_i = SUMA, cu j de la 1 la T_x, din α_ijh_j (7)

iar ponderea α_ij a fiecărei adnotări h_je calculată ca:

α_ij= exp(e_ij) / SUMA, cu k de la 1 la Tx, din exp(e_ik), (8)

unde:

e_ij = a(s_i_-1, h_j). (9)

este un model de aliniere, care apreciază cât de bine se aliniază ieșirea din poziția j cu intrarea din poziția i. În această formulă s_i_-1reprezintă starea ascunsă RNN de dinainte de emiterea lui y_i.

În felul acesta decodorul decide asupra unor părți din fraza sursă cărora să le dea o importanță mai mare, iar codorul este degrevat de sarcina de a coda toată informația conținută în fraza sursă într-un vector de lungime constantă.

CODORUL

Rețeaua neuronală descrisă în ecuația (1) citește o secvență de intrare x în ordine, de la primul (x₁) la ultimul simbol (x_Tx). Pentru a se lua în considerare nu numai cuvântul precedent, dar și cel care urmează, autorii propun utilizarea unei rețele bidirecționale (BiRNN, ca în Schuster and Paliwal, 1997). Ea e compusă dintr-o rețea neuronală “înainte”, care citește secvența de intrare (de la x₁ la x_Tx) și calculează secvența de stări ascunse “spre înainte” (forward hidden states) , și o rețea neuronală “înapoi”, care citește în sens invers secvența de intrare (de la x_Tx la x₁) și calculează secvența de stări ascunse “spre înapoi” (backward hidden states) . Se obține astfel o adnotare pentru fiecare cuvânt x_j prin concatenarea stării ascunse “înainte” cu cea “înapoi” , adică h_j= . Astfel, adnotările ascunse h_j conțin în rezumat atât cuvintele anterioare cât și pe cele ulterioare lui x_j. Această secvență de adnotări este apoi folosită de decodor pentru a compune vectorul context - ec. (7) și (8).

Figura 1 (împrumutată din [Bahdanau et al., 2015]) sugerează că pentru generarea unui cuvânt pe canalul de ieșire nu numai că se ține seama de contextul intrării pentru toată fraza curentă, dar anumite cuvinte pot căpăta ponderi mai mari decât celelalte. Acesta este însuși esența mecanismului de atenție.

Atenția (attention-based approaches)