Multe sarcini de învățare a secvențelor din lumea reală necesită predicția secvențelor de etichete din date de intrare zgomotoase, nesegmentate. În recunoașterea vorbirii, de exemplu, semnalul acustic este transcris în cuvinte sau subcuvinte (unități). Rețelele neuronale recurente (RNN) reușesc să învețe cu succes secvențe, deci ar părea potrivite pentru astfel de sarcini. Cu toate acestea, pentru că au nevoie de date de antrenament pre-segmentate și post-procesate pentru a transforma rezultatele lor în secvențe de etichete, aplicabilitatea lor a fost limitată. Această metodă propune o nouă metodă de antrenare a RNN-urilor pentru a eticheta direct secvențe nesegmentate, rezolvând astfel ambele probleme.
Exemple de utilizare sunt în sisteme S2T, la decodificarea imaginilor care conțin scris de tipar sau de mână etc.
autor: (Alex Graves et al, 2006)
- A. Graves, S. Fernández, F. Gomez (2006). Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks, Proceedings of the 23rd international conference on Machine learning, link: https://mediatum.ub.tum.de/doc/1292048/file.pdf