Descriere

Este un pachet dezvoltat cu intenția de a folosi vector embeddings în machine learning și de a oferi o alternativă mai simplă și mai rapidă pentru Gensim. Principala caracteristică este utilizarea unui format unic de documente (.magnitude) care ajută foarte mult la îmbunătățirea timpului de căutare și de încărcare a vectorilor, în funcție de chei. Este folosit SQLite pentru a stoca și indexa datele, astfel timpul de căutare se îmbunătățește de la rulare la rulare.

Pachetul permite concatenarea mai multor modele (tip .magnitude) și oferă funcționalități, precum:

Query – pentru un cuvânt/ mai multe cuvinte;
Similarity – pentru indicele de similaritate între două cuvinte;
Most_Similar – pentru a obține cuvântul cel mai similar cu cel dat ca input;
POS tags și Syntax Dependencies – returnează vectori în funcție de argumentele de POS și relațiile de dependență furnizate;
(.bin .txt .vec .hdf5) to (.magnitude) converter – transformă fișierele în fișiere .magnitude

Formatul unui astfel de fișier este similar cu cel al unui dicționar: există o listă de keys (cuvintele) și pentru fiecare cuvânt reprezentarea word2vec pe x coloane (50, 100, 200, 300 etc.).

Pachetul este dezvoltat pentru Python și folosește biblioteca numPy pentru vectori. Este folosit, de obicei, pentru a crea modele care folosesc reprezentări vectoriale. Mai poate fi folosit pentru a corecta greșelile de scriere și cuvintele din afara vocabularului (folosind funcțiile most_similar și similarity). Tipul resursei: Librărie; Scopul utilizării: Word Embeddings.

PyMagnitude