Este un pachet dezvoltat cu intenția de a folosi vector embeddings în machine learning și de a oferi o alternativă mai simplă și mai rapidă pentru Gensim. Principala caracteristică este utilizarea unui format unic de documente (.magnitude) care ajută foarte mult la îmbunătățirea timpului de căutare și de încărcare a vectorilor, în funcție de chei. Este folosit SQLite pentru a stoca și indexa datele, astfel timpul de căutare se îmbunătățește de la rulare la rulare.
Pachetul permite concatenarea mai multor modele (tip .magnitude) și oferă funcționalități, precum:
- Query – pentru un cuvânt/ mai multe cuvinte;
- Similarity – pentru indicele de similaritate între două cuvinte;
- Most_Similar – pentru a obține cuvântul cel mai similar cu cel dat ca input;
- POS tags și Syntax Dependencies – returnează vectori în funcție de argumentele de POS și relațiile de dependență furnizate;
- (.bin .txt .vec .hdf5) to (.magnitude) converter – transformă fișierele în fișiere .magnitude
Formatul unui astfel de fișier este similar cu cel al unui dicționar: există o listă de keys (cuvintele) și pentru fiecare cuvânt reprezentarea word2vec pe x coloane (50, 100, 200, 300 etc.).
Pachetul este dezvoltat pentru Python și folosește biblioteca numPy pentru vectori. Este folosit, de obicei, pentru a crea modele care folosesc reprezentări vectoriale. Mai poate fi folosit pentru a corecta greșelile de scriere și cuvintele din afara vocabularului (folosind funcțiile most_similar și similarity). Tipul resursei:Librărie; Scopul utilizării: Word Embeddings.