Ho una grande matrice numpy/scipy sparsa in cui ogni riga corrisponde a un punto nello spazio ad alta dimensione. Voglio fare domande del seguente tipo:Locality Sensitive Hashing di array numpy sparsi
Dato un punto P (una riga della matrice) e una distanza epsilon, trovare tutti i punti con la distanza al massimo Epsilon da P.
La metrica di distanza che sto utilizzando è simile a Jaccard, quindi dovrebbe essere possibile utilizzare i trucchi Locality Hashing sensibili come MinHash.
Esiste un'implementazione di MinHash per array numpy sparsi da qualche parte (non riesco a trovarne uno) o esiste un modo semplice per farlo?
La ragione per cui non sto semplicemente tracciando qualcosa costruito per array non sparsi al di fuori di Github è che le scarse strutture di dati in Scipy potrebbero causare esplosioni in termini di complessità temporale.
Finora ho implementato un'implementazione che utilizza https://github.com/go2starr/lshhdc – utdiscant