Nella maggior parte delle località implementazioni di hashing sensibili di Simhash, perché la distanza del coseno viene utilizzata e non la distanza euclidea?

cs.stackexchange https://cs.stackexchange.com/questions/98631

Domanda

Nel capitolo 3 dell'estrazione di set di dati enormi, viene spiegata la base di hash sensibile alla località. In particolare menzionano Simhash per la distanza del coseno, in cui vengono generati iperplani casuali e, per ogni iperplano, la proiezione del vettore da essere hash sulla normalità dell'iperplana viene utilizzata per hashing del vettore. Lo evidenziano per misurare invece la distanza euclidea, si può comportare l'uso di un valore $ a $ Come lunghezza del segmento, utilizzato per dividere tutti i normali iperplani in un certo numero di $ a $-Stegmenti di lunghezza. Per ogni iperplano, il segmento in cui cade la proiezione del vettore viene utilizzato come output di hash. Quindi la concatenazione di questa operazione su ciascun iperplano genera un hash.

Eppure un certo numero di implementazioni, tra cui quella che sembra essere una delle più autorevoli (Falconn), non usano affatto segmenti, e invece fanno semplicemente un output binario a seconda di quale lato dell'iperplana la proiezione cade. Perchè è questo ? Perché i segmenti non sono usati? Cosa ha la distanza del coseno sulla distanza euclidea?

Nessuna soluzione corretta

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a cs.stackexchange
scroll top