Incorporamento del documento vs Hashing sensibile alla località per il clustering di documenti

https://datascience.stackexchange.com/questions/60817

dimensionality-reduction
embeddings
similar-documents
natural-language-process

02-11-2019
|

Domanda

Vorrei confrontare due metodi: Hashing della sensibilità alla località e documento l'incorporamento per ottenere la somiglianza tra due documenti. Entrambi questi metodi codificano le informazioni di un documento in un vettore che vorrei usare per trovare documenti simili in un corpus molto grande (potenzialmente più di 100.000 documenti). Qualcuno ha mai confrontato questi due metodi e quali sono i vantaggi di ciascuno di essi.

Saluti in anticipo

Nessuna soluzione corretta

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a datascience.stackexchange