Incorporamento del documento vs Hashing sensibile alla località per il clustering di documenti
Domanda
Vorrei confrontare due metodi: Hashing della sensibilità alla località e documento l'incorporamento per ottenere la somiglianza tra due documenti. Entrambi questi metodi codificano le informazioni di un documento in un vettore che vorrei usare per trovare documenti simili in un corpus molto grande (potenzialmente più di 100.000 documenti). Qualcuno ha mai confrontato questi due metodi e quali sono i vantaggi di ciascuno di essi.
Saluti in anticipo
Nessuna soluzione corretta
Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a datascience.stackexchange