Domanda

ho bisogno di estrarre rapporti con frequenze più alte da diversi indici Lucene , di usarli per qualche analisi semantica.

Quindi, voglio ottenere forse top 30 la maggior parte dei termini ammesse nella (ancora non si è pronunciata sulla soglia, io analizzare i risultati) e la loro conta per-indice. Sono consapevole che potrei perdere una certa precisione a causa di duplicati potentionally sceso, ma per ora, consente di dire io sono ok con quello.

Quindi, per le soluzioni proposte, (inutile dire forse) la velocità non è importante, dal momento che vorrei fare l'analisi statica, vorrei mettere l'accento su semplicità di realizzazione perché im non così abile con Lucene e non mi posso avvolgere la mia mente intorno ad alcuni concetti di esso ..

Non riesco a trovare nessuna esempi di codice da qualcosa di simile, in modo da tutti i consigli concreti (codice, pseudocodice, link ad esempi di codice ...) apprezzare tutti i consigli!

Grazie!

È stato utile?

Soluzione

Date un'occhiata a questo: http://sujitpal.blogspot.com/2009/02/summarization- con-lucene.html

La classe in questo metodo hascomputeTopTermQuery pagina che si dovrebbe essere facilmente in grado di retrofit per andare su più indici.

Altri suggerimenti

Un modo molto semplice sarebbe quella di utilizzare Luca . Nella scheda 'Panoramica', c'è un pulsante che può essere utilizzato per quello che ti serve 'top termini Mostra'.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top