Domanda

Come posso estrarre in modo efficiente parole chiave con rilevanza da una stringa? Il mio elenco di parole chiave è predefinita. Ad esempio, in un articolo su Michelle Obama che menziona anche Barack Obama, voglio estrarre Michelle Obama e Barack Obama con la parola chiave Michelle Obama ottenere un valore di rilevanza più elevato (entrambi Michelle Obama e Barack Obama sono presenti nella mia lista delle parole chiave).

Controllare la stringa per il numero di occorrenze di ciascuna parola chiave non sembra molto efficiente. La mia applicazione è sviluppata in PHP, ma qualsiasi lingua è OK, se posso farlo in modo efficiente.

Ho provato OpenCalais, ma non sta rilevando la maggior parte delle mie parole chiave. È possibile estrarre parole chiave usando Lucene?

È stato utile?

Soluzione

Il pacchetto Apache Lucene si adatta a te. Tuttavia, se hai titolo e paragrafi, puoi filtrare le parole di stop, dare ranghi più alti per le parole nel titolo e quindi abbinarle o le loro forme nei paragrafi. Puoi consultare alcuni articoli di riepilogo del testo per una migliore programmazione.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top