Rilevamento / estrazione efficiente delle parole chiave. Set di parole chiave predefinite
-
27-10-2019 - |
Domanda
Come posso estrarre in modo efficiente parole chiave con rilevanza da una stringa? Il mio elenco di parole chiave è predefinita. Ad esempio, in un articolo su Michelle Obama che menziona anche Barack Obama, voglio estrarre Michelle Obama
e Barack Obama
con la parola chiave Michelle Obama
ottenere un valore di rilevanza più elevato (entrambi Michelle Obama
e Barack Obama
sono presenti nella mia lista delle parole chiave).
Controllare la stringa per il numero di occorrenze di ciascuna parola chiave non sembra molto efficiente. La mia applicazione è sviluppata in PHP, ma qualsiasi lingua è OK, se posso farlo in modo efficiente.
Ho provato OpenCalais, ma non sta rilevando la maggior parte delle mie parole chiave. È possibile estrarre parole chiave usando Lucene?
Soluzione
Il pacchetto Apache Lucene si adatta a te. Tuttavia, se hai titolo e paragrafi, puoi filtrare le parole di stop, dare ranghi più alti per le parole nel titolo e quindi abbinarle o le loro forme nei paragrafi. Puoi consultare alcuni articoli di riepilogo del testo per una migliore programmazione.