Frage

Wie kann ich Schlüsselwörter mit Relevanz aus einer Zeichenfolge effizient extrahieren? Meine Liste der Schlüsselwörter ist vordefiniert. In einem Artikel über Michelle Obama, in dem auch Barack Obama erwähnt wird, möchte ich zum Beispiel extrahieren Michelle Obama und Barack Obama mit dem Schlüsselwort Michelle Obama einen höheren Relevanzwert erhalten (beide Michelle Obama und Barack Obama sind in meiner Schlüsselwörterliste vorhanden).

Das Überprüfen der Zeichenfolge auf die Anzahl der Auftreten jedes Schlüsselworts scheint nicht sehr effizient zu sein. Meine Anwendung ist in PHP entwickelt, aber jede Sprache ist in Ordnung, wenn ich dies effizient tun kann.

Ich habe Opencalais ausprobiert, aber es erkennt die meisten meiner Schlüsselwörter nicht. Ist es möglich, Schlüsselwörter mit Lucene zu extrahieren?

War es hilfreich?

Lösung

Das Apache Lucene -Paket passt zu Ihnen. Wenn Sie jedoch Titel- und Absätze haben, können Sie die Stoppwörter herausfiltern, höhere Ränge für die Wörter im Titel angeben und sie oder ihre Formulare in den Absätzen anpassen.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top