Wie schaffen wir eine einfache Suchmaschine Lucene, Solr oder Nutch?

https://stackoverflow.com/questions/223536

03-07-2019
|

Frage

Unser Unternehmen verfügt über Tausende von PDF-Dokumenten. Wie schaffen wir eine einfache Suchmaschine Lucene, Solr oder Nutch? Wir werden eine grundlegende Java / JSP Webseite bieten Menschen waren in Worte geben und führen grundlegende und / oder Abfragen ihnen dann zeigen die Dokumentverknüpfungen aller PDF-Dateien entsprechen.

Lösung

Keines der Projekte in der Lucene Familie kann PDFs nativ verarbeiten, aber es gibt Dienstprogramme, die Sie in und gut geschrieben Beispiele fallen können, wie Sie Ihre eigene Rolle.

Lucene wird so ziemlich alles tun, was Sie es brauchen zu tun, aber es ist Overhead in Bezug auf die Zeit, als Tony oben gesagt. Tausende von Dokumenten ist wirklich nicht , die viele, so dass Sie vielleicht in der Lage sein, mit einem leichteren Gewicht Alternative wegzukommen.

Wie gesagt, würde ich immer noch auf Solr empfehlen, sich - es ist viel ist, viel einfacher als Lucene einzurichten, hat die Unterstützung für Backups, Replikation, usw., sowie eine raffinierte JSON-Schnittstelle, die Ihren Anwendungsfall passen sehr gut : http://wiki.apache.org/solr/SolJSON

Andere Tipps

Ich habe viel Glück mit lucene hatte, aber es ist nicht klicken, installieren und sucht, ist es ein wenig Arbeit erfordern.
Wenn Sie brauchen etwas, das yo herunterladen und installieren können und innerhalb von 10 Minuten der Suche sein, schauen Sie sich das kostenlose Ominifind Yahoo Ausgabe http :. //omnifind.ibm.yahoo.net/ , verwendet es Lucene, ist aber so verpackt, dass es so konfiguriert ist, und bereit, bei der Installation, eine viel einfachere Art und Weise zu führen Lucene zu versuchen

Nutch + Lucene + PDF-Plugin in Nutch aktiviert ist Ihre Lösung. Nutch ermöglicht es Ihnen, PDF-Dateien zu analysieren, indem Sie die PDF-Plugin ermöglicht.

Lucene werden Sie indizieren erlauben, die gecrawlt und analysiert Daten und Nutch hat servelet, die Ihnen eine Suchoberfläche gibt.

Wir verwenden das gleiche für unsere interne lans.

Google Search Appliance http://www.google.com/enterprise/gsa/

Ich glaube, Sie wollen ein System, Ihre PDF-Datei zu verwalten. Bitte versuchen Sie dspace System zu verwenden. Dspace ist eine digitale Bibliothek, unterstützt Lucene basiert. www.dspace.org.

Hier finden Sie aktuelle Eprints . Es enthält einen Workflow für das Hinzufügen neuer Dokumente automatisch indiziert und Thumbnails PDF-Dateien und hat ziemlich umfassende Volltextsuche Funktionalität. Es kann auch leicht angepasst und gebrandmarkt werden.

Warum neu erfinden das Rad. Wieder.

Die Beantwortung solcher eine große Frage in diesem Forum wird hart. Ich würde empfehlen, das Buch überprüfen Lucene in Aktion , die behandelt die Grundlagen der Indizierung und in einem recht lesbar zu suchen.

Ihre Anwendung gegeben, es klingt wie Nutch und Solr wird wahrscheinlich nicht notwendig sein. Da alle Dokumente vor Ort verfügbar sind, wird Nutch wahrscheinlich nicht hilfreich sein. Solr kann Ihnen helfen, eine Gruppe von Forschern zu verwalten, wenn Sie eine hohe Abfragelast, aber Lucene ist hoch performant und verarbeitet große Dokumentensätze in einer sehr skalierbar.

Der einzige Bereich, der viel von Ihrer Anstrengung verbrauchen könnte, ist die Verwendung von PDF. Es ist möglich, zu indizieren PDF-Dokumente, und es gibt Lucene Beiträge die Extraktion von rohen zu erleichtern Text aus PDFs , aber je nach Dokument, kann die Qualität der Ergebnisse variiert. Oft Dokument der Kontext eines Schlüsselwort in einer PDF ist unklar, da Anweisungen formatiert werden kann, und das kann es schwierig macht Nähe sucht zu tun oder den Kontext eines Treffers zeigen.

Eine große kostenlose Such-Technologie Sie betrachten könnte, ist die IBM Yahoo! freie Suche. Ich bin mir nicht sicher, ob sie sich auf Pläne, gefolgt durch Lucene unter der Decke zu verwenden, aber es bleibt eine der wirklich großen, nach Osten frei Suchtechnologien zu nutzen. Es behandelt zu 500K Dokumenten, ich glaube, und es unterstützt PDF und andere Nicht-Text-Formate. Grafische Benutzeroberfläche; einfache Suchergebnisse und einfache Suche Analytik anzupassen. Grund Thesaurus und leistungsstarke API, so dass Sie ziemlich viel tun können, was Sie wollen, wenn die aus dem Feld Ergebnisse sind nicht nach Ihren Wünschen. Wir haben diese Kunden zu einer Reihe vorgeschlagen, wo es weniger waren als eine halbe Million Dokumente, und sie lieben es.

Wenn Sie einen Linux-Server haben, können Sie Beagle zu indizieren, und dann benutzen sie einfach die Suchfunktion, die mit ihm kommt. Sie hat ein (experimentell) Web-Such-Interface, und es kann auch in das FireFox Suchfeld angeschlossen werden.

Es indiziert automatisch Dateien wie sie enthalten, und ich würde vermuten, dass Sie es viel effizienter finden zu verbessern oder zu beheben Beagle als die eigene Suchoberfläche zu Lucene zu schreiben.

Mit der (imho) deutlicher Vorteil, auf einem Mac zu sein, ich benutze Search auf einem etwas älteren G5. nettes Web-Interface zu Spotlight, die Mac OS‘Einbau-Indexdienst.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow