Comment créer un moteur de recherche simple avec Lucene, Solr ou Nutch?

https://stackoverflow.com/questions/223536

03-07-2019
|

Question

Notre entreprise contient des milliers de documents PDF. Comment créer un moteur de recherche simple avec Lucene, Solr ou Nutch? Nous fournirons une page Web Java / JSP de base sur laquelle les utilisateurs peuvent saisir des mots et effectuer des requêtes de base et / ou des requêtes, puis leur montrer les liens vers les documents de tous les fichiers PDF correspondants.

La solution

Aucun des projets de la famille Lucene ne peut traiter de manière native des PDF, mais vous pouvez y accéder avec des utilitaires et des exemples bien écrits sur la façon de rouler le vôtre.

Lucene fera à peu près tout ce dont vous avez besoin, mais il y a une surcharge de temps, comme l'a dit Tony ci-dessus. Des milliers de documents ne sont vraiment pas trop , vous pourrez donc vous en tirer avec une alternative plus légère.

Cela dit, je recommanderais quand même de regarder Solr - il est beaucoup plus facile à configurer que Lucene, prend en charge les sauvegardes, la réplication, etc., ainsi qu'une interface JSON intéressante qui conviendrait très bien à votre cas d'utilisation. : http://wiki.apache.org/solr/SolJSON

Autres conseils

J'ai eu de la chance avec lucene, mais ce n'est pas cliquer, installer et rechercher, cela demande un peu de travail.
Si vous avez besoin de quelque chose que vous pouvez télécharger, installer et rechercher dans les 10 minutes, consultez l'édition gratuite de Ominifind Yahoo Edition, http : //omnifind.ibm.yahoo.net/ , il utilise Lucene, mais le package est tel qu'il est configuré et prêt à être exécuté à l'installation, un moyen beaucoup plus simple d'essayer Lucene.

Le plugin Nutch + Lucene + Pdf activé dans Nutch est votre solution. Nutch vous permet d'analyser les fichiers PDF en activant le plugin pdf.

Lucene vous permettra d’indexer les données analysées et analysées et Nutch a servelet qui vous offre une interface de recherche.

Nous utilisons la même chose pour nos réseaux internes.

Google Search Appliance http://www.google.com/enterprise/gsa/

Je pense que vous voulez un système pour gérer votre fichier PDF. S'il vous plaît essayez d'utiliser le système dspace. Dspace est une bibliothèque numérique, elle supporte Lucene. www.dspace.org.

Consultez eprints . Il inclut un flux de travail pour l'ajout de nouveaux documents, des index et des vignettes PDF automatiquement et possède une fonctionnalité de recherche plein texte assez complète. Il peut également être facilement personnalisé et marqué.

Pourquoi réinventer la roue. Encore une fois.

Il sera difficile de répondre à une question aussi vaste dans ce forum. Je vous recommande de consulter le livre Lucene in Action , . couvre les bases de l'indexation et de la recherche de manière assez lisible.

Étant donné votre application, il semble que Nutch et Solr ne seront probablement pas nécessaires. Puisque tous vos documents sont disponibles localement, Nutch ne sera probablement pas utile. Solr peut vous aider à gérer un groupe de chercheurs si le nombre de requêtes est élevé, mais Lucene est très performante et gère de grands ensembles de documents de manière très évolutive.

L’utilisation de PDF est l’un des domaines dans lesquels vous pourriez perdre beaucoup d’efforts. Il est possible d'indexer des documents PDF et il existe des contributions de Lucene pour faciliter l'extraction du brut texte de fichiers PDF , mais en fonction du document, la qualité des résultats peut varier. Souvent, le contexte d’un mot clé dans un document PDF n’est pas clair à cause des instructions de formatage, ce qui peut compliquer les recherches de proximité ou l’affichage du contexte d’un hit.

IBM Yahoo! est une excellente technologie de recherche gratuite. recherche libre. Je ne sais pas s'ils ont concrétisé leur projet d'utiliser Lucene sous les couvertures, mais cela reste l'un des très grands moyens d'utiliser des technologies de recherche gratuites. Je pense qu’il gère jusqu’à 500 000 documents et prend également en charge les formats PDF et autres formats non textuels. Interface utilisateur graphique; facile à personnaliser les résultats de la recherche et les analyses de base Thésaurus de base et API puissante vous permettant de faire à peu près tout ce que vous voulez si les résultats immédiats ne vous conviennent pas. Nous avons suggéré cela à un certain nombre de clients où il y avait moins d'un demi-million de documents et ils l'adorent.

Si vous avez un serveur Linux, vous pouvez utiliser Beagle pour les indexer, puis utilisez simplement la fonctionnalité de recherche qui l'accompagne. Il possède une interface de recherche Web (expérimentale) et peut également être connecté au champ de recherche FireFox.

Il indexe automatiquement les fichiers au fur et à mesure qu'ils sont inclus, et je suppose que vous trouverez beaucoup plus efficace d'améliorer ou de réparer beagle que d'écrire votre propre interface de recherche pour Lucene.

Ayant l’avantage (imho) distinct d’être sur un Mac, j’utilise SearchLight . sur un G5 un peu plus âgé. belle interface Web à souligner, le service d'indexation intégré de Mac OS.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow