Frage

Ich suche nach einer Open-Source-Suchindizierung Bibliothek. Es wird für eingebettete Web-Anwendung verwendet werden, so dass es eine kleine Code-Größe haben sollte. Vorzugsweise geschrieben in C, C ++ oder PHP und benötigt keine Datenbank zum Speichern von Indizes installiert werden. Indizes sollte statt (zum Beispiel xml, txt) auf eine Datei gespeichert werden. Ich habe versucht, auf einige berühmte Suche Bibliotheken zu suchen, wie xapian und clucene, sie sind gut, aber eine relativ große Code-Größe für ein eingebettetes System.

Dies wird auf einer Linux-Plattform läuft und wird zu indizieren HTML-Dateien verwendet werden.

Alle Gedanken auf, was eine gute Suche Bibliothek / API wäre zu benutzen?

Danke.

War es hilfreich?

Andere Tipps

Oh, Mann. Es gibt ein paar. In der Reihenfolge ihrer Dunkelheit ...

Ich bin sicher, es gibt eine Tonne mehr gibt, aber das sind die, die ich aus der Spitze von meinem Kopf haben. Viel Glück:)

Erstens: Sie haben Indizes irgendwo zu speichern. So wird eine Datendatei benötigt werden, wenn Sie Speicher nur Indizes wollen.

Um Index allgemeine Artikel, kann ich empfehlen SQLite: http://www.sqlite.org/. Ich kann es auch im Speicher verwenden nur Modus, wenn ich ein paar Daten haben und ich brauche es mit mehreren Indizes zu behandeln.

Es hängt von Ihren Anforderungen. Eine vollständige Verteilung von Lucene (Java) ist bis zu 3 MB JAR-Datei, aber in der Praxis kann auch unter 1MB werden abgespeckte. CLucene ist wahrscheinlich wesentlich kleiner in der Praxis. Wie tief müssen Sie gehen? ...

Swish-E ist in C geschrieben und kann tun, was Sie wollen. Keine Datenbank benötigen, verwendet ein eigenes binäres Index-Dateiformat.

Ich habe auch verwendet ht: // Dig aber es sieht aus wie es eine lange Zeit her, seit dass Software wurde beibehalten.

Beide werden kompilieren unter Linux und Index HTML gut.

Eine dritte Option ist SINO von AustLII . Kontaktieren Sie dort das Team um sicherzustellen, dass Sie die neueste Version bekommen. Sollte ohne allzu viel Mühe auf Linux kompilieren. Es ist nicht wirklich für Embedded-Systeme entwickelt (SINO steht für Größe keine Rolle), aber eine anständige API hatte auf dem letzten ich sah und relativ klein (so, es ist nicht dafür ausgelegt, sondern könnte genauso gut funktionieren). Ausgerichtet auf HTML. Ziemlich schnelle Indizierung. Einen Blick wert, denke ich. (Disclosure: arbeitete dort vor langer Zeit)

Schließlich verwenden wir Solr , die auf Lucene . Solr verwendet eine einfache API basiert auf POSTen XML-Dokumente an einen Server. Ganz einfach ohne Materie zu verbinden, was Ihre Sprache aus.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top