Вопрос

Я ищу библиотеку индексации поиска с открытым исходным кодом.Он будет использоваться для встроенного веб-приложения, поэтому у него должен быть небольшой размер кода.Предпочтительно, написанный на C, C ++ или PHP и не требующий установки какой-либо базы данных для хранения индексов.Вместо этого индексы должны храниться в файле (например, xml, txt).Я попытался посмотреть на некоторые известные поисковые библиотеки, такие как xapian и clucene, они хороши, но имеют относительно большой размер кода для встроенной системы.

Это будет запущено на платформе Linux и будет использоваться для индексации HTML-файлов.

Есть какие-нибудь мысли о том, что было бы хорошей поисковой библиотекой / API для использования?

Спасибо.

Это было полезно?

Другие советы

О боже.Их там несколько.В порядке убывания неизвестности...

Я уверен, что там есть еще куча всего, но это те, которые у меня навскидку.Удачи :)

Первый:вы должны где-то хранить индексы.Таким образом, файл данных будет необходим, если только вам не нужны индексы только в памяти.

Чтобы проиндексировать общие элементы, я могу порекомендовать вам sqlite: http://www.sqlite.org/.Я даже использую его в режиме только для памяти, когда у меня есть куча данных и мне нужно обработать их с помощью нескольких индексов.

Это зависит от ваших требований.Полный дистрибутив Lucene (Java) занимает до 3 МБ JAR-файла, но на практике может быть сокращен до значительно меньшего 1 МБ.На практике CLucene, вероятно, значительно меньше.Как низко вам нужно опуститься?...

Свист-И написан на C и может делать то, что вы хотите.Не требует базы данных, использует собственный формат файла двоичного индекса.

Я также использовал ht://Копать но, похоже, прошло много времени с тех пор, как это программное обеспечение поддерживалось в рабочем состоянии.

Оба будут компилироваться в Linux и индексировать HTML просто отлично.

Третий вариант - это SINO используемый Австралия.Свяжитесь с тамошней командой, чтобы убедиться, что вы получили последнюю версию.Должен компилироваться в Linux без особых проблем.На самом деле он не предназначен для встраиваемых систем (SINO расшифровывается как Size Is No Object), но в последний раз, когда я смотрел, на нем был приличный API и относительно небольшой (так что он не предназначен для этого, но может работать так же хорошо).Ориентирован на HTML.Довольно быстрая индексация.Думаю, стоит посмотреть.(Раскрытие информации:работал там давным-давно)

Наконец, мы используем Солр который основан на Ясный.Solr использует простой API, основанный на отправке XML-документов на сервер.Довольно простой в интерфейсе, независимо от того, на каком языке вы говорите.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top