문제
오픈 소스 검색 색인 라이브러리를 찾고 있습니다.임베디드 웹 애플리케이션에 사용되므로 코드 크기가 작아야 합니다.C, C++ 또는 PHP로 작성하는 것이 바람직하며 인덱스 저장을 위해 데이터베이스를 설치할 필요가 없습니다.대신 인덱스는 파일(예: xml, txt)에 저장되어야 합니다.나는 xapian 및 clucene과 같은 일부 유명한 검색 라이브러리를 살펴보려고 시도했지만 훌륭하지만 임베디드 시스템에 비해 상대적으로 큰 코드 크기를 가지고 있습니다.
이는 Linux 플랫폼에서 실행되며 HTML 파일을 색인화하는 데 사용됩니다.
사용하기에 좋은 검색 라이브러리/API가 무엇인지에 대한 생각이 있으신가요?
감사해요.
해결책
다른 팁
첫 번째:인덱스를 어딘가에 저장해야 합니다.따라서 메모리 전용 인덱스를 원하지 않는 한 데이터 파일이 필요합니다.
일반 항목을 색인화하려면 sqlite를 권장합니다. http://www.sqlite.org/.많은 양의 데이터가 있고 이를 여러 인덱스로 처리해야 할 때 메모리 전용 모드에서도 사용합니다.
귀하의 요구 사항에 따라 다릅니다.Lucene(Java)의 전체 배포는 최대 3MB JAR 파일이지만 실제로는 1MB 미만으로 줄일 수 있습니다.CLucene은 실제로는 상당히 작을 것입니다.얼마나 내려가야 하는가?...
스위시-E C로 작성되었으며 원하는 것을 수행할 수 있습니다.데이터베이스가 필요하지 않으며 자체 바이너리 인덱스 파일 형식을 사용합니다.
나는 또한 사용했다 ht://Dig 그런데 그 소프트웨어가 유지보수된 지 꽤 오래된 것 같아요.
둘 다 Linux에서 컴파일되고 HTML 색인도 잘 작동합니다.
세 번째 옵션은 시노 에 의해 사용됨 AustLII.최신 버전을 받으려면 해당 팀에 문의하세요.큰 문제 없이 Linux에서 컴파일해야 합니다.실제로 임베디드 시스템용으로 설계되지는 않았지만(SINO는 Size Is No Object를 나타냄) 지난번에 봤을 때 괜찮은 API가 있었고 상대적으로 작았습니다(따라서 해당 시스템용으로 설계되지는 않았지만 잘 작동할 수 있습니다).HTML을 대상으로 합니다.매우 빠른 인덱싱.한 번 볼만한 가치가 있다고 생각합니다.(폭로:오래전부터 거기서 일했어요)
마지막으로 우리는 솔르 이는 다음을 기반으로합니다. 루씬.Solr는 서버에 XML 문서 게시를 기반으로 하는 간단한 API를 사용합니다.언어에 관계없이 인터페이스가 매우 간단합니다.