문제

나 nutch 와 루씬 설치를 크롤링과 색인 일부 사이트 및 사용하고 싶다.net 웹사이트에 대 JSP 사이트는 nutch.

할 수 있는 사람이 추천 일부 솔루션?

본 솔루션을 어디에 있었는 응용 프로그램 실행에 인덱스 서버입니다.넷 사이트에 사용되는 원격하여 연결합니다.

속도 고려사항이 분명히 그렇게 할 수 있습이 아직도 잘 수행?

편집: 수 NHibernate.검색 작업에 대한 이?

편집: 결국 우리가 가진다 인덱스 서버에 의해 사용되는 우리의 ASP.net 이트 solrnet 라이브러리입니다.

도움이 되었습니까?

해결책

루센을 사용하는 대신 사용할 수 있습니다 솔러 Nutch로 색인하려면 (참조 여기), 그런 다음 사용 가능한 두 라이브러리 중 하나를 사용하여 Solr에 매우 쉽게 연결할 수 있습니다. Solrsharp 그리고 Solrnet.

다른 팁

다른 답변에서 완전히 명확하지 않은 경우 Lucene.net과 Lucene (Java)은 동일한 인덱스 형식을 사용하므로 기존 (Java 기반) 메커니즘을 계속 사용할 수 있어야합니다. 인덱싱, 그런 다음 .NET 웹 응용 프로그램 내부에서 Lucene.net을 사용하십시오. 질문 색인.

에서 Lucene.net 인큐베이터 사이트:

API 및 클래스 포트 외에도 C#에 추가하여 Java Lucene의 알고리즘은 C# Lucene으로 포팅됩니다. 이것은 Java Lucene으로 생성 된 색인이 IS를 의미합니다 앞뒤로 호환됩니다C# Lucene과 함께; 읽기, 쓰기 및 업데이트에서. 사실로 Lucene 지수는 Java Lucene 및 C# Lucene 프로세스를 사용하여 동시에 검색 및 업데이트 할 수 있습니다.

나는 또한 이것을 연구하고있다.

http://today.java.net/pub/a/today/2006/02/16/introduction-to-nutch-2.html

쿼리를 Nutch에 제출하고 RSS 결과를 되 찾을 수 있습니다.

편집하다:

오늘날 개념 증명으로 Windows 형태 로이 작업을 수행했습니다. 두 개의 텍스트 상자 (SearchUrl 및 Query), 하나는 서버 URL과 하나는 쿼리 용입니다. 하나의 datagrid보기.

private void Form1_Load(object sender, EventArgs e)
        {
            searchurl.Text = "http://localhost:8080/opensearch?query=";


    }

    private void search_Click(object sender, EventArgs e)
    {
        string uri;

        uri = searchurl.Text.ToString() + query.Text.ToString();
        Console.WriteLine(uri);

        XmlDocument myXMLDocument = new XmlDocument();

        myXMLDocument.Load(uri);

        DataSet ds = new DataSet();

        ds.ReadXml(new XmlNodeReader(myXMLDocument));

        SearchResultsGridView1.DataSource = ds;
        SearchResultsGridView1.DataMember = "item";

    }

Solrnet과 Solrsharp의 비교를 검색하여 여기에 도착했습니다.

SolarSharp가 죽은 프로젝트 (오랫동안 업데이트되지 않은) 인 것 같습니다. 유일한 옵션은 Solarnet입니다.

나는 이것이 누군가에게 도움이되기를 바랍니다. 나는 받아 들여진 답변에 의견을 남겼을 것입니다. 그러나 아직 명성이 충분하지 않습니다 :)

를 사용하는 대신니다,나는 java 기반의 인덱에서 실행되는 cron 작업,그리고는 java 기반의 웹 서비스에 대한 쿼리.지 않았 인덱스 페이지로 너무 많은 다른 종류의 데이터 받은 것입니다.넷 사이트를 작성하는 데 사용하는 페이지.그래서 실제로 거기 다른 4 인덱스가 각각 다른 문서의 구조는 모든 조회할에 대해 동일한 방법(예:사용자는 게시물,메시지,사진).

를 정의하여 XSD 웹 서비스에 대해 응답할 수 있었는 모두 클래스를 생성합니다.net 및 java 를 저장하는 표현의 문서입니다.웹사 서비스는 기본적으로 쿼리를 실행하는 오른쪽에 인덱스와 채우 응답 xml 에서 조회.니다.net 클라이언트 구문 분석하는 것으로 다시 개체입니다.또한 json 인터페이스에 대한 모든 클라이언트 측면 JavaScript.

Java Lucene에서 Dot Net 버전으로 전환하십시오. 물론 투자이지만 대부분 계급 대체 운동입니다. 마지막으로 필요한 것은 접착제가 아닌 다른 값을 추가하지 않는 더 많은 레이어입니다. 접착제가 적고 더 많은 물건은 목표로해야합니다 ...

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top