인덱싱 헤비급 형식을위한 ifilter를 구현하는 방법은 무엇입니까?

https://stackoverflow.com/questions/464443

19-08-2019
|

문제

텍스트를 추출하기 위해 연장 된 계산을 수행하는 Microsoft Search Server 2008 용 ifilter를 개발해야합니다. 하나의 파일에서 텍스트를 추출하는 데 5 초에서 12 시간이 걸릴 수 있습니다. 데몬이 타임 아웃에서 재설정되지 않도록 어떻게 그런 ifilter를 기소 할 수 있습니까? 또한 다른 ifilters가 끊으면 타임 아웃에 재설정 될 수 있습니까?

해결책

12 시간, 와우!

시간이 오래 걸리고 파일이 많으면 텍스트를 추출하고 ifilter가 액세스 할 수있는 사전 처리 응용 프로그램을 작성하는 것이 가장 좋습니다.

또 다른 옵션은 문서의 HTML 요약을 작성하고 크롤러에게 색인을 지시하는 것입니다. 필요한 경우 요약 페이지가 문서 자체에 쉽게 연결할 수있는 경우.

다른 팁

나는 아직 필터를 아직 개발하지 않았으므로 기본적으로 추측하고 있지만 항상 이해하는 방식은 Ifilter가 정확히 이런 이유로 청크 기반이라는 것입니다. 반환 된 덩어리가 "충분히 작다"고 확인하는 것은 필터 구현에 달려 있으므로, 전화 검색 데몬은 너무 오래 걸리면 두 덩어리 사이에서 단순히 종료 할 수 있습니다.

분명히, 내 가정은 잘못되었거나, 당신은이 질문을하지 않을 것입니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow