문제

.doc 파일을 업로드 해야하는 응용 프로그램이 있습니다. 이 문서는 색인이어야하며 전체 문서 모음을 검색 할 수 있어야합니다. 이는 IIS 및 SQLServer를 사용하여 단어를 설치하지 않고 Windows 서버에서 실행되지만 SQLServer의 전체 텍스트 인덱싱에 연결되지는 않습니다.

인덱싱 부분에 Lucene.net을 사용하려고 생각했고 .doc 파일에서 텍스트를 얻는 가장 좋은 방법이 무엇인지 궁금했습니다. 아마도 전체 스트림에서 읽음으로써 텍스트를 추출한 다음 정규식을 사용하여 일반 캐릭터를 꺼낼 수 있었지만 무겁고 오류가 발생하기 쉬운 것 같습니다.

나는 유망한 소리를 낸 ifilters를 사용하는 것에 관한 기사를 보았지만, 내가 익숙한 것이 아니기 때문에 이것을 놓을 것이라고 생각했습니다.

추신 : 중요한 경우,이 .doc 파일에는 메일-머지 필드가 있으며 .doc 형식에 대한 다른 현재 대안은 없습니다.

도움이 되었습니까?

해결책

외부 프로그램이 필요하지 않은 솔루션까지는 ifilter 솔루션이가는 길입니다 (외부 프로그램으로 계산할 수도 있지만).

다음은 수행 할 수있는 방법에 대한 간단한 CodePlex 기사와 코드입니다. http://www.codeproject.com/kb/cs/ifilter.aspx

다른 팁

PHP 기반 애플리케이션에서는 항상 이와 유사한 외부 프로그램을 사용했습니다. doc2txt. 그런 다음 텍스트를 가져 와서 데이터베이스에 저장했습니다. Google에서 "Doc2txt"를 검색하면 정확히 같은 작업을 수행 할 수 있습니다. 당신에게 가장 적합한 사람을 가져 가십시오.

어쩌면 체크 아웃하고 싶을 수도 있습니다 솔러.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top