선택된 사본 없이 보안된 PDF 색인화

https://stackoverflow.com//questions/12698121

12-12-2019
|

문제

나는 광범위하게 검색했습니다.아마도 무엇을 검색해야 할지 모르겠습니다...

"보안된" PDF를 색인화하고 검색할 수 있어야 합니다.이러한 PDF에는 "복사 불가" 속성이 선택되어 있으며 잠겨 있습니다.즉, 사용자 이름과 비밀번호 없이는 PDF의 내용을 복사할 수 없습니다.IFilter는 이러한 설정을 존중하며 PDF의 색인 생성을 허용하지 않습니다.

aspx.net을 사용하여 내 서버에서 이러한 PDF를 색인화하고 검색할 수 있는 방법을 찾고 있습니다.다음 중 하나에 걸린 것 같습니다.

콘텐츠에 대한 "복사" 액세스를 얻기 위해 이 PDF를 여는 데 필요한 자격 증명이 있어야 합니다.
내 도구에 대한 PDF를 제출할 때 두 가지 항목을 제출해야 합니다.copy-와 -라는 단어 PDF 사본
전체 내용을 PDF의 메타 데이터 또는 최소한 일부 핵심 단어에 복사하십시오.나는 여기에 어떤 종류의 위험이 포함될 수 있는지 조사하지 않았습니다.이는 작가에게 추가 단계를 의미합니다.

해결 방법 1과 2는 중복 사본을 유지하는 것을 의미합니다.서버나 DB에서 프로그래밍 방식으로 다운로드할 실제 항목을 참조합니다.이에 대한 해결책을 제시한 사람이 있나요?콘텐츠가 중복되지 않는다는 의미이므로 인덱싱 기능을 선호합니다.PDF 메타데이터가 그만큼 많은 콘텐츠를 처리할 수 있고 보안이 그대로 유지된다면 솔루션 3이 매력적입니다.또한 C# 또는 VB를 통해 자격 증명을 사용하여 액세스할 수 있는 PDF에 대한 프로그래밍 방식 액세스에 대해서도 궁금했습니다.하지만 내가 갇혀 있는 것 같아.

이것이 다른 해결책을 찾기 위한 나의 마지막 노력입니다.어떤 도움이라도 주시면 감사하겠습니다.

해결책 2

나는 결국 완전히 다른 솔루션을 선택하게 되었습니다.MS의 인덱싱을 활용한다는 아이디어는 마음에 들었지만 SQL을 사용하고 PDF를 업로드하는 사용자가 키워드를 붙여넣거나 PDF 내용을 텍스트 상자에 추가하는 것이 훨씬 쉬워졌습니다.그런 다음 SQL은 해당 "열"을 색인화하고 bamm...검색 엔진이 나머지 작업을 수행합니다.

시간을 내어 이 문제를 고려해 주셔서 감사합니다.

다른 팁

파일에 대한 사용자 이름과 비밀번호가 있다면 파일을 열고 텍스트를 추출할 수 있을까요?

그런 다음 추출된 데이터에서 인덱스를 구축할 수 있습니다.

Docotic.PDF, 내가 참여하고 있는 도서관인 은(는) 비밀번호로 보호된 파일을 열 수 있습니다.그리고 텍스트도 추출할 수 있습니다.텍스트는 일반 텍스트 또는 서식 있는 텍스트로 추출할 수 있으며 단어나 문자로 분할할 수 있습니다.

다음 샘플을 살펴보십시오.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow