C# 또는 기존 ASP(VBScript)를 사용하여 PDF에서 텍스트를 추출하는 좋은 방법은 무엇입니까?[닫은]

문제

PDF에서 텍스트를 추출하기 위한 좋은 라이브러리가 있습니까?필요하다면 기꺼이 비용을 지불할 의향이 있습니다.

C# 또는 기존 ASP(VBScript)에서 작동하는 것이 이상적이며 PDF에서 페이지를 분리할 수도 있어야 합니다.

이 질문 특히 흥미로운 것들이 있었어요 pdftotext 하지만 가능하다면 외부 명령줄 앱을 호출하는 것은 피하고 싶습니다.

해결책

Windows에 내장된 IFilter 인터페이스를 사용하여 지원되는 모든 파일 형식에서 텍스트와 속성(작성자, 제목 등)을 추출할 수 있습니다.이는 COM 인터페이스이므로 .NET 상호 운용성 기능을 사용해야 합니다.

또한 Adobe에서 무료 PDF IFilter 드라이버를 다운로드해야 합니다.

다른 팁

이들 중 대부분은 PDF 작성에 맞춰져 있지만 읽기 기능도 있어야 합니다.

이것도 있습니다: 아이텍스트

나는 이전에 iText만 가지고 놀았습니다.중요한 것은 없습니다.

우리는 사용했습니다 Aspose 좋은 결과로.

Docotic.Pdf 라이브러리 PDF 문서에서 서식이 지정된 텍스트나 일반 텍스트를 추출하는 데 사용할 수 있습니다.

라이브러리는 모든 버전(최신 출판 표준까지)의 PDF 문서를 읽을 수 있습니다.페이지 추출도 라이브러리에서 지원됩니다.

샘플 코드 링크:

부인 성명:나는 도서관 공급업체에서 일합니다.

승인된 답변에 추가:텍스트 인덱싱을 위해 Adobe IFilter를 대체하는 대체 상용 솔루션도 있습니다(유사한 API를 제공하지만 추가 프리미엄 기능도 제공).

관리되는 .NET 앱과 기존 ASP 또는 VB6와 같은 레거시 프로그래밍 언어 모두에서 사용할 수 있는 단일 도구를 찾고 있다면 여기가 바로 상업용입니다. ByteScout PDF 추출기 SDK .NET과 ActiveX/COM API를 모두 제공하므로 적합합니다.

부인 성명:나는 ByteScout에서 일해요

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow