문제

전자 책 컬렉션을 저장하기 위해 데이터베이스를하고 있습니다.
그들 대부분은 책 자체의 텍스트 내에 ISBN을 가지고 있습니다.
이 내용에 어떻게 액세스 할 수 있습니까?
그렇게하기위한 sourcecode 또는 dlls가 있습니까?

도움이 되었습니까?

해결책

나는 eBook 라이브러리 앱을 위해 그것을했다. 우선 CHM 또는 PDF 파일에서 텍스트를 추출해야합니다. 이를 위해 많은 유틸리티 라이브러리가 있습니다. 여기에 있습니다 기사 CodeProject에서 CHM 파일에서 컨텐츠를 추출하는 방법에 대한. 내가 사용한 PDF 파일의 경우 pdftotext 공익사업. eBook에서 일반 텍스트를 받으면 사용 정규 표현 ISBN10/13 코드를 찾으려면.

다른 팁

텍스트를 추출합니다 chm 그리고 PDF 파일이 첫 번째 단계입니다. 다음으로 a로 ISBN 번호를 찾을 수 있습니다 정규 표현.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top