PowerPoint 파일에서 PDF가 생성되었는지 확인하는 신뢰할 수있는 방법이 있습니까?

StackOverflow https://stackoverflow.com/questions/1622411

  •  06-07-2019
  •  | 
  •  

문제

제목이 말한 것처럼. 내가 묻는 이유는 PDF를 포맷 된 ASCII 텍스트 (pdftotext 사용)로 변환하고 합리적으로 제정신으로 보이는 것만 표시하기를 원하기 때문입니다.

PPT 파일은 이미지, 대각선 텍스트 및 ASCII로 변환되지 않는 다른 것들에 대한 텍스트를 갖는 경향이 있으므로 가능하다면 필터링하고 싶습니다.

도움이 되었습니까?

해결책

PDF의 적용은 XMP 메타 데이터에 나열되어 있습니다. Acrobat 9에서 이것을 쉽게 볼 수 있습니다 (그리고 나는 이전에 믿습니다) : File > Properties, 클릭 Additional Metadata..., 그 다음으로 가십시오 Advanced 그리고 그것은 둘 다 아래에 나열되어 있습니다 XMP 코어 속성 그리고 PDF 특성:

xmp:CreatorTool: Microsoft PowerPoint
pdf:Creator: Microsoft PowerPoint

나는 당신이 이것을 프로그래밍적으로 찾고 싶다고 생각합니다. 그래서 당신은 당신의 언어와 함께 작동하는이 메타 데이터를 읽을 수있는 라이브러리를 찾아야합니다. 여기 일부 XMP 도구 목록입니다.

다른 팁

짧은 대답:

아니요, 그렇게 생각하지 않습니다.

긴 답변 :

아니요, 나는 PowerPoint 파일을 PDF로 변환하는 방법이 있기 때문에 그렇게 생각하지 않습니다. 한 변환에서 PowerPoint-Source PDF를 감지하는 방법을 찾더라도 PDF 파일에 특정 정보를 포함시키는 것은 변환기에 달려 있습니다. 동일한 방법이 다른 방법에서는 작동하지 않을 수 있습니다.

더 긴 대답 :

아니요, 나는 "긴 대답"에 묘사 된 이유 때문에 그렇게 생각하지 않습니다. 그리고 PDF의 출처를 감지하는 것이 해결하려는 문제에 대한 최선의 접근법이라고 생각하지 않습니다. PowerPoint뿐만 아니라 중첩 된 텍스트와 이미지를 생성합니다. PDF 파일의 실제 레이아웃을 감지하는 것이 훨씬 낫다고 생각합니다. 이미지와 텍스트의 오버레이가 있으면 필터링 또는 사전 처리를 수행하여이를 수용 할 수 있습니다.

귀하의 추론은 매우 임의적입니다. PPT 파일이 많이 있습니다. 없이 설명하는 기능 및 많은 PDF 파일 ~와 함께 다른 소스에서 생성되었습니다.

이론적으로 더 나은 방법은 이러한 "원치 않는"상황이 발생할 때를 감지하는 것입니다. 그러나 PDF 형식이 부분적으로 개방되어 있지만 (읽기 만하면, 실제로는 개방형 형식이 아님) 복잡한 데이터를 추출하는 것은 엄청나게 어려울 것입니다.

모든 PDF는 소스에 관계 없이이 문제를 겪을 수 있습니다. 대부분의 데스크탑 출판 스위트는 PDF를 출력 할 수 있으며 종종 고품질의 화질 PDF 프레젠테이션을 자랑하는 판매입니다 ...

"SENER"방법은 선택 라이브러리를 사용하여 PDF 파서, ITEXTSHARP 또는 PDFNET 등을 사용하는 것입니다. 텍스트와 이미지 낙타의 겹침 - 이미지에 대한 이미지를 무시합니다. 그렇다면 페이지 및/또는 문서를 거부하십시오.

그것은 완벽하지는 않지만 적어도 출처에 관계없이 제정신이 아닌 많은 PDF를 잡을 것입니다. 추가 할 다른 휴리스틱에는 색 분석이 포함됩니다. (즉, 겹치는 영역의 색상은 "제정신"결과를 허용하기에 충분히 다릅니 까?)

행운을 빕니다

그것은 그 이름을 제작자 나 프로듀서 정보에 넣을 수 있지만이 이론을 확인할 사본이 없습니다.

일반적으로 파일이 어디에서 왔는지 또는 내용에 따라 생성 된 방법을 프로그래밍 방식으로 결정하는 것은 쉬운 일이 아닙니다. 결국 파일은 단지 비트 모음 일뿐입니다.

귀하의 요구에 따라 파일이 "합리적으로 제정신"보이는지 여부를 결정하기 위해 휴리스틱 건설을 소비 할 자원이 많지 않으면 이것이 인간을위한 과제라고 생각합니다.

PPT에서 PDF까지의 일부 변환기는 PDF의 시작시 주석에서 제작자를 보존합니다.

PDF가 대부분의 응용 프로그램에서 생성 된 것은 동일하다고 생각합니다. 그것 5월 파일에서 읽을 수있는 메타 데이터가 있습니다 ...

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top