문제

라텍스에서 PDF를 만드는 방법을 알고 있습니다. 이전에 만든 PDF에서 라텍스 코드를 추출하는 방법이 있습니까? 누군가가 나에게 PDF를 보내고 형식을 좋아한다면 어떨까요? 그것에서 라텍스를 추출 할 수 있습니까?

도움이 되었습니까?

해결책

라텍스는 PDF로 일대일 변환이 없습니다. 첫 번째 질문과 관련하여, 나는 그러한 전환이 기술적으로 가능할 수 있다고 생각하지만, 나는 아직 그렇게 할 신청이 존재한다고 생각하지 않습니다. 어셈블러가 높은 수준의 언어로 소환 될 수있는 방식과 마찬가지로 가능성이 높을 수 있습니다. 그러나 PDF에는 AutoCAD 도면, JPEG 그래픽, 글꼴 파일, 양식, 디지털 서명 등의 모든 종류의 데이터가 포함되어 있습니다. 라텍스는 이러한 것들이 무엇인지 전혀 모릅니다. 따라서 두 번째 질문에 대한 대답은 아니오입니다. PDF 문서에서 동등한 라텍스를 추출하는 방법은 없습니다.

다른 팁

PDF 파일을 OCR과 같이 읽고 라텍스 코드를 재현하려는 도구가 있습니다. 거의 완벽하고 호출됩니다 "Infty Reader"! 라텍스는 상당히 확장 가능하기 때문에 모든 깔끔한 형식이라고 생각하지 않습니다.

문서 소스를 PDF 파일에 포함시킬 경우에만 가능합니다. 참조 파일을 첨부 이 작업을위한 패키지.

짧은 버전 : 아니요.

긴 버전 : 디 컴파일과 비슷합니다. 기술적으로는 할 수 있지만 많은 추측과 휴리스틱이 포함됩니다.

나는 PDF 이닝에 익숙하지 않지만 형식을 정의하고 라텍스와 같은 헤더 등에 적용하는 대신 글꼴/크기/위치를 직접 설정할 수 있습니다.

PDFTOHTML 및 GNUHTML2LATEX를 사용하여 PDF를 HTML로, HTML을 TEX로 변환 할 수 있습니다.

사실상, 당신은 2 단계로 PDF에서 라텍스 변환을 수행하고 있습니다. 결과는 여전히 "햄버거에서 소를 만드는 것"과 같지만 일부 정화 스크립트와 함께 결과는 상당히 괜찮을 수 있습니다.

블로그 게시물 "Linux의 초보 PDF에서 라텍스 변환"GlobalBlinDspot에는 .pdf를 .tex 파일로 변환하고 하나를 .pdf 파일로 다시 변환하는 예제 Bash 스크립트가 있습니다.

관련 질문에 대한 내 대답을 참조하십시오 (DVI를 Tex로 돌리는 방법?)

증폭 - 캐릭터가 읽기 순서대로 될 필요가 없습니다 (SDRADKCAB SDAER TXET의 일부가 좌표에 의존하는 PDF를 발견했습니다. 글꼴 메트릭에 의존 할 수 있으므로 재구성하기가 매우 어렵습니다. 끔찍한 ASCII86 프로토콜을 사용하십시오.

PDF 파일의 데이터 마이닝을위한 가장 좋은 방법 (복잡한 형식으로 인해)은 Adobe Illustrator로이를 여는 것입니다. 그런 다음 PDF 파일을 SVG 파일로 변환하고 SVG Parser 라이브러리를 사용하여 까다로운 코드를 작성하십시오.

하나의 효율적인 SVG 파서 리브입니다 납결 염색법

(Linux의 경우 PDF를 SVG로 변환하는 데 약간 복잡합니다 : calcmaster.net/personal_projects/pdf2svg/)

추신 : 나는 당신의 질문의 두 번째 부분에 대한 해결책을 찾기 위해 많은 노력을 기울이고 있었지만, "데이터 시각화, Ben Fry, O'Reilly"와 같은 책에서 PDF 특히 Adobe PDF가 구문 분석하기가 복잡하다는 것을 알아 냈습니다. 대신 SVG Parser Lib를 사용하십시오.

Inkscape는 pdfs를 가져온 다음 Postx 스크립트를 라텍스 소스에 포함시켜 본질적으로 작동하는 "pstricks macros를 사용하여 라텍스"로 저장할 수 있습니다. 그것은 그 가치보다 더 어려운 문제이며, 그 결과 라텍스 소스는 PDF로 다시 출력되기 전에 전처리되어야합니다.

어쨌든, 가상의 PDF에서 라텍스 컴파일러가 있더라도, 각 캐릭터 또는 단어의 위치와 크기가 별도로 지정되는 곳을 얻을 수 있습니다. 수평선 아래의 숫자가 아닌 분수의 절반이 되십시오.

함께 작동 할 수 있습니다 Texmacs, 여기에는 PDF 파일의 가져 오기가 포함됩니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top