문제

MS Word 문서에서 방정식 (및 이미지)을 추출하는 프로그래밍 방식이 있습니까? 나는 온통 검색했지만 아직 이빨을 가라 앉히고 일할 수있는 것을 찾지 못했습니다. 가능하다면 VB.NET 또는 C#으로이 작업을 수행 할 수 있지만 DLL을 해킹하기 위해 충분한 언어를 선택할 수 있습니다. 감사!

편집하다: 지금은 Word 2003에서 방정식을 추출하려는 것을보고 있지만 2007/Open XML로 변환하면 괜찮습니다.

도움이 되었습니까?

해결책

이것이 도움이 될지 모르겠지만 Word 2000/2003의 객체 모델에는 InlineShapes 의 일부로 수집 Document 임베디드 이미지와 방정식과 같은 유사한 객체를 나타내는 객체.

첫 번째 항목을 클립 보드에 복사하려는 일부 VBA 코드는 다음을 추출하는 데 도움이 될 수 있습니다.

ThisDocument.InlineShapes.Items(1).Select
Selection.Copy

.NET에서도 액세스 할 수 있습니다. MSDN 링크.

다른 팁

문서는 어떤 단어 형식에 있습니까? 열린 XML (파일 확장자 .docx)에있는 경우 XML SDK를 엽니 다 Microsoft에서 이미지 및 임베디드 콘텐츠를 추출하기 위해 제공됩니다.

열린 XML 파일은 특수 구조를 사용하는 지퍼 아카이브에 지나지 않습니다. SDK에서 해당 Zip 아카이브의 일부에 액세스하는 방법을 찾을 수 있습니다. 실제로 Zip-Capable 라이브러리를 사용하여 문서 패키지에서 내용을 추출 할 수 있습니다.

문서가 여전히 오래된 이진 형식을 사용하는 경우 조금 더 복잡합니다. 가장 쉬운 방법은 문서를 열린 XML 형식으로 변환하는 것입니다. 이를 수행하는 방법에는 여러 가지가 있습니다.

  • 무료로 개방하십시오 B2xtranslator 파일 변환을 위해 C# dlls를 제공하는 Sourceforge에서.
  • Microsoft를 설치하십시오 호환성 팩 변환을 위해 다음 명령 줄을 사용하십시오.

    "C:\Program Files\Microsoft Office\Office12\wordconv.exe" -oice -nme input\_file output_file

여기서 input_file 및 output_file은 전체 경로 이름이어야합니다.

보십시오 Word-to-latex 변환기. .NET 프레임 워크가 필요하며 소스가 열리지는 않지만 저자는 이에 대한 질문을 초대합니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top