문제

사용자가 제공 한 문서에서 텍스트와 이미지를 가져와야하는 웹 프로젝트가 있으며 가능한 형식 중 하나는 Microsoft Office 2007입니다.이 형식으로 문서를 생성 할 필요가 있습니다.

서버는 Centos 5.2를 실행하고 PHP/PERL/PYTHON이 설치되어 있습니다. 필요한 경우 로컬 바이너리와 쉘 스크립트를 실행할 수 있습니다. 우리는 Apache 2.2를 사용하지만 Live가 진행되면 Nginx로 전환됩니다.

내 옵션은 무엇입니까? 누구든지 이것에 대한 경험이 있습니까?

도움이 되었습니까?

해결책

Office 2007 파일 형식이 열려 있습니다 잘 기록 된. 대략적으로 말하면 "x"로 끝나는 모든 새 파일 형식은 zip 압축 XML 문서입니다. 예를 들어:

Word 2007 XML 파일을 열려면 파일과 해당 부분을 저장할 임시 폴더를 만듭니다.

텍스트, 그림 및 기타 요소가 포함 된 Word 2007 문서를 .docx 파일로 저장하십시오.

파일 이름의 끝에 .zip 확장자를 추가하십시오.

파일을 두 번 클릭하십시오. ZIP 응용 프로그램에서 열립니다. 파일을 구성하는 부분을 볼 수 있습니다.

이전에 만든 폴더에 부품을 추출하십시오.

다른 파일 형식은 대략 비슷합니다. 아직 상호 작용할 수있는 오픈 소스 라이브러리는 모르지만 정확한 요구 사항에 따라 간단한 문서를 읽고 쓰는 것은 너무 어렵지 않습니다. 확실히 오래된 형식보다 훨씬 쉬워야합니다.

이전 형식을 읽어야하는 경우 OpenOffice에는 API가 있으며 성공한 Office 2003 이상을 읽고 쓸 수 있습니다.

다른 팁

Python Docx 모듈은 Pure Python에서 형식화 된 Microsoft Office DOCX 파일을 생성 할 수 있습니다. 상자 밖에서 헤더, 단락, 테이블 및 총알을 사용하지만 MakeElement () 모듈은 이미지와 같은 임의의 요소를 수행하도록 확장 될 수 있습니다.

from docx import *
document = newdocument()

# This location is where most document content lives 
docbody = document.xpath('/w:document/w:body',namespaces=wordnamespaces)[0]

# Append two headings
docbody.append(heading('Heading',1)  )   
docbody.append(heading('Subheading',2))
docbody.append(paragraph('Some text')

나는 성공적으로 사용했다 OpenXML 형식 SDK 코드를 통해 Excel 스프레드 시트를 수정하는 프로젝트에서. 이것은 .NET가 필요하며 모노에서 얼마나 잘 작동하는지 잘 모르겠습니다.

코드를 확인할 수 있습니다 스피드. 그들은 문서와 pdfs이므로 읽을 수 있다고 확신합니다. 다른 사무실 형식에 적합한 방향으로 안내 할 수도 있습니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top