문제

이 작업을 수행하지 않고 MS Word 문서 (.doc 및 .docx)를 메모리 (변수)에로드하려면 어떻게합니까? :

WordApp.documents.open

MS Word를 열고 싶지 않아서 그 텍스트를 안에 원합니다.

당신은 나에게 docx에 대한 답을 주었지만 Doc는 어떻습니까? 나는 무료 및 고성능 솔루션을 원합니다 - 12.000 인스턴스의 단어를 열어서 모든 것을 처리하지 마십시오. :( aspose는 상용 제품이며 900 $는 내가하는 일에 너무 많은 방법입니다.

도움이 되었습니까?

해결책

사무실 호환성 팩의 일부인 WordConv.exe를 사용하여 DOC에서 DOCX로 변환 할 수 있습니다.

http://www.microsoft.com/downloads/details.aspx?familyid=941B3470-3AE9-4AEE-8F43-C6BB74CD14666&displaylang=en

"C : Program Files Microsoft Office Office12 WordConv.exe"-oice -nme inputfile outputfile

실행하려면 단어를 설치 해야하는지 확실하지 않지만 작동합니다. 원할 때마다 오래된 사무실 파일을 2007 형식으로 변환하기 위해 로컬로 Windows Shell 명령으로 사용합니다.

다른 팁

DOCX 형식의 Word 문서의 경우 CodeProject 에서이 흥미로운 기사를 찾았습니다.

docxtotext를 사용하여 docx 파일에서 텍스트를 추출합니다

기사에서 저자는 단어 자체 만 제거하는 것에 대해 논의합니다.

DOC (DocX)의 경우 사무실 API를 사용하는 것 외에 다른 문서 문서 및 (배경에서) 단어 인스턴스를 산란에서 시장의 여러 Doc2Docx 변환기 중 하나에 배포를 시도한 다음 위의 프로세스를 적용 할 수 있습니다. 둘 다.

docx를 다루는 경우 .docx 파일이있는 interop을 사용 하여이 작업을 수행 할 수 있습니다. 실제로 zip에는 XML 파일이 포함되어 있으면 XML을 읽을 수 있습니다. 아래 링크를 참조하십시오.

http://conceptdev.blogspot.com/2007/03/open-docx-using-c-to-xtract-text-for.html

Office (2007) XML 파일 형식을 엽니 다

나는 최근 에이 주제에 대한 연구를했다. 단어 자체를 열지 않고 프로그램적으로 단어 파일을 조작 할 수 있으려면 매우 비싼 도구가 필요합니다.

에 기사가 있습니다 단어 조작에 대한 코드 프로젝트, 당신은 그것이 유용하다고 생각할 수 있습니다. 저자는 Word to Word를 다루기위한 C# com 래퍼를 만듭니다. 그래도 실제로 단어 응용 프로그램을 열면 팝업이 나타납니다.

이 게시물은 Neowin 포럼에 있습니다 유망한 것 같습니다. 여기에는 텍스트 추출 목적으로 상당히 많은 핀 보드 호출이 포함되어 있습니다.

창을 숨기는 방법을 찾을 수 있다면 허용 될 수 있습니다.

마찬가지로 단어 문서를 읽고, 수정하고, 쓸 수있는 구성 요소가 있습니다. 제품 링크는 다음과 같습니다. .NET 및 Java 용 단어

ASSPER.WORDS를 사용하면 .NET 및 Java 응용 프로그램이 Microsoft Word®를 사용하지 않고 Word® 문서를 읽고, 수정 및 작성할 수 있습니다. aspose.words는 문서 작성, 컨텐츠 및 서식 조작, 강력한 메일 병합 능력, Doc, OOXML, RTF, WordProcessingML, HTML, OpenDocument 및 PDF 형식을 포함한 다양한 기능을 지원합니다. ASSPER.WORDS는 진정으로 가장 저렴하고 빠르며 시장에서 풍부한 단어 구성 요소입니다.

와 함께 DocxtEmplater, 당신은 단어의 전체 텍스트를 쉽게 얻을 수 있습니다 (docx만으로 작동).

코드 (node.js)는 다음과 같습니다.

DocxTemplater=require('docxtemplater'); doc=new DocxTemplater().loadFromFile("input.docx"); result=doc.getFullText();

이것은 단지 3 줄의 코드이며 어떤 단어 인스턴스에도 의존하지 않습니다 (모든 일반 JS).

나는 길항제라는 것을 의미하지는 않지만 왜 그런가?

Word2x 또는 Abiword를 사용하여 Linux 서버의 Word Documents에서 데이터를 추출했으며 숫자와 다양한 설명에 따라 항상 추출에 오류가 발생합니다. 더 나쁘다. 총알, 페이지 브레이크, 문서 섹션 및 기타 "특수"기능이 더 나빠집니다.

오픈 오피스를 자동화하여 문서를 처리 할 수있는 옵션이 있다는 것을 이해하지만, 가능한 경우 Word를 사용하여 Word 문서를 처리하는 것입니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top