복잡한 문서 (.rtf, .doc, .odt 등)에서 단어를 계산하려면 어떻게해야합니까?

StackOverflow https://stackoverflow.com/questions/2256881

문제

문서 파일의 경로가 주어지면 해당 문서의 단어 수를 반환하는 파이썬 함수를 작성하려고합니다. 이것은 .txt 파일을 사용하기가 매우 쉽고 몇 가지 복잡한 문서 형식을 함께 지원할 수있는 도구가 있지만 실제로 포괄적 인 솔루션을 원합니다.

OpenOffice.org의 PY-UNO 스크립팅 인터페이스 및 지원되는 형식 목록을 살펴보면 Headless OOO에 문서를로드하고 Word-Count 기능을 호출하는 것이 이상적입니다. 그러나 기본 문서 생성을 넘어서는 PY-UNO 튜토리얼이나 샘플 코드를 찾을 수 없으며, 내가 찾은 코드 스 니펫조차도 절반 정도의 구식이며 더 이상 작동하지 않습니다.

OOO와 UNO를 사용하든 아니든, 다양한 형식의 문서에 대한 신뢰할 수있는 단어 계수를 어떻게 얻을 수 있습니까?

도움이 되었습니까?

해결책

문서를 헤드리스 ooo에로드하십시오 그리고 그것의 전화 워드 카운트 함수

pyodconverter OOO를 사용하여 여러 파일 유형을 변환하는 최근 (11-2009) 스크립트입니다. 스크립트를 살펴보면 모든 OOO 지원 문서의 기본로드가 있습니다.

이것은 당신이 머리없는 서비스로 OOO를 시작하는 방법입니다.

soffice -headless -accept="socket,host=127.0.0.1,port=8100;urp;" -nofirststartwizard

그런 다음 명령 선에서 ooo를 호출하고 스크립트를 실행 한 다음 OOO를 닫는 작은 부트 스트랩을 작성하면됩니다.


다른 팁

이것은 귀하에게 적합한 옵션이 될 수 있지만, 그렇다면 - Google 문서에 문서를 업로드 한 다음 .txt 형식으로 내보낼 수 있습니다. Google은 일반적으로 전환에 매우 훌륭합니다.

여기에서 관련 API를 찾을 수 있습니다. http://code.google.com/intl/pl/pis/documents/docs/1.0/developers_guide_python.html

로그인, 업로드 및 내보내기 섹션을 살펴보십시오.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top