我正在尝试编写一个 Python 函数,在给定文档文件的路径的情况下,返回该文档中的单词数。使用 .txt 文件可以很容易地做到这一点,并且有一些工具可以让我同时支持一些更复杂的文档格式,但我想要一个真正全面的解决方案。

查看 OpenOffice.org 的 py-uno 脚本接口和支持的格式列表,将文档加载到无头 OOo 中并调用其字数统计函数似乎是理想的选择。但是,我找不到任何超出基本文档生成范围的 py-uno 教程或示例代码,甚至我找到的代码片段也已经过时了五年,不再起作用。

无论是否使用 OOo 和 Uno,如何获得各种格式文档的可靠字数统计?

有帮助吗?

解决方案

将文档加载到无头 OOo 中 并称其为 字数统计功能

PyOD转换器 是最近(11-2009)使用 OOo 转换多种文件类型的脚本。查看脚本,它可以基本加载所有 OOo 支持的文档。

这是将 OOo 作为无头服务启动的方式:

soffice -headless -accept="socket,host=127.0.0.1,port=8100;urp;" -nofirststartwizard

然后,您只需编写一个小型引导程序,在命令行上调用 OOo,运行脚本,然后关闭 OOo。


其他提示

这可能是不适合你的选择,但如果它是 - 你可以上传文件,谷歌文档,然后以.txt格式导出。谷歌通常不会很不错的工作的转换。

您可以在这里找到相关的API: HTTP: //code.google.com/intl/pl/apis/documents/docs/1.0/developers_guide_python.html

看看登录,上传和导出部分。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top