如何计算复杂文档(.rtf、.doc、.odt 等)中的字数?
-
20-09-2019 - |
题
我正在尝试编写一个 Python 函数,在给定文档文件的路径的情况下,返回该文档中的单词数。使用 .txt 文件可以很容易地做到这一点,并且有一些工具可以让我同时支持一些更复杂的文档格式,但我想要一个真正全面的解决方案。
查看 OpenOffice.org 的 py-uno 脚本接口和支持的格式列表,将文档加载到无头 OOo 中并调用其字数统计函数似乎是理想的选择。但是,我找不到任何超出基本文档生成范围的 py-uno 教程或示例代码,甚至我找到的代码片段也已经过时了五年,不再起作用。
无论是否使用 OOo 和 Uno,如何获得各种格式文档的可靠字数统计?
其他提示
这可能是不适合你的选择,但如果它是 - 你可以上传文件,谷歌文档,然后以.txt格式导出。谷歌通常不会很不错的工作的转换。
您可以在这里找到相关的API: HTTP: //code.google.com/intl/pl/apis/documents/docs/1.0/developers_guide_python.html
看看登录,上传和导出部分。
不隶属于 StackOverflow