自动计算 .doc 或 .docx 文件中的字符和/或单词数的可靠方法是什么?

唯一真正的要求是相当准确且相当可靠的计数。
它需要处理包含拉丁文字以外的内容的文档,因此在大多数情况下计算字符就足够了。
计数不一定需要与Word 匹配,但越接近越好。
由于有无数不同的应用程序可以生成 .doc 文件,因此无法计算任何内容也没关系,但这种情况需要可捕获,因此我们知道计数可能不准确。对于所有其他情况,计数必须在至少 99% 的时间内至少达到 99% 的准确度。

我对所涉及的技术持开放态度,但可以在 *NIX 命令行上运行的技术将是更好的选择。

对此有合理的解决方案吗?

有帮助吗?

解决方案

这是一个 关联 一些 Linux 单词到文本转换器。

例如你可以使用

antiword file.doc | wc

进行计数。

编辑:

关联 显示 AbiWord 有一个命令行界面,您可以使用该界面将 .docx 格式转换为 .txt,然后使用“wc”计算单词数。AbiWord 确实支持 docx 格式

其他提示

的Mac OS X能够读取内置到系统框架的Word文件的支持,所以如果你有,这很容易。 MacRuby的样品:

NSSpellChecker.sharedSpellChecker.countWordsInString(NSAttributedString.alloc.initWithURL(fileURL, documentAttributes:nil), language:nil)

更多可移植 - 虽然它放弃支持DOCX - 你可以简单地得到Antiword做antiword | wc -w

微软发布了一个规范,在Office二进制文件格式。解析.DOC文件看起来不平凡的,但也有一些照顾,你应该能够得到一个可靠的,可重复的结果。我不知道如何密切,它会搭配什么词表明 - 这很可能将取决于(至少部分地)你如何定义“字” - 例如,你是否考虑一组数字的“字”或不。它可能不会采取了很多搞清楚Word如何对待案件那样,因此让一场势均力敌的比赛不应该是十分困难的。

如果您认为在线应用的解决方案,是的,有一个解决方案。结果 这不是那么漂亮(关于设计)网站提供的字和字符计数:的http:// allworldphone的.com /计数词语-characters.htm

我不认为这是一个限制,它不应该只是复制/文档的内容粘贴到相应的文本区域,看到结果的问题。

关于准确性100%或99%,则可以通过首先自己计数它们与几个(即20-50个字)进行测试。

我希望这有助于。 问候。克里斯

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top