可靠地获取 .doc 文件的字符数

https://stackoverflow.com/questions/2278032

21-09-2019
|

题

自动计算 .doc 或 .docx 文件中的字符和/或单词数的可靠方法是什么？

唯一真正的要求是相当准确且相当可靠的计数。
它需要处理包含拉丁文字以外的内容的文档，因此在大多数情况下计算字符就足够了。
计数不一定需要与Word 匹配，但越接近越好。
由于有无数不同的应用程序可以生成 .doc 文件，因此无法计算任何内容也没关系，但这种情况需要可捕获，因此我们知道计数可能不准确。对于所有其他情况，计数必须在至少 99% 的时间内至少达到 99% 的准确度。

我对所涉及的技术持开放态度，但可以在 *NIX 命令行上运行的技术将是更好的选择。

对此有合理的解决方案吗？

解决方案

这是一个关联一些 Linux 单词到文本转换器。

例如你可以使用

antiword file.doc | wc

进行计数。

编辑：

这关联显示 AbiWord 有一个命令行界面，您可以使用该界面将 .docx 格式转换为 .txt，然后使用“wc”计算单词数。AbiWord 确实支持 docx 格式

其他提示

的Mac OS X能够读取内置到系统框架的Word文件的支持，所以如果你有，这很容易。 MacRuby的样品：

NSSpellChecker.sharedSpellChecker.countWordsInString(NSAttributedString.alloc.initWithURL(fileURL, documentAttributes:nil), language:nil)

更多可移植 - 虽然它放弃支持DOCX - 你可以简单地得到Antiword做antiword | wc -w

微软发布了一个规范，在Office二进制文件格式。解析.DOC文件看起来不平凡的，但也有一些照顾，你应该能够得到一个可靠的，可重复的结果。我不知道如何密切，它会搭配什么词表明 - 这很可能将取决于（至少部分地）你如何定义“字” - 例如，你是否考虑一组数字的“字”或不。它可能不会采取了很多搞清楚Word如何对待案件那样，因此让一场势均力敌的比赛不应该是十分困难的。

如果您认为在线应用的解决方案，是的，有一个解决方案。结果这不是那么漂亮（关于设计）网站提供的字和字符计数：的http：// allworldphone的.com /计数词语-characters.htm

我不认为这是一个限制，它不应该只是复制/文档的内容粘贴到相应的文本区域，看到结果的问题。

关于准确性100％或99％，则可以通过首先自己计数它们与几个（即20-50个字）进行测试。

我希望这有助于。问候。克里斯

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow