可靠地获取 .doc 文件的字符数
-
21-09-2019 - |
题
自动计算 .doc 或 .docx 文件中的字符和/或单词数的可靠方法是什么?
唯一真正的要求是相当准确且相当可靠的计数。
它需要处理包含拉丁文字以外的内容的文档,因此在大多数情况下计算字符就足够了。
计数不一定需要与Word 匹配,但越接近越好。
由于有无数不同的应用程序可以生成 .doc 文件,因此无法计算任何内容也没关系,但这种情况需要可捕获,因此我们知道计数可能不准确。对于所有其他情况,计数必须在至少 99% 的时间内至少达到 99% 的准确度。
我对所涉及的技术持开放态度,但可以在 *NIX 命令行上运行的技术将是更好的选择。
对此有合理的解决方案吗?
其他提示
的Mac OS X能够读取内置到系统框架的Word文件的支持,所以如果你有,这很容易。 MacRuby的样品:
NSSpellChecker.sharedSpellChecker.countWordsInString(NSAttributedString.alloc.initWithURL(fileURL, documentAttributes:nil), language:nil)
更多可移植 - 虽然它放弃支持DOCX - 你可以简单地得到Antiword做antiword | wc -w
微软发布了一个规范,在Office二进制文件格式。解析.DOC文件看起来不平凡的,但也有一些照顾,你应该能够得到一个可靠的,可重复的结果。我不知道如何密切,它会搭配什么词表明 - 这很可能将取决于(至少部分地)你如何定义“字” - 例如,你是否考虑一组数字的“字”或不。它可能不会采取了很多搞清楚Word如何对待案件那样,因此让一场势均力敌的比赛不应该是十分困难的。
如果您认为在线应用的解决方案,是的,有一个解决方案。结果 这不是那么漂亮(关于设计)网站提供的字和字符计数:的http:// allworldphone的.com /计数词语-characters.htm
我不认为这是一个限制,它不应该只是复制/文档的内容粘贴到相应的文本区域,看到结果的问题。
关于准确性100%或99%,则可以通过首先自己计数它们与几个(即20-50个字)进行测试。
我希望这有助于。 问候。克里斯