是否有一种编程方法可以从 MS Word 文档中提取方程(可能还有图像)?我已经用谷歌搜索遍了,但还没有找到任何可以让我全身心投入并工作的东西。如果可能的话,我希望能够使用 VB.NET 或 C# 来完成此操作,但我可以选择足够多的任何语言来破解 DLL。谢谢!

编辑: 现在我正在考虑从 Word 2003 中提取方程,但如果需要将其转换为 2007/Open XML,那也没关系。

有帮助吗?

解决方案

我不知道这些是否有帮助,但是 Word 2000/2003 中的对象模型有一个 InlineShapes 集合作为一部分 Document 表示嵌入图像的对象以及可能类似的对象(例如方程)。

一些用于将第一个项目复制到剪贴板的 VBA 代码,这可能会帮助您提取它们:

ThisDocument.InlineShapes.Items(1).Select
Selection.Copy

它也可以在 .NET 中访问, MSDN链接.

其他提示

什么字格式是您的证件吗?如果他们是在开放的XML(文件的扩展。尝)可以使用 Open XML SDK 可从Microsoft提取的图像和嵌入内容。

一个开放的XML文件不过是一个邮编归档,使用一种特殊结构。你会找到的例子中SDK如何访问的部分,zip archive。实际上你可以用任何zip能够库提取内容,该文件包。

如果文件仍然使用旧的二元格式的东西都比较复杂一点。我认为,最简单的办法是转换的文件,以开放的XML格式。有几种方法来这样做:

  • 获得免费和开放的 b2xtranslator 从SourceForge提供的你C#dll文件转换。
  • 安装微软的 兼容包 和使用的以下命令行为的转换:

    "C:\Program Files\Microsoft Office\Office12\wordconv.exe" -oice -nme input\_file output_file

在input_file和输出文件必须完全路径的名字。

尝试寻找在词对胶乳转换器。它需要.NET Framework和尽管源未打开但作者并邀请有关这个问题。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top