我有数据的docx格式Word文档中重复格式模式。

我想从重复设置取每个数据并上传到在SQL表中的一行。

数据的样本的位置:

Question No : 1
How is LINQ to SQL different from Entities?

A. Answer 1
B. Answer 1
C. Answer 1
D. Answer 1

Answer : D
Explanations : 
Some explanation.

Question No : 2
How is NVARCHAR different from VARCHAR

A. Answer 1
B. Answer 1
C. Answer 1
D. Answer 1

Answer : D
Explanations : 
Some explanation.

我能想到的几种方法:点击 - 为DOCX使用Office API点击阅读文档 - 将文档保存为Word中XML和XML解析[转换后的XML文档,似乎没有一个结构/模式]点击 - 将文档保存为HTML从Word和解析HTML [DOM结构不能很好地形成]

这上面当中你有什么建议,为什么?是否有任何工具,以帮助将文档转换并上传到一个SQL表或访问DB?

谢谢!

有帮助吗?

解决方案

DOCX仅仅是一个XML文件的ZIP目录树。使用WinZip或7-zip包解压到一组子目录。上传这些XML文件到SQL Server,加入自己的文件名和文件夹路径。 使用SQL Server中的XML的方法(.node等),将它们分解到你想要的关系形式。

请注意,这些确实有XML架构和结构。

其他提示

如果你要不是很经常处理这些文件,那么我会说将其保存到不同的格式(更容易SQL处理) - 甚至是一个纯文本格式。 如果这个过程(中导入此文件到DB)将要定期进行 - 去为当地docx处理,而无需将其转换为中间格式。 快速谷歌搜索显示,有可用的组件,可以读取DOCX格式转换成数据库(例如的 http://www.brothersoft.com/code-library-for-.net-(SQL-服务器MSDE)-22050.html

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top