题
我有数据的docx格式Word文档中重复格式模式。
我想从重复设置取每个数据并上传到在SQL表中的一行。
数据的样本的位置:
Question No : 1
How is LINQ to SQL different from Entities?
A. Answer 1
B. Answer 1
C. Answer 1
D. Answer 1
Answer : D
Explanations :
Some explanation.
Question No : 2
How is NVARCHAR different from VARCHAR
A. Answer 1
B. Answer 1
C. Answer 1
D. Answer 1
Answer : D
Explanations :
Some explanation.
我能想到的几种方法:点击 - 为DOCX使用Office API点击阅读文档 - 将文档保存为Word中XML和XML解析[转换后的XML文档,似乎没有一个结构/模式]点击 - 将文档保存为HTML从Word和解析HTML [DOM结构不能很好地形成]
这上面当中你有什么建议,为什么?是否有任何工具,以帮助将文档转换并上传到一个SQL表或访问DB?
谢谢!
解决方案
DOCX仅仅是一个XML文件的ZIP目录树。使用WinZip或7-zip包解压到一组子目录。上传这些XML文件到SQL Server,加入自己的文件名和文件夹路径。 使用SQL Server中的XML的方法(.node等),将它们分解到你想要的关系形式。
请注意,这些确实有XML架构和结构。
其他提示
如果你要不是很经常处理这些文件,那么我会说将其保存到不同的格式(更容易SQL处理) - 甚至是一个纯文本格式。 如果这个过程(中导入此文件到DB)将要定期进行 - 去为当地docx处理,而无需将其转换为中间格式。 快速谷歌搜索显示,有可用的组件,可以读取DOCX格式转换成数据库(例如的 http://www.brothersoft.com/code-library-for-.net-(SQL-服务器MSDE)-22050.html )
不隶属于 StackOverflow