Pregunta

Tengo un documento de Word en formato docx con los datos en la repetición del modelo de formato.

Me gustaría aprovechar cada dato de la repetición de fijar y cargar en una fila en la tabla de SQL.

Ejemplo de los datos aquí:

Question No : 1
How is LINQ to SQL different from Entities?

A. Answer 1
B. Answer 1
C. Answer 1
D. Answer 1

Answer : D
Explanations : 
Some explanation.

Question No : 2
How is NVARCHAR different from VARCHAR

A. Answer 1
B. Answer 1
C. Answer 1
D. Answer 1

Answer : D
Explanations : 
Some explanation.

lo que podía pensar algunos enfoques:
- Leer el documento como docx utilizando la API Oficina
- Guardar el documento como XML de la Palabra y analizar XML [el documento XML convertida no parece tener una estructura / esquema]
- Guardar el documento como HTML desde Word y analizar HTML [estructura del DOM no está bien formado]

¿Cuál entre anteriormente sugeriría usted y por qué? ¿Existe alguna herramienta para ayudar a convertir un documento y subirlo a una tabla de SQL o acceso DB?

Gracias!

¿Fue útil?

Solución

DOCX es sólo un árbol de directorios postal de archivos XML. Utilice WinZip o 7-Zip para extraer a un conjunto de subdirectorios. Sube los archivos XML a SQL Server, agregando su nombre de archivo y la ruta de la carpeta. el uso de los métodos XML de SQL Server (.node, etc) para triturarlos en la forma de relación que desea.

Tenga en cuenta que éstos tienen esquemas XML y estructuras.

Otros consejos

Si va a procesar estos archivos no muy a menudo, entonces yo diría que guardarlo en un formato diferente (más fácil de procesar por SQL) - tal vez incluso un formato de texto plano. Si este proceso (de importar este archivo de base de datos) va a realizar sobre una base regular - ir para el procesamiento DOCX nativa sin necesidad de convertirlo a un formato intermedio. Rápida búsqueda en Google revela que existen componentes disponibles que pueden leer el formato docx en una base de datos (por ejemplo, http://www.brothersoft.com/code-library-for-.net- (sql-server-msde) -22050.html )

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top