Frage

Ich habe ein Word-Dokument in docx-Format mit Daten im Format Muster zu wiederholen.

Ich mag die jeweils Daten von der Wiederholung gesetzt zu übernehmen und zu einer Reihe in der SQL-Tabelle laden.

Beispiel von Daten hier:

Question No : 1
How is LINQ to SQL different from Entities?

A. Answer 1
B. Answer 1
C. Answer 1
D. Answer 1

Answer : D
Explanations : 
Some explanation.

Question No : 2
How is NVARCHAR different from VARCHAR

A. Answer 1
B. Answer 1
C. Answer 1
D. Answer 1

Answer : D
Explanations : 
Some explanation.

Ich konnte von wenigen Ansätze denken:
Lesen Sie das Dokument als docx des API
mit Office - - Speichern Sie das Dokument als XML aus Word und analysieren XML [das konvertierte XML-Dokument scheint keine Struktur / schema haben]
- Speichern Sie das Dokument als HTML aus Word und analysiert HTML [DOM-Struktur nicht gut geformt]

Welche unter oben würden Sie vorschlagen, und warum? Gibt es irgendwelche Werkzeuge, um ein Dokument und laden zu einer SQL-Tabelle oder den Zugang DB-Format konvertieren?

Danke!

War es hilfreich?

Lösung

DOCX ist nur ein ZIP-Verzeichnisbaum von XML-Dateien. Verwenden WinZip oder 7-Zip es auf einen Satz von Unterverzeichnissen zu extrahieren. Laden Sie diese XML-Dateien in SQL Server, das Hinzufügen ihre Dateinamen und Ordnerpfad. die Verwendung der SQL Server XML-Methoden (.Node, usw.), um sie in die relationale Form zerkleinern, dass Sie wollen.

Beachten Sie, dass diese haben tun XML-Schemata und Strukturen.

Andere Tipps

Wenn Sie diese Dateien nicht sehr oft verarbeiten wollen, dann würde ich es sagen speichern in ein anderes Format (einfacher von SQL zu verarbeiten) - vielleicht sogar ein Textformat. Wenn dieser Prozess (der diese Datei zu importieren DB) wird in regelmäßigen Abständen durchgeführt werden - gehen für die native DOCX Verarbeitung ohne es zu einem Zwischenformat zu konvertieren. Schnelle Google-Suche ergab, dass es Komponenten zur Verfügung, die docx-Format in einer Datenbank lesen kann (zB http://www.brothersoft.com/code-library-for-.net- (sQL-Server-msde) -22050.html )

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top