質問

繰り返し形式パターンのデータを含む docx 形式の Word 文書があります。

繰り返しセットから各データを取得して、SQL テーブルの行にアップロードしたいと考えています。

データのサンプルはこちら:

Question No : 1
How is LINQ to SQL different from Entities?

A. Answer 1
B. Answer 1
C. Answer 1
D. Answer 1

Answer : D
Explanations : 
Some explanation.

Question No : 2
How is NVARCHAR different from VARCHAR

A. Answer 1
B. Answer 1
C. Answer 1
D. Answer 1

Answer : D
Explanations : 
Some explanation.

いくつかのアプローチが考えられます。
- Office API を使用してドキュメントを docx として読み取ります
- Word からドキュメントを XML として保存し、XML を解析します [変換された XML ドキュメントには構造/スキーマがないようです]
- Word からドキュメントを HTML として保存し、HTML を解析します [DOM 構造が適切に形成されていません]

上記のうちどれをお勧めしますか?またその理由は何ですか?ドキュメントを変換して SQL テーブルにアップロードしたり DB にアクセスしたりするのに役立つツールはありますか?

ありがとう!

役に立ちましたか?

解決

DOCX は、XML ファイルの単なる ZIP ディレクトリ ツリーです。WinZip または 7-Zip を使用して、一連のサブディレクトリに解凍します。これらの XML ファイルを SQL Server にアップロードし、ファイル名とフォルダー パスを追加します。SQL Server XML メソッド (.node など) を使用して、必要なリレーショナル形式に細断します。

これらには XML スキーマと構造があることに注意してください。

他のヒント

これらのファイルをあまり頻繁に処理しない場合は、別の形式 (SQL で処理しやすい) で保存することをお勧めします。プレーン テキスト形式でもよいでしょう。このプロセス (このファイルを DB にインポートする) を定期的に実行する場合は、中間形式に変換せずにネイティブ DOCX 処理を実行してください。Google で簡単に検索すると、docx 形式をデータベースに読み込むことができるコンポーネントが存在することがわかりました (例: http://www.brothersoft.com/code-library-for-.net-(sql-server-msde)-22050.html)

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top