HTML ファイルのグループから表の内容を抽出する最良の方法は何ですか?

https://stackoverflow.com/questions/68691

09-06-2019
|

質問

HTML ファイルでいっぱいのフォルダーを TIDY でクリーンアップした後、さらに処理するためにテーブルのコンテンツを抽出するにはどうすればよいでしょうか?

解決

どのような処理を行いたいかによって異なります。Tidy に XML の一種である XHTML を生成するように指示できます。つまり、結果に対して XSLT や XQuery などの通常の XML ツールをすべて使用できることになります。

これらを Microsoft Excel で処理したい場合は、HTML からテーブルを切り取ってファイルに配置し、そのファイルを Excel で開くことができます。HTML テーブルをスプレッドシートページに変換します。その後、CSV または Excel ワークブックなどとして保存できます。(これを Web サーバー上で使用することもできます。HTML テーブルを返しますが、 Content-Type へのヘッダー application/ms-vnd.excel:Excel が開いてテーブルをインポートし、スプレッドシートに変換します)。

CSV をデータベースにフィードしたい場合は、以前と同様に Excel を使用できます。プロセスを自動化したい場合は、任意の XML ナビゲート API を使用してテーブルの行を反復処理するプログラムを作成し、 CSV として保存します。Python の Elementtree と CSV モジュールを使用すると、これが非常に簡単になります。

他のヒント

私は過去にそのような目的で BeautifulSoup を使用して大成功を収めました。

提案を検討した後、最終的に使用しました HTMLユニット.

HTMLunitを使用すると、Javaコードをカスタマイズして、フォルダー内の各HTMLファイルを開き、テーブルタグに移動し、各列コンテンツをクエリし、CSVファイルを作成するために必要なデータを抽出することができました。

.NETでは、次のように使用できます HTMLアジリティパック.

これを参照してください前の質問詳細については、StackOverflow を参照してください。

HTML マークアップからコンテンツを抽出する場合は、何らかのタイプの HTML パーサーを使用する必要があります。そのために、世の中にはたくさんのものがあり、ここではあなたのニーズに合うかもしれない 2 つを紹介します。

http://jtidy.sourceforge.net/
http://htmlparser.sourceforge.net/

テキストを反復処理し、正規表現を使用します:)

http://www.knowledgehouse.sg

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow