Javaアプリケーションのための不完全に形成されXHTMLページをこすりスクリーニングするための最良の方法は何ですか
-
23-08-2019 - |
質問
私は、Webページ、特にタグおよびそれらの中からコンテンツをつかむことができるようにしたいです。私は、XQueryとXPathを試してみましたが、彼らは不正なXHTMLのために働くように思えませんし、正規表現がちょうど痛みです。
よりよい解決策はあります。理想的には私はすべてのリンクを頼むと、URLの配列を取り戻す、あるいはリンクのテキストを求めると、リンクのテキストに戻って文字列の配列を取得、またはすべての太字のテキストを求めることができるようにしたいと思いますなど。
解決
バック有効なXMLをあなたに与えるべき、 JTidy のようなものを通じてXHTMLを実行します。
他のヒント
あなたは Watij を見てみたいことがあります。私はそのRubyのいとこ、ワチールを使用していたが、それを私がWebページをロードすることができたとあなたが記述とまったく同じ方法でページのすべてのURLを要求します。
これはで動作するのは非常に簡単だった - それは文字通りウェブブラウザを発射し、素敵な形で情報をあなたに戻っています。 IEのサポートは最高のように見えたが、少なくともワチールFirefoxでもサポートされていました。
私は戻って一日でJTidyといくつかの問題を抱えていました。私はそれがJTidyは失敗作っ閉鎖されていなかったのタグに関連していたと思います。ザッツは修正かどうかはわかりません。私はドンが、私は」、 TagSoup のラッパーだったものを使用して終了しましたtは、正確なプロジェクトの名前を覚えています。 Theresのも HTMLCleanerするます。
私は http://htmlparser.sourceforge.net/ を使用しました。それは不完全に形成されたHTMLを解析し、非常に簡単にデータの抽出を可能にすることができます。