質問
正規表現を使用して、何が最も簡単な方法を取得するサイトにHTMLの値を内部にこのタグはあらゆる属性の値が下):
<html>
<head>
[snip]
<meta name="generator" value="thevalue i'm looking for" />
[snip]
解決
ウチの洗練されたHttpリクエストを構築する必要がある(認証します。こちらは簡単に見て使用されます。
StringBuilder html = new StringBuilder();
java.net.URL url = new URL("http://www.google.com/");
BufferedReader input = null;
try {
input new BufferedReader(
new InputStreamReader(url.openStream()));
String htmlLine;
while ((htmlLine=input.readLine())!=null) {
html.appendLine(htmlLine);
}
}
finally {
input.close();
}
Pattern exp = Pattern.compile(
"<meta name=\"generator\" value=\"([^\"]*)\" />");
Matcher matcher = exp.matcher(html.toString());
if(matcher.find())
{
System.out.println("Generator: "+matcher.group(1));
}
しょうをたっぷりの誤字がここにき取りまとめを行いました。(ご希望はこんの宿題)
他のヒント
そも凄い好き問題への対応を利用RegEx HTML、課題のHTMLく ない されているが、このようにレンダリングのHTMLパーサは全く役に立たない。
の場合の開発と分解能で解析するためウェブページやそこられているものの、これまで形成されたHTMLを書"Regex用する構文解析HTML"og"を使用HTMLパーサー"は完全に偽.事実に関する世の中には、人々をHTMLとして感じようと必ずしも適してparsers.
RegEx は 完全に有効なこの要素がテキスト、HTML.がある場合その他について心配する必要がなく、直面する問題のポスターは、その後いろんなデザインで表現しているを参考にしてご利用のパーサが"または"RTFM"です。
て確認してみてくださいドキュメンテーションにApacheのorg.apache.公共財です。HttpClientパッケージと、関連するパッケージ こちらの.を送信するHTTPリクエストからJavaアプリケーションは簡単にいかない。書込処理の文書化すべきだすのは正しい方向を向いている。
厳密に言えばしたりすることはできません必ずまたは右の値は、メタタグがコメントアウトされていた、メタタグが大文字等すかあるいはHTMLとして"優しい".
それはその時々です。
だから、必要な情報を引き出すサイトまたはサイトであることが保証されていく成形されたHTML、あけましておめでとうございますの <meta> なobfuscatedの方法でそれを読む <head> 区間ラインによるラインにより、regexが良いです。
一方の場合、HTMLが難号化したまたは"トリッキー"を利用する必要があり適切なHTMLパーサーの可能性の確認についHTMLTidy.に注意を厳重なHTMLまたはXMLパーサにもtrawledからランダムなります。ロット"と呼ばれるHTMLですが実際に不正.
まだ試したことがなの基本的な枠組みにする
- 開設
java.net.HttpURLConnection
- 取得の入力ストリームを使用
getInputStream
- 利用の正規表現にマイクの応答を解析をしたいビット