をフェッチの変動により発生するHTMLタグ

https://stackoverflow.com/questions/31535

09-06-2019
|

質問

ようにしてい取得した一部のHTMLから様々なブログとして知ることがさまざまなプロバイダを同一のタグの動かし方が異なります。

例えば、こちらの二つの主要プロバイダ用のデータベースのようなデータの名前の発電機のタグ別:

ブロガー: <meta content='blogger' name='generator'/> （コンテンツ、名前後であり、シングルクォート!)
WordPress: <meta name="generator" content="WordPress.com" /> （お名前、後のコンテンツ)

があるので、価値を引き出し、コンテンツのすべての例（シングル/ダブルクォートで、最初/最後の行)?

P.S.は私が使っているJavaの方が正解なのではないだろうかち寄りの場所のための正規表現に一般的です。

解決

その答えは: 使わない正規表現.

けます。使用のSGMLパーサが、XMLパーサせてもらう良い機会になりそうだかの有効なXML(おそらくほとんどないtrue)。ま絶対にねじ、廃棄物トンの時間を取得しようとします。もう既に利用可能。

他のヒント

実際には、その利用に何らかのHTMLパーサで検査の各ノードがノードの属性)DOMに行っていただきます。私は使用しないこれらがいないわからない方は是非ここではのリスト http://java-source.net/open-source/html-parsers

その違いは非常に重要に応じてXHTMLます。

つまり、同じものです。

また、置換する場合は二重引用符とのシングルクォーテーションが同じでなければならない。

代表的な方法の正常化のためのxml文書での削減を使って一部のAPIで扱う文書としてInfoset表現。両DOMおよびSAXイApiで作業することができてうれしいです。

したい場合の解析手（または、RegEx)まで再現するすべてのものコードで、私の意見で、それだけではない。

注意：シングルクォーテーションでない引用符の場合、値を含まないスペース）が有効となりますよ W3CにHTMLの仕様.引用:

デフォルトでは、SGMLを必要とするすべての属性値で区切ってからダブルクォーテーション(ASCII数34)または単一引用符(ASCII数39)...一定の場合には、執筆者が指定して属性の値なのまま残されます

また、なることを忘れての属性を元に戻すことができることその他の属性が表示されます。

というJavaの HTMLEditorKit シュートを放ちます。で試合の解析が提供できます。

Ok、お探しの言語-agnosticを試すことができ、REGEXのように /<meta\s.*content=.*>/ の結果から、解析、具体的な価値をお届けできます。私はよくないのでREGEXの専門家では、ほかにあまりないであろう、より良いものを使用ツール http://www.codehouse.com/webmaster_tools/regex/ に合わせたオーダーの両方の文字列も行います。

が発生する場合には、利用regex、こちらは正規表現を取得し、コンテンツ部分:

content\s*=\s*['"].*?['"]

を返します

content = "blogger"

や

content='Worpress.com'

ます。いない正規表現の専門家ではあるが、この店の場合に考える事例 regexpal.

ロサンゼルス生まれるまでの間のディレクティブを引用しただし）"は、お客様にご指定いただくと別の正規表現で公序良俗に反することはでループを文字です。

だjavaを利用してみましょう tagsoup, であるSAX対応のための連想パーザasp"[解析]HTMLとしてでは"野生.

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow