質問

を使用してい cyberneko クリーニング、およびプリンクを認めます。

が必要で確実に処理できるすべてのコメントで発生する独自のリンクを認めます。

んで構成されcyberneko saxパーサが処理コメントはこのように:

parser.setProperty("http://xml.org/sax/properties/lexical-handler", consumer);

...と同じ消費者として行っていますDOMイベント。

を取得しますコールバックをそれぞれのコメント:

 @Override
 public void comment(char[] arg0, int arg1, int arg2) throws SAXException {
  System.out.println("COMMENT::: "+new String(arg0, arg1, arg2));
 }

の問題にしている すべてのコメントを先に処理, のコンテキストのDOM.すなわちを取得しますコールバックのためのすべてのコメント 文書のヘッド、身体ます。

うにコメントのコールバック発生の時に、DOM.

編集:僕が実際にしようとい通りの指示の家元のhtmlなどの、

 <!--[if lte IE 6]><body class="news ie"><![endif]-->

現時点で全て落としながらプレーする必要がありまして、洗浄後のHTMLドキュメント

役に立ちましたか?

解決

あそらく簡単に説明する明確な場合がんのインタビューの所でもあります。

この問題cyberneckoきく異なるパーサなどのTagSoup.

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top