ドキュメント内のすべてのHTMLタグの文字位置を取得するための推奨方法

https://stackoverflow.com/questions/9339427

27-10-2019
|

質問

だから正規表現副作用がある場合があります. 。それでは、ドキュメント内のすべてのHTMLタグの開始および終了キャラクターの位置を取得する好ましい方法は何ですか？ JSoupやNekohtmlなどの解析ライブラリは、この情報を提供していないようです。 xmllocator それはだけを提供するので、適用されないようです 終わり 現在のドキュメントイベントの。

タグのタイプや名前、その属性、またはテキストから何かを剥がすことには興味がありません。彼らがどこから始めて、どこで終わるのか知りたいだけです。

この質問の目的のために、ソースHTMLが有効であると想定できます。

解決

私は自分自身に興味があったので、このパーサーを見つけました： http://jericho.htmlparser.net/

public void testJericho() throws IOException{

    Source source=new Source(new URL("http://example.com/"));
    List<Element> elementList=source.getAllElements();
    for (Element element : elementList) {
        printElement(element);
    }

}

public void printElement(Element element) {
    List<Element> children = element.getChildElements();
    for(Element child: children) 
        printElement(child);

    System.out.println(element.getName() + " start: " + element.getBegin());
    System.out.println(element.getName() + " end: " + element.getEnd());        
}

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow