SGMLを使用したJava文字列を解析します

https://stackoverflow.com/questions/3193574

02-10-2019
|

質問

私はSGMLとJava文字列を持っています、このようなもの...

<misspell></misspell><plain>I</plain> <plain>know</plain> <plain>you</plain> <suggestion>ducky</suggestion> <plain>suck</plain> <plain>and</plain> <plain>I</plain> <plain>rocky</plain> <plain>rock</plain>

たとえば、内部のテキストを言うためにそれを解析するにはどうすればよいですか <suggestion> </suggestion>「ダッキー」を出すように??

javax.swing.text.html.parser.parseは何か助けになりますか？または、HTMLドキュメントのみを解析することができますか？

解決

あなたが示す文字列はHTMLではありませんが、それはによって解析される可能性があります XMLパーサー.

SAX API JDKおよびAFAIKの一部であり、ほとんどのXMLパーサーが実装しています。

他のヒント

HTMLパーサーを試してみてください。それらは（必然的に）奇形のマークアップを非常に許しており、HTMLは本質的にSGMLに基づいています。

例えば http://htmlparser.sourceforge.net/

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow