質問
私はSGMLとJava文字列を持っています、このようなもの...
<misspell></misspell><plain>I</plain> <plain>know</plain> <plain>you</plain> <suggestion>ducky</suggestion> <plain>suck</plain> <plain>and</plain> <plain>I</plain> <plain>rocky</plain> <plain>rock</plain>
たとえば、内部のテキストを言うためにそれを解析するにはどうすればよいですか <suggestion> </suggestion>
「ダッキー」を出すように??
javax.swing.text.html.parser.parseは何か助けになりますか?または、HTMLドキュメントのみを解析することができますか?
他のヒント
HTMLパーサーを試してみてください。それらは(必然的に)奇形のマークアップを非常に許しており、HTMLは本質的にSGMLに基づいています。
所属していません StackOverflow