質問

cyberneko と xerces を使って HTML をクリーンアップしています。ただし、一部の $#@@!@@ ウェブサイトでは依然として両方を使用しています

<script>...</script> and <script.../> 

それで何が起こるかというと、次のとおりです。与えられた

<script..../> <div> Some Text </div> <script> scripting stuff </script> , 

猫は上記の行をすべてスクリプトとして解析するので、次のようになります。

<script..../> &lt div &gt Some Text &lt/div &gt &lt script &gt scripting stuff </script> , 

そして、内部コンテンツがすべて失われます:(

何かアドバイス?

役に立ちましたか?

解決

<script /> の使用は HTML では違法です。XMLでは合法です。なぜ一部の人々が未だに XML を使って HTML を書くのか分かりませんが、それは間違いであり、設計上、ほとんどのパーサー (SO.. など) を壊します。

もう 1 つ注意すべき点は、XML パーサー / dom4j パーサー、またはそれに依存するものを使用する場合は、文字列を XML パーサー、次に HTML パーサーに渡さないようにしてください。これにより、すべてが壊れてしまいます。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top