混合タイプの <script> タグのクリーニング
-
01-10-2019 - |
質問
cyberneko と xerces を使って HTML をクリーンアップしています。ただし、一部の $#@@!@@ ウェブサイトでは依然として両方を使用しています
<script>...</script> and <script.../>
それで何が起こるかというと、次のとおりです。与えられた
<script..../> <div> Some Text </div> <script> scripting stuff </script> ,
猫は上記の行をすべてスクリプトとして解析するので、次のようになります。
<script..../> < div > Some Text </div > < script > scripting stuff </script> ,
そして、内部コンテンツがすべて失われます:(
何かアドバイス?
解決
<script /> の使用は HTML では違法です。XMLでは合法です。なぜ一部の人々が未だに XML を使って HTML を書くのか分かりませんが、それは間違いであり、設計上、ほとんどのパーサー (SO.. など) を壊します。
もう 1 つ注意すべき点は、XML パーサー / dom4j パーサー、またはそれに依存するものを使用する場合は、文字列を XML パーサー、次に HTML パーサーに渡さないようにしてください。これにより、すべてが壊れてしまいます。
所属していません StackOverflow