清洁的混合型 <script> tags
-
01-10-2019 - |
题
我很清洁HTML使用cyberneko和了xerces.然而,一些$#@@!@@ 网站仍然使用
<script>...</script> and <script.../>
所以会发生什么情况是这样的:给予
<script..../> <div> Some Text </div> <script> scripting stuff </script> ,
ネ分析所有上述行为脚本,所以我
<script..../> < div > Some Text </div > < script > scripting stuff </script> ,
然后我会失去所有内部的内容:(
任何建议?
解决方案
使用 <script /> is illegal in html.它是合法的,在xml。我不知道为什么有些人仍然使用xml方式写html,但这是错误的,并且它打破的大多数分析程序(像这样..)-通过设计。
另一件事要注意的-如果你使用xml分析程序/dom4j分析程序或其他任何事情取决于它,确保你不穿你的串通过xml parser然后html parser-这会破坏一切。
不隶属于 StackOverflow