我很清洁HTML使用cyberneko和了xerces.然而,一些$#@@!@@ 网站仍然使用

<script>...</script> and <script.../> 

所以会发生什么情况是这样的:给予

<script..../> <div> Some Text </div> <script> scripting stuff </script> , 

ネ分析所有上述行为脚本,所以我

<script..../> &lt div &gt Some Text &lt/div &gt &lt script &gt scripting stuff </script> , 

然后我会失去所有内部的内容:(

任何建议?

有帮助吗?

解决方案

使用 <script /> is illegal in html.它是合法的,在xml。我不知道为什么有些人仍然使用xml方式写html,但这是错误的,并且它打破的大多数分析程序(像这样..)-通过设计。

另一件事要注意的-如果你使用xml分析程序/dom4j分析程序或其他任何事情取决于它,确保你不穿你的串通过xml parser然后html parser-这会破坏一切。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top