解析HTML文件selectorgadget.com
-
09-09-2019 - |
题
我怎么可以用漂亮的汤和 selectorgadget 刮网站。比如我有一个网站 - (一新蛋产品)和我希望我的脚本返回所有产品的规格按我的意思(点击规格) - 英特尔,桌面,......,2.4GHz的,1066MHZ,......,3年有限。
使用selectorgadget后我得到的与字符串 .desc
我如何使用它?
感谢:)
解决方案
检查该页面,我可以看到的规格被放置在一个div与ID pcraSpecs:
<div id="pcraSpecs">
<script type="text/javascript">...</script>
<TABLE cellpadding="0" cellspacing="0" class="specification">
<TR>
<TD colspan="2" class="title">Model</TD>
</TR>
<TR>
<TD class="name">Brand</TD>
<TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Intel'));</script></TD>
</TR>
<TR>
<TD class="name">Processors Type</TD>
<TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Desktop'));</script></TD>
</TR>
...
</TABLE>
</div>
递减是类的表格单元。
您想要做的是提取该表的内容。
soup.find(id="pcraSpecs").findAll("td")
应该让你开始。
其他提示
您是否尝试过使用Feedity - http://feedity.com 创建从任何网页定制的RSS提要。
不隶属于 StackOverflow