解析HTML文件selectorgadget.com

https://stackoverflow.com/questions/592910

09-09-2019
|

题

我怎么可以用漂亮的汤和 selectorgadget 刮网站。比如我有一个网站 - （一新蛋产品）和我希望我的脚本返回所有产品的规格按我的意思（点击规格） - 英特尔，桌面，......，2.4GHz的，1066MHZ，......，3年有限。

使用selectorgadget后我得到的与字符串 .desc

我如何使用它？

感谢：）

解决方案

检查该页面，我可以看到的规格被放置在一个div与ID pcraSpecs：

<div id="pcraSpecs">
  <script type="text/javascript">...</script>
  <TABLE cellpadding="0" cellspacing="0" class="specification">
    <TR>
      <TD colspan="2" class="title">Model</TD>
    </TR>
    <TR>
      <TD class="name">Brand</TD>
      <TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Intel'));</script></TD>
    </TR>
    <TR>
      <TD class="name">Processors Type</TD>
      <TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Desktop'));</script></TD>    
    </TR>
    ...
  </TABLE>
</div>

递减是类的表格单元。

您想要做的是提取该表的内容。

soup.find(id="pcraSpecs").findAll("td")应该让你开始。

其他提示

您是否尝试过使用Feedity - http://feedity.com 创建从任何网页定制的RSS提要。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow