Pregunta

¿Cómo puedo utilizar hermosa sopa y selectorgadget para raspar una página web. Por ejemplo, tengo una página web - (un producto Newegg) y yo le gustaría mi script para volver con todas las especificaciones de ese producto (Haga clic sobre las especificaciones) con esto quiero decir - Intel, escritorio, ......, 2,4 GHz, 1066 Mhz, ......, 3 años limitada.

Después de usar selectorgadget consigo el String .desc

¿Cómo uso esto?

Gracias:)

¿Fue útil?

Solución

Inspección de la página, puedo ver que las especificaciones se colocan en un div con los pcraSpecs ID:

<div id="pcraSpecs">
  <script type="text/javascript">...</script>
  <TABLE cellpadding="0" cellspacing="0" class="specification">
    <TR>
      <TD colspan="2" class="title">Model</TD>
    </TR>
    <TR>
      <TD class="name">Brand</TD>
      <TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Intel'));</script></TD>
    </TR>
    <TR>
      <TD class="name">Processors Type</TD>
      <TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Desktop'));</script></TD>    
    </TR>
    ...
  </TABLE>
</div>

desc es la clase de las celdas de la tabla.

Lo que se quiere hacer es extraer el contenido de esta tabla.

soup.find(id="pcraSpecs").findAll("td") debe empezar.

Otros consejos

¿Ha intentado utilizar Feedity - http://feedity.com para la creación de una costumbre canal RSS de cualquier página web.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top