Analisar um arquivo HTML com selectorgadget.com

https://stackoverflow.com/questions/592910

09-09-2019
|

Pergunta

Como posso usar bela sopa e selectorgadget para raspar um site. Por exemplo, eu tenho um site - (um produto newegg) e eu gostaria que o meu script para retornar todas as especificações desse produto (clique em especificações) com isto quero dizer - Intel, o desktop, ......, 2.4GHz, 1066Mhz, ......, 3 anos limitados.

Depois de usar selectorgadget recebo a string- .Desc

Como posso usar isso?

Obrigado:)

Solução

Inspecionando a página, eu posso ver que as especificações são colocados em um div com as pcraSpecs ID:

<div id="pcraSpecs">
  <script type="text/javascript">...</script>
  <TABLE cellpadding="0" cellspacing="0" class="specification">
    <TR>
      <TD colspan="2" class="title">Model</TD>
    </TR>
    <TR>
      <TD class="name">Brand</TD>
      <TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Intel'));</script></TD>
    </TR>
    <TR>
      <TD class="name">Processors Type</TD>
      <TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Desktop'));</script></TD>    
    </TR>
    ...
  </TABLE>
</div>

desc é a classe das células da tabela.

O que você quer fazer é extrair o conteúdo desta tabela.

soup.find(id="pcraSpecs").findAll("td") deve começar.

Outras dicas

Você já tentou usar Feedity - http://feedity.com para criar um feed RSS personalizado a partir de qualquer página da web.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow