Un fichier Parsing HTML avec selectorgadget.com

https://stackoverflow.com/questions/592910

09-09-2019
|

Question

Comment puis-je utiliser belle soupe et selectorgadget pour gratter un site Web. Par exemple, j'ai un site Web - (un produit newegg) et je voudrais que mon script pour retourner toutes les spécifications de ce produit (cliquez sur les spécifications) par ce que je veux dire - Intel, bureau, ......, 2,4 GHz, 1066Mhz, ......, limitée de 3 ans.

Après avoir utilisé selectorgadget je reçois le string- .desc

Comment puis-je l'utiliser?

Merci:)

La solution

inspectant la page, je peux voir que les spécifications sont placées dans un div avec l'ID pcraSpecs:

<div id="pcraSpecs">
  <script type="text/javascript">...</script>
  <TABLE cellpadding="0" cellspacing="0" class="specification">
    <TR>
      <TD colspan="2" class="title">Model</TD>
    </TR>
    <TR>
      <TD class="name">Brand</TD>
      <TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Intel'));</script></TD>
    </TR>
    <TR>
      <TD class="name">Processors Type</TD>
      <TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Desktop'));</script></TD>    
    </TR>
    ...
  </TABLE>
</div>

desc est la classe des cellules du tableau.

Qu'est-ce que vous voulez faire est d'extraire le contenu de ce tableau.

soup.find(id="pcraSpecs").findAll("td") devrait vous aider à démarrer.

Autres conseils

Avez-vous essayé d'utiliser Feedity - http://feedity.com pour créer un flux RSS personnalisé de toute page Web.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow