Question

Je souhaite récupérer la source d'un site web, qui est généré dynamiquement après avoir cliqué sur un lien. Le lien lui-même est comme ci-dessous:

<a onclick="function(); return false" href="#">Link</a>

Cela me arrête d'interroger directement une URL qui me permettra d'obtenir le site Web généré dynamiquement (urllib / 2).

Comment peut-on récupérer la source du site, qui a été généré avec la fonction ci-dessus (en HTML) via python? Y at-il une méthode pour contourner le return false" href="#"? Ou le tout onclick, et obtenir l'URL?

S'il y a une autre façon de générer le site à partir du lien ci-dessus abstrait, de sorte que l'on peut obtenir à partir urllib en python, s'il vous plaît me référer.


EDIT:

Je généralisé le code vu plus haut - mais on m'a dit que l'on doit désosser le javascript spécifique pour pouvoir l'utiliser

.

Lien vers .js - http://a.quizlet.com/j/ anglais / create_setku80j8.js

Lien vers le site avec lien:

<a onclick="importText(); return false" href="#">Bulk-import data</a>

URL réelle du site: http://quizlet.com/create_set/

enjolivé JS de .js pertinentes ci-dessus: http://pastie.org/737042

Était-ce utile?

La solution

Je ne vois pas immédiatement un code de génération de contenu ou lien-suivant dans ce script; tout importText fait est que bascule quelques divs sont représentés.

Si vous voulez étudier les appels de la webapp fait faire une action particulière, afin de les reproduire à partir d'un bot, vous êtes probablement mieux loti regarder les requêtes HTTP (formulaire soumissions et appels AJAX) que le navigateur fait tout en effectuant cette action. Vous pouvez utiliser le panneau « Net » Firebug pour étudier ce pour Firefox ou Fiddler pour IE.

Autres conseils

Vous aurez probablement à désosser le JavaScript pour fonctionner ce qui se passe.

Pouvez-vous fournir le site et le lien en question?

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top