Meilleure façon de chercher tout le contenu de la page href dans Ruby?

https://stackoverflow.com/questions/1664403

12-09-2019
|

Question

Je vous écris d'un simple robot web en Ruby et je dois chercher tout le contenu de href sur la page. Quelle est la meilleure façon de faire, ou de toute autre analyse syntaxique source de la page Web, car certaines pages risquent de ne pas être valide, mais je veux toujours être en mesure de les analyser.

Y a-t-il des bons Ruby HTML parseurs qui permettent validité agnostique analyse syntaxique, ou est la meilleure façon juste de le faire à la main avec regexp?

Est-il possible d'utiliser XPath à la page non-XHTML?

La solution

Jetez un oeil à Nokogiri . court exemple:

require 'open-uri'
require 'nokogiri'
doc = Nokogiri::HTML(open('http://www.google.com/search?q=tenderlove'))
doc.search('//*[@href]').each do |m| p m[:href] end

Autres conseils

Jetez un oeil à Mechanize . Je suis sûr qu'il a des méthodes pour saisir tous les liens dans une page.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow