Pregunta

Estoy escribiendo un simple rastreador web en Ruby y yo que ir a buscar todos los contenidos href en la página. ¿Cuál es la mejor manera de hacer esto, o cualquier otra fuente de análisis de la página web, ya que algunas páginas pueden no ser válidas, pero todavía quiero ser capaz de analizar ellos.

¿Hay buenas analizadores Rubí HTML que permita validez agnóstico de análisis, o es simplemente la mejor manera de hacerlo a mano con expresión regular?

Es posible el uso de XPath en la página no XHTML?

¿Fue útil?

Solución

Tener un vistazo a Nokogiri . Breve ejemplo:

require 'open-uri'
require 'nokogiri'
doc = Nokogiri::HTML(open('http://www.google.com/search?q=tenderlove'))
doc.search('//*[@href]').each do |m| p m[:href] end

Otros consejos

Tome un vistazo a Mecanice . Estoy bastante seguro de que tiene métodos para agarrar todos los enlaces en una página.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top