Il modo più semplice per recuperare tutti i contenuti href nella pagina in Ruby?

https://stackoverflow.com/questions/1664403

12-09-2019
|

Domanda

Sto scrivendo un semplice web crawler in Ruby e ho bisogno di recuperare tutti i contenuti href sulla pagina. Qual è il modo migliore per farlo, o di qualsiasi altra analisi sorgente della pagina web, dal momento che alcune pagine potrebbero non essere validi, ma ho ancora voglia di essere in grado di analizzare loro.

Ci sono buoni parser HTML Rubino che permettono validità agnostico di analisi, o è il modo migliore solo per farlo a mano con espressioni regolari?

E 'possibile usare XPath sulla non-Valid pagina?

Soluzione

Dai un'occhiata alla Nokogiri . breve esempio:

require 'open-uri'
require 'nokogiri'
doc = Nokogiri::HTML(open('http://www.google.com/search?q=tenderlove'))
doc.search('//*[@href]').each do |m| p m[:href] end

Altri suggerimenti

Date un'occhiata a Mechanize . Sono abbastanza sicuro che ha i metodi per afferrare tutti i link in una pagina.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow