Rubyでページ上のすべてのhrefの内容を取得する最も簡単な方法はありますか?
-
12-09-2019 - |
質問
私はRubyで簡単なWebクローラーを書いていると私は、ページ上のすべてのhref
の内容を取得する必要があります。どのようないくつかのページが有効でない場合がありますので、これを行うための最善の方法、または任意の他のウェブページのソースの解析ですが、私はまだそれらを解析することができるようにしたい。
の妥当性に依存しないの構文解析が可能か良いRubyのHTMLパーサーはありますか、単に正規表現を用いて手でそれを行うための最善の方法は何ですか?
非XHTMLページでXPathを使用することが可能ですか?
解決
鋸山のを見てください。ショート例:
require 'open-uri'
require 'nokogiri'
doc = Nokogiri::HTML(open('http://www.google.com/search?q=tenderlove'))
doc.search('//*[@href]').each do |m| p m[:href] end
所属していません StackOverflow