質問
PHP の DOMDocument クラスのように、HTML ドキュメントからノード要素の値を解析して取得するためのクラスが RUBY (つまり、コア RUBY) にありますか。
解決
(まだ)HTMLパーサがあり、内蔵されていない何が、いくつかの非常に良いものは、特に、利用可能な鋸山するます。
メタ答え:これらのような一般的なニーズのために、私は Rubyのツールボックスのサイトをチェックアウトをお勧めしたいです。あなたは、鋸山は HTMLパーサの
のトップ推奨であることに気づくでしょう他のヒント
あなたは hpricot にチェックアウトする必要があります。それは非常に良いことです。それは、「コア」ルビーはないのですが、それは一般的に使用される宝石です。
また、ヨリックPeterseでの男鹿を試すことができます。
これは、XML / HTMLパーサRubyで書かれたなどのlibxmlなどのシステムライブラリを必要としないです。あなたはここでそれを見つけることができます。 https://github.com/YorickPeterse/ogaする
Ruby Cheerio - Ruby の jQuery スタイル HTML パーサー。クローラー用の Nokogiri の最も簡略化されたバージョン。これは最も人気のある NodeJS パッケージの Ruby バージョンです チェリオ.
簡単なクローラーの例については、リンクをクリックしてください。
gem インストール Ruby-cheerio
require 'ruby-cheerio'
jQuery = RubyCheerio.new("<html><body><h1 class='one'>h1_1</h1><h1>h1_2</h1></body></html>")
jQuery.find('h1').each do |head_one|
p head_one.text
end
# getting attribute values like jQuery.
p jQuery.find('h1.one')[0].prop('h1','class')
# function chaining similar to jQuery.
p jQuery.find('body').find('h1').first.text
所属していません StackOverflow