RubyでHTML文書を解析する方法?

https://stackoverflow.com/questions/2554909

23-09-2019
|

質問

PHP の DOMDocument クラスのように、HTML ドキュメントからノード要素の値を解析して取得するためのクラスが RUBY (つまり、コア RUBY) にありますか。

解決

（まだ）HTMLパーサがあり、内蔵されていない何が、いくつかの非常に良いものは、特に、利用可能な鋸山するます。

メタ答え：これらのような一般的なニーズのために、私は Rubyのツールボックスのサイトをチェックアウトをお勧めしたいです。あなたは、鋸山は HTMLパーサの

のトップ推奨であることに気づくでしょう

他のヒント

あなたは hpricot にチェックアウトする必要があります。それは非常に良いことです。それは、「コア」ルビーはないのですが、それは一般的に使用される宝石です。

また、ヨリックPeterseでの男鹿を試すことができます。

これは、XML / HTMLパーサRubyで書かれたなどのlibxmlなどのシステムライブラリを必要としないです。あなたはここでそれを見つけることができます。 https://github.com/YorickPeterse/ogaする

Ruby Cheerio - Ruby の jQuery スタイル HTML パーサー。クローラー用の Nokogiri の最も簡略化されたバージョン。これは最も人気のある NodeJS パッケージの Ruby バージョンです チェリオ.

簡単なクローラーの例については、リンクをクリックしてください。

gem インストール Ruby-cheerio

require 'ruby-cheerio'

jQuery = RubyCheerio.new("<html><body><h1 class='one'>h1_1</h1><h1>h1_2</h1></body></html>")

jQuery.find('h1').each do |head_one|
    p head_one.text
end

# getting attribute values like jQuery.
p jQuery.find('h1.one')[0].prop('h1','class')

# function chaining similar to jQuery.
p jQuery.find('body').find('h1').first.text

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow