Pregunta

¿Hay una manera fácil de convertir un documento XML de Nokogiri en un hash?

Algo así como el Hash.from_xml de Rails.

¿Fue útil?

Solución

Uso este código con libxml-ruby (1.1.3). Yo no he usado nokogiri, pero entiendo que de todos modos usa libxml-ruby. También le animo a mirar ROXML ( http://github.com/Empact/roxml/tree) que asigna elementos xml a objetos ruby; está construido sobre libxml.

# USAGE: Hash.from_libxml(YOUR_XML_STRING)
require 'xml/libxml'
# adapted from 
# http://movesonrails.com/articles/2008/02/25/libxml-for-active-resource-2-0

class Hash 
  class << self
        def from_libxml(xml, strict=true) 
          begin
            XML.default_load_external_dtd = false
            XML.default_pedantic_parser = strict
            result = XML::Parser.string(xml).parse 
            return { result.root.name.to_s => xml_node_to_hash(result.root)} 
          rescue Exception => e
            # raise your custom exception here
          end
        end 

        def xml_node_to_hash(node) 
          # If we are at the root of the document, start the hash 
          if node.element? 
           if node.children? 
              result_hash = {} 

              node.each_child do |child| 
                result = xml_node_to_hash(child) 

                if child.name == "text"
                  if !child.next? and !child.prev?
                    return result
                  end
                elsif result_hash[child.name.to_sym]
                    if result_hash[child.name.to_sym].is_a?(Object::Array)
                      result_hash[child.name.to_sym] << result
                    else
                      result_hash[child.name.to_sym] = [result_hash[child.name.to_sym]] << result
                    end
                  else 
                    result_hash[child.name.to_sym] = result
                  end
                end

              return result_hash 
            else 
              return nil 
           end 
           else 
            return node.content.to_s 
          end 
        end          
    end
end

Otros consejos

Si desea convertir un documento XML de Nokogiri a un hash, simplemente haga lo siguiente:

require 'active_support/core_ext/hash/conversions'
hash = Hash.from_xml(nokogiri_document.to_s)

Aquí hay una versión mucho más simple que crea un Hash robusto que incluye información de espacio de nombres, tanto para elementos como para atributos:

require 'nokogiri'
class Nokogiri::XML::Node
  TYPENAMES = {1=>'element',2=>'attribute',3=>'text',4=>'cdata',8=>'comment'}
  def to_hash
    {kind:TYPENAMES[node_type],name:name}.tap do |h|
      h.merge! nshref:namespace.href, nsprefix:namespace.prefix if namespace
      h.merge! text:text
      h.merge! attr:attribute_nodes.map(&:to_hash) if element?
      h.merge! kids:children.map(&:to_hash) if element?
    end
  end
end
class Nokogiri::XML::Document
  def to_hash; root.to_hash; end
end

Visto en acción:

xml = '<r a="b" xmlns:z="foo"><z:a>Hello <b z:m="n" x="y">World</b>!</z:a></r>'
doc = Nokogiri::XML(xml)
p doc.to_hash
#=> {
#=>   :kind=>"element",
#=>   :name=>"r",
#=>   :text=>"Hello World!",
#=>   :attr=>[
#=>     {
#=>       :kind=>"attribute",
#=>       :name=>"a", 
#=>       :text=>"b"
#=>     }
#=>   ], 
#=>   :kids=>[
#=>     {
#=>       :kind=>"element", 
#=>       :name=>"a", 
#=>       :nshref=>"foo", 
#=>       :nsprefix=>"z", 
#=>       :text=>"Hello World!", 
#=>       :attr=>[], 
#=>       :kids=>[
#=>         {
#=>           :kind=>"text", 
#=>           :name=>"text", 
#=>           :text=>"Hello "
#=>         },
#=>         {
#=>           :kind=>"element", 
#=>           :name=>"b", 
#=>           :text=>"World", 
#=>           :attr=>[
#=>             {
#=>               :kind=>"attribute", 
#=>               :name=>"m", 
#=>               :nshref=>"foo", 
#=>               :nsprefix=>"z", 
#=>               :text=>"n"
#=>             },
#=>             {
#=>               :kind=>"attribute", 
#=>               :name=>"x", 
#=>               :text=>"y"
#=>             }
#=>           ], 
#=>           :kids=>[
#=>             {
#=>               :kind=>"text", 
#=>               :name=>"text", 
#=>               :text=>"World"
#=>             }
#=>           ]
#=>         },
#=>         {
#=>           :kind=>"text", 
#=>           :name=>"text", 
#=>           :text=>"!"
#=>         }
#=>       ]
#=>     }
#=>   ]
#=> }

Encontré esto al intentar convertir simplemente XML a Hash (no en Rails). Estaba pensando que usaría Nokogiri, pero terminé con Nori .

Entonces mi código fue trival:

response_hash = Nori.parse(response)

Otros usuarios han señalado que esto no funciona. No lo he verificado, pero parece que el método de análisis se ha movido de la clase a la instancia. Mi código anterior funcionó en algún momento. El nuevo código (no verificado) sería:

response_hash = Nori.new.parse(response)

Utilice Nokogiri para analizar la respuesta XML al ruby ??hash. Es bastante rápido.

doc = Nokogiri::XML(response_body) 
Hash.from_xml(doc.to_s)

Si define algo como esto en su configuración:

ActiveSupport::XmlMini.backend = 'Nokogiri'

incluye un módulo en Nokogiri y obtienes el método to_hash .

Si el nodo que ha seleccionado en Nokogiri consta de una sola etiqueta, puede extraer las claves, los valores y comprimirlos en un hash, así:

  @doc ||= Nokogiri::XML(File.read("myxmldoc.xml"))
  @node = @doc.at('#uniqueID') # this works if this selects only one node
  nodeHash = Hash[*@node.keys().zip(@node.values()).flatten]

Ver http://www.ruby-forum.com/topic/125944 para obtener más información sobre la combinación de matrices de Ruby.

Eche un vistazo a la simple mezcla que hice para el Nodo XML Nokogiri.

http://github.com/kuroir/Nokogiri-to-Hash

Aquí hay un ejemplo de uso:

require 'rubygems'
require 'nokogiri'
require 'nokogiri_to_hash'
html = '
  <div id="hello" class="container">
    <p>Hello! visit my site <a href="http://kuroir.com">Kuroir.com</a></p>
  </div>
'
p Nokogiri.HTML(html).to_hash
=> [{:div=>{:class=>["container"], :children=>[{:p=>{:children=>[{:a=>{:href=>["http://kuroir.com"], :children=>[]}}]}}], :id=>["hello"]}}]
Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top