Análisis de matrices de TCL en rubí con copas de los árboles
Pregunta
Tengo un montón de datos en (lo que creo que es) una matriz TCL. Básicamente se trata de la forma de {a {b c} d {e f} g}
. Sólo ha anidado una profunda, pero no siempre está anidado, es decir, sólo puede ser a
a
o puede ser {aa bb}
o posiblemente {}
, pero nunca {aa {bb cc}}
. Quiero extraer esta matriz para que pueda utilizarlo en rubí.
Lo primero que pensé fue: "No hay problema, voy a escribir un poco de gramática para analizar esto." He instalado la gema copas de los árboles, y escribió un programa de análisis, que parecía funcionar bien. Empecé a tener problemas cuando traté de extraer una matriz desde el árbol analizada. Me gustaría entender mejor la causa de los problemas y lo que estoy haciendo mal.
Aquí está mi código analizador hasta ahora: (tcl_array.treetop)
grammar TCLArray
rule array
"{" [\s]* "}" {
def content
[]
end
}
/
"{" [\s]* array_element_list [\s]* "}" {
def content
array_element_list.content
end
}
end
rule array_element_list
array_element {
def content
[array_element.content]
end
}
/
array_element [\s]+ array_element_list {
def content
[array_element.content] + array_element_list.content
end
}
end
rule array_element
[^{}\s]+ {
def content
return text_value
end
}
/
array {
def content
array.content
end
}
end
end
rendimientos Invocando p.parse("{a}").content
tcl_array.rb:99:in 'content': undefined local variable or method 'array_element'
El primer término en array_element_list (array_element) dice que array_element es una variable local definida, pero se supone métodos de acceso para ser definido de forma automática de acuerdo con la documentación copas de los árboles.
Anteriormente, he intentado una solución que se basa apagado de una gramática con reglas menos pero un poco más complicadas:
grammar TCLArray
rule array
"{" ([\s]* array_element ([\s]+ array_element)* )? [\s]* "}"
end
rule array_element
[^{}\s]+ / array
end
end
Sin embargo, con esta gramática que tenía problemas en el analizador parecía estar creando varias expresiones diferentes de la norma matriz a pesar de que no usó ningún expresiones alternativas (/). El resultado fue que no podía encontrar la manera de acceder a las diversas partes de la regla matriz para devolverlos como una matriz de rubí.
Solución
Tal vez un generador de análisis es un exceso en este caso. Aquí está un simple analizador sintáctico descendente recursivo enrollado a mano basado en este analizador JSON por James Edward Grey II :
#!/usr/bin/env ruby
# based on James Edward Gray II's solution to the Parsing JSON
# Ruby Quiz #155: <http://RubyQuiz.Com/quiz155.html>
require 'strscan'
class TclArrayParser < StringScanner
def parse
parse_value
ensure
eos? or error "Unexpected data: '#{rest}'"
end
private
def parse_value
trim_space
parse_string or parse_array
ensure
trim_space
end
def parse_array
return nil unless scan(/\{\s*/)
array = []
while contents = parse_value
array << contents
end
scan(/\}/) or error('Unclosed array')
array
end
def parse_string
scan(/[^{}[:space:]]+/)
end
def trim_space
skip(/\s*/)
end
def error(message)
pos = if eos? then 'end of input' else "position #{self.pos}" end
raise ParseError, "#{message} at #{pos}"
end
class ParseError < StandardError; end
end
Aquí hay un banco de pruebas:
require 'test/unit'
class TestTclArrayParser < Test::Unit::TestCase
def test_that_an_empty_string_parses_to_nil
assert_nil TclArrayParser.new('').parse
end
def test_that_a_whitespace_string_parses_to_nil
assert_nil TclArrayParser.new(" \t \n ").parse
end
def test_that_an_empty_array_parses_to_an_empty_array
assert_equal [], TclArrayParser.new('{}').parse
end
def test_that_an_empty_array_with_whitespace_at_the_front_parses_to_an_empty_array
assert_equal [], TclArrayParser.new(' {}').parse
end
def test_that_an_empty_array_with_whitespace_at_the_end_parses_to_an_empty_array
assert_equal [], TclArrayParser.new('{} ').parse
end
def test_that_an_empty_array_with_whitespace_inside_parses_to_an_empty_array
assert_equal [], TclArrayParser.new('{ }').parse
end
def test_that_an_empty_array_surrounded_by_whitespace_parses_to_an_empty_array
assert_equal [], TclArrayParser.new(' {} ').parse
end
def test_that_an_empty_array_with_whitespace_at_the_front_and_inside_parses_to_an_empty_array
assert_equal [], TclArrayParser.new(' { }').parse
end
def test_that_an_empty_array_with_whitespace_at_the_end_and_inside_parses_to_an_empty_array
assert_equal [], TclArrayParser.new('{ } ').parse
end
def test_that_an_empty_array_surrounded_by_whitespace_with_whitespace_inside_parses_to_an_empty_array
assert_equal [], TclArrayParser.new(' { } ').parse
end
def test_that_a_sole_element_parses
assert_equal 'a', TclArrayParser.new('a').parse
end
def test_that_an_array_with_one_element_parses
assert_equal ['a'], TclArrayParser.new('{a}').parse
end
def test_that_a_nested_array_parses
assert_equal [[]], TclArrayParser.new('{{}}').parse
end
def test_that_a_nested_array_with_one_element_parses
assert_equal [['a']], TclArrayParser.new('{{a}}').parse
end
def test_that_whitespace_is_ignored
assert_equal [], TclArrayParser.new(' { } ').parse
end
def test_that_complex_arrays_parse_correctly
assert_equal ['a', %w[b c], 'd', %w[e f], 'g'], TclArrayParser.new('{a {b c} d {e f} g}').parse
assert_equal [%w[aa bb], %w[b c], 'd', %w[e f], 'g'], TclArrayParser.new('{{aa bb} {b c} d {e f} g}').parse
assert_equal [[], %w[b c], 'd', %w[e f], 'g'], TclArrayParser.new('{{} {b c} d {e f} g}').parse
assert_equal [[], ['b', 'c'], 'd', ['e', 'f'], 'g'], TclArrayParser.new("\n{\n{\n}\n{\nb\nc\n}\nd\n{\ne\nf\n}\ng\n}\n").parse
end
end
Otros consejos
Teniendo en cuenta esta referencia, pero he lanzado una joya para el análisis sencillo TCL.