解析字符串插值ANTLR
-
13-09-2019 - |
题
我正在一个简单的字符串操作DSL用于内部用途,我想的语言,以支持字符串内插,因为它是在红宝石使用。
例如:
name = "Bob"
msg = "Hello ${name}!"
print(msg) # prints "Hello Bob!"
我试图实现ANTLRv3我的解析器,但我用ANTLR所以我不能确定如何实现这一功能非常缺乏经验。到目前为止,我指定的词法分析器我的字符串文字,但在这种情况下,我显然需要处理的解析器插值内容。
我的当前字符串文字语法看起来像这样:
STRINGLITERAL : '"' ( StringEscapeSeq | ~( '\\' | '"' | '\r' | '\n' ) )* '"' ;
fragment StringEscapeSeq : '\\' ( 't' | 'n' | 'r' | '"' | '\\' | '$' | ('0'..'9')) ;
移动字符串文字处理成解析器似乎让一切停止工作,因为它应该。走马网页搜索没有取得任何信息。至于如何任何建议,以便开始在此?
解决方案
我没有ANTLR的专家,但这里有一个可能的语法:
grammar Str;
parse
: ((Space)* statement (Space)* ';')+ (Space)* EOF
;
statement
: print | assignment
;
print
: 'print' '(' (Identifier | stringLiteral) ')'
;
assignment
: Identifier (Space)* '=' (Space)* stringLiteral
;
stringLiteral
: '"' (Identifier | EscapeSequence | NormalChar | Space | Interpolation)* '"'
;
Interpolation
: '${' Identifier '}'
;
Identifier
: ('a'..'z' | 'A'..'Z' | '_') ('a'..'z' | 'A'..'Z' | '_' | '0'..'9')*
;
EscapeSequence
: '\\' SpecialChar
;
SpecialChar
: '"' | '\\' | '$'
;
Space
: (' ' | '\t' | '\r' | '\n')
;
NormalChar
: ~SpecialChar
;
如你注意到,有一对夫妇的示例语法内(Space)*
-ES的。这是因为stringLiteral
是解析器规则代替词法规则。为此,标记化源文件时,词法分析器不能知道是否空白空间是一个字符串的一部分文字,或仅仅是可以被忽略的源文件内的空间中。
我测试例如用小的Java类和所有发挥预期:
/* the same grammar, but now with a bit of Java code in it */
grammar Str;
@parser::header {
package antlrdemo;
import java.util.HashMap;
}
@lexer::header {
package antlrdemo;
}
@parser::members {
HashMap<String, String> vars = new HashMap<String, String>();
}
parse
: ((Space)* statement (Space)* ';')+ (Space)* EOF
;
statement
: print | assignment
;
print
: 'print' '('
( id=Identifier {System.out.println("> "+vars.get($id.text));}
| st=stringLiteral {System.out.println("> "+$st.value);}
)
')'
;
assignment
: id=Identifier (Space)* '=' (Space)* st=stringLiteral {vars.put($id.text, $st.value);}
;
stringLiteral returns [String value]
: '"'
{StringBuilder b = new StringBuilder();}
( id=Identifier {b.append($id.text);}
| es=EscapeSequence {b.append($es.text);}
| ch=(NormalChar | Space) {b.append($ch.text);}
| in=Interpolation {b.append(vars.get($in.text.substring(2, $in.text.length()-1)));}
)*
'"'
{$value = b.toString();}
;
Interpolation
: '${' i=Identifier '}'
;
Identifier
: ('a'..'z' | 'A'..'Z' | '_') ('a'..'z' | 'A'..'Z' | '_' | '0'..'9')*
;
EscapeSequence
: '\\' SpecialChar
;
SpecialChar
: '"' | '\\' | '$'
;
Space
: (' ' | '\t' | '\r' | '\n')
;
NormalChar
: ~SpecialChar
;
和与main方法的类,以测试它的所有:
package antlrdemo;
import org.antlr.runtime.*;
public class ANTLRDemo {
public static void main(String[] args) throws RecognitionException {
String source = "name = \"Bob\"; \n"+
"msg = \"Hello ${name}\"; \n"+
"print(msg); \n"+
"print(\"Bye \\${for} now!\"); ";
ANTLRStringStream in = new ANTLRStringStream(source);
StrLexer lexer = new StrLexer(in);
CommonTokenStream tokens = new CommonTokenStream(lexer);
StrParser parser = new StrParser(tokens);
parser.parse();
}
}
产生以下输出:
> Hello Bob
> Bye \${for} now!
再次我不是专家,但是这(至少)给你的在的方式来解决这个问题。
HTH。
不隶属于 StackOverflow