Analisador / Lexer ignorando regras gramaticais incompletos
Pergunta
Eu tenho um analisador e lexer escrito em ocamlyacc e ocamllex. Se o arquivo para analisar extremidades prematuramente, como em I esquecer de um ponto e vírgula no final de uma linha, o aplicativo não aumentar um erro de sintaxe. Eu percebo que é porque eu estou levantando e pegando EOF e que está fazendo a lexer ignorar a regra inacabada, mas como deve eu estar fazendo isso para levantar um erro de sintaxe?
Aqui está o meu analisador atual (simplificado),
%{
let parse_error s = Printf.ksprinf failwith "ERROR: %s" s
%}
%token COLON
%token SEPARATOR
%token SEMICOLON
%token <string> FLOAT
%token <string> INT
%token <string> LABEL
%type <Conf.config> command
%start command
%%
command:
| label SEPARATOR data SEMICOLON { Conf.Pair ($1,$3) }
| label SEPARATOR data_list { Conf.List ($1,$3) }
| label SEMICOLON { Conf.Single ($1) }
label :
| LABEL { Conf.Label $1 }
data :
| label { $1 }
| INT { Conf.Integer $1 }
| FLOAT { Conf.Float $1 }
data_list :
| star_data COMMA star_data data_list_ending
{ $1 :: $3 :: $4 }
data_list_ending:
| COMMA star_data data_list_ending { $2 :: $3 }
| SEMICOLON { [] }
e lexxer (simplificado),
{
open ConfParser
exception Eof
}
rule token = parse
| ['\t' ' ' '\n' '\010' '\013' '\012']
{ token lexbuf }
| ['0'-'9']+ ['.'] ['0'-'9']* ('e' ['-' '+']? ['0'-'9']+)? as n
{ FLOAT n }
| ['0'-'9']+ as n { INT n }
| '#' { comment lexbuf }
| ';' { SEMICOLON }
| ['=' ':'] { SEPARATOR }
| ',' { COMMA }
| ['_' 'a'-'z' 'A'-'Z']([' ']?['a'-'z' 'A'-'Z' '0'-'9' '_' '-' '.'])* as w
{ LABEL w }
| eof { raise Eof }
and comment = parse
| ['#' '\n'] { token lexbuf }
| _ { comment lexbuf }
exemplo arquivo de entrada,
one = two, three, one-hundred;
single label;
list : command, missing, a, semicolon
Uma solução, é adicionar uma chamada recursiva na regra de comando para si no final, e adicionando uma regra vazia, todos os quais construir uma lista para voltar ao programa principal. Eu acho que talvez interpretando Eof como uma expectativa, e terminando condição, em vez de um erro no lexer, isso é correto?
Solução
ocamlyacc
não necessariamente consumir a entrada inteira. Se você quer forçá-lo a falhar se a entrada de todo não é parse-able, você precisa combinar EOF
em sua gramática. Em vez de levantar Eof
em você lexer, adicione um EOF
token e mudar seu símbolo start
para
%type <Conf.config list> main
main:
EOF { [] }
| command main { $1::$2 }