كيفية استخدام البادئة كتلة المحددات مع البيسون فليكس

StackOverflow https://stackoverflow.com/questions/1413204

سؤال

أنا wounder كيفية تنفيذ المسافة البادئة كتلة المحددات في البيسون + فليكس.فقط مثل في بيثون.أنا أكتب بلدي لغة البرمجة ( في الغالب من أجل المتعة ، ولكن كنت تنوي استخدامها جنبا إلى جنب مع محرك اللعبة ), سأحاول أن يأتي بشيء خاصة أن يقلل النمطي ويزيد ديف السرعة.

لقد سبق أن كتب المترجم ( في الواقع `langToy' إلى Nasm مترجم ) ج ، لكنها فشلت.بعض الأسباب إلا أنها كانت قادرة على التعامل مع سلسلة واحدة في كل الملف المصدر ( حسنا, لقد كنت مستيقظا لأكثر من 48 ساعة - حتى...تعرف الدماغ الانهيار ).

أنا لا أعرف إذا كان الأقواس و/أو البدء -> نهاية أسهل لتنفيذ ( ليس لدي مشكلة في فعل هذا ) أو لو كان مجرد ذهني أن يحبس.

شكرا مقدما!


تحديث: حسنا, ليس لدي أي فكرة عن كيفية القيام بذلك مع فليكس.لدي مشاكل مع عودته متعددة DEDENTs إلى محلل.فليكس/البيسون هي جديدة نسبيا بالنسبة لي.


تحديث 2: هذا هو فليكس-ملف جئت بها حتى الآن ؛ فإنه لا يحصل على:

%x t
%option noyywrap

%{
  int lineno = 0, ntab = 0, ltab = 0, dedent = 0;
%}

%%

<*>\n  { ntab = 0; BEGIN(t); }
<t>\t  { ++ntab; }
<t>.   { int i; /* my compiler complains not c99 if i use for( int i=0... */
         if( ntab > ltab )
           printf("> indent >\n");
         else if( ntab < ltab )
           for( i = 0; i < ltab - ntab; i++ )
             printf("< dedent <\n");
         else
           printf("=        =\n");

         ltab = ntab; ntab = 0;
         BEGIN(INITIAL);
         /* move to next rule */
         REJECT;}
.    /* ignore everything else for now */

%%

main()
{
  yyin = fopen( "test", "r" );
  yylex();
}

يمكنك محاولة للعب مع حولها ، ربما يرى ما أنا في عداد المفقودين.العودة متعددة dedents سيكون سهولة في Haxe ( عودة t_dedent( num );).

هذا الرمز لا تتطابق دائما مع المسافات البادئة/dedents بشكل صحيح.


تحديث 3: أعتقد أنني سوف تعطي الأمل فليكس أفعل ذلك بطريقتي الخاصة, إذا كان أي شخص يعرف كيفية القيام بذلك في سلك معزول سأكون سعيدا لسماع ذلك على أي حال.

هل كانت مفيدة؟

المحلول

ما تحتاج إلى القيام به هو الحصول فليكس عد كمية الفراغات في بداية كل سطر و إدراج عدد مناسب من INDENT/إزاحة رموز محلل لاستخدام مجموعة من الأشياء.سؤال واحد هو ماذا تريد أن تفعل حول علامات التبويب مقابل المساحات -- هل تريد فقط أن يكون لهم أن تعادل مع علامة التبويب ثابتة توقف ، أو هل تريد أن تتطلب الطعج أن تكون متسقة (حتى لو سطر واحد يبدأ مع علامة التبويب التالي مع مساحة إشارة خطأ ، والتي ربما تكون أصعب قليلا).

على افتراض انك تريد ثابت 8-عمود tabstops ، يمكنك استخدام شيء من هذا القبيل

%{
/* globals to track current indentation */
int current_line_indent = 0;   /* indentation of the current line */
int indent_level = 0;          /* indentation level passed to the parser */
%}

%x indent /* start state for parsing the indentation */
%s normal /* normal start state for everything else */

%%
<indent>" "      { current_line_indent++; }
<indent>"\t"     { current_line_indent = (current_line_indent + 8) & ~7; }
<indent>"\n"     { current_line_indent = 0; /*ignoring blank line */ }
<indent>.        {
                   unput(*yytext);
                   if (current_line_indent > indent_level) {
                       indent_level++;
                       return INDENT;
                   } else if (current_line_indent < indent_level) {
                       indent_level--;
                       return UNINDENT;
                   } else {
                       BEGIN normal;
                   }
                 }

<normal>"\n"     { current_line_indent = 0; BEGIN indent; }
... other flex rules ...

لديك للتأكد من أنك تبدأ في تحليل وضع مسافة بادئة (للحصول على المسافة البادئة في السطر الأول).

نصائح أخرى

كريس الجواب يقطع شوطا طويلا نحو صالحة للاستعمال الحل بفضل حفنة من أجل هذا!للأسف أنه يفتقد بعض جوانب أكثر أهمية مما كنت بحاجة:

  • متعددة outdents (unindents) في آن واحد.النظر في التعليمات البرمجية التالية يجب أن تنبعث منها اثنين outdents بعد استدعاء baz:

    def foo():
      if bar:
        baz()
    
  • تنبعث منها outdents عند نهاية الملف هو وصل ولا يزال في بعض المسافة البادئة المستوى.

  • المسافة البادئة مستويات مختلفة الحجم.كريس القانون الحالي فقط يعمل بشكل صحيح 1-مساحة تزكي.

على أساس كريس رمز ، جاء مع الحل الذي يعمل في كل الحالات لقد جئت عبر حتى الآن.يجب إنشاء قالب مشروع تحليل المسافة البادئة النص القائم على استخدام فليكس (البيسون) على جيثب: https://github.com/lucasb-eyer/flex-bison-indentation.هو العمل بشكل كامل (CMake-أساس) المشروع أيضا مسارات الخط موقف مجموعة العمود الحالي رمزية.

فقط في حالة الارتباط يجب كسر لأي سبب كان ، هنا هو اللحم من lexer:

#include <stack>

int g_current_line_indent = 0;
std::stack<size_t> g_indent_levels;
int g_is_fake_outdent_symbol = 0;

static const unsigned int TAB_WIDTH = 2;

#define YY_USER_INIT { \
    g_indent_levels.push(0); \
    BEGIN(initial); \
}
#include "parser.hh"

%}

%x initial
%x indent
%s normal

%%
    int indent_caller = normal;

 /* Everything runs in the <normal> mode and enters the <indent> mode
    when a newline symbol is encountered.
    There is no newline symbol before the first line, so we need to go
    into the <indent> mode by hand there.
 */
<initial>.  { set_yycolumn(yycolumn-1); indent_caller = normal; yyless(0); BEGIN(indent); }
<initial>\n { indent_caller = normal; yyless(0); BEGIN(indent); }    

<indent>" "     { g_current_line_indent++; }
<indent>\t      { g_current_line_indent = (g_current_line_indent + TAB_WIDTH) & ~(TAB_WIDTH-1); }
<indent>\n      { g_current_line_indent = 0; /* ignoring blank line */ }
<indent><<EOF>> {
                    // When encountering the end of file, we want to emit an
                    // outdent for all indents currently left.
                    if(g_indent_levels.top() != 0) {
                        g_indent_levels.pop();

                        // See the same code below (<indent>.) for a rationale.
                        if(g_current_line_indent != g_indent_levels.top()) {
                            unput('\n');
                            for(size_t i = 0 ; i < g_indent_levels.top() ; ++i) {
                                unput(' ');
                            }
                        } else {
                            BEGIN(indent_caller);
                        }

                        return TOK_OUTDENT;
                    } else {
                        yyterminate();
                    }
                }

<indent>.       {
                    if(!g_is_fake_outdent_symbol) {
                        unput(*yytext);
                    }
                    g_is_fake_outdent_symbol = 0;
                    // -2: -1 for putting it back and -1 for ending at the last space.
                    set_yycolumn(yycolumn-1);

                    // Indentation level has increased. It can only ever
                    // increase by one level at a time. Remember how many
                    // spaces this level has and emit an indentation token.
                    if(g_current_line_indent > g_indent_levels.top()) {
                        g_indent_levels.push(g_current_line_indent);
                        BEGIN(indent_caller);
                        return TOK_INDENT;
                    } else if(g_current_line_indent < g_indent_levels.top()) {
                        // Outdenting is the most difficult, as we might need to
                        // outdent multiple times at once, but flex doesn't allow
                        // emitting multiple tokens at once! So we fake this by
                        // 'unput'ting fake lines which will give us the next
                        // outdent.
                        g_indent_levels.pop();

                        if(g_current_line_indent != g_indent_levels.top()) {
                            // Unput the rest of the current line, including the newline.
                            // We want to keep it untouched.
                            for(size_t i = 0 ; i < g_current_line_indent ; ++i) {
                                unput(' ');
                            }
                            unput('\n');
                            // Now, insert a fake character indented just so
                            // that we get a correct outdent the next time.
                            unput('.');
                            // Though we need to remember that it's a fake one
                            // so we can ignore the symbol.
                            g_is_fake_outdent_symbol = 1;
                            for(size_t i = 0 ; i < g_indent_levels.top() ; ++i) {
                                unput(' ');
                            }
                            unput('\n');
                        } else {
                            BEGIN(indent_caller);
                        }

                        return TOK_OUTDENT;
                    } else {
                        // No change in indentation, not much to do here...
                        BEGIN(indent_caller);
                    }
                }

<normal>\n    { g_current_line_indent = 0; indent_caller = YY_START; BEGIN(indent); }

الأقواس (مثل) فقط أسهل إذا كنت تستخدم tokenizer أن يجرد من كل بيضاء (باستخدام فقط لفصل الرموز).انظر هذه الصفحة (القسم "كيف مترجم تحليل الفجوة؟") بعض الأفكار على الثعبان tokenizing.

إذا كنت لا تفعل tokenizing قبل تحليل, ثم قد يكون هناك عمل إضافي القيام به ، فإنه يعتمد على كيفية كنت بناء محلل.

كنت في حاجة الى القاعدة التي تبدو مماثلة إلى هذا(لنفترض يمكنك استخدام علامات التبويب الخاصة بك تزكي):

:{عودة TABDENT;}

بصراحة, لقد دائما وجدت الأقواس(أو بدء/نهاية) لتكون أسهل في الكتابة و قراءة كل من الإنسان و lexer/محلل الكاتب.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top