PyParsing: Non tutti i gettoni passati a setParseAction ()

https://stackoverflow.com/questions/2940516

05-10-2019
|

Domanda

Sono parsing frasi come "CS 2110 o INFO 3300". Vorrei uscita un formato simile:

[[("CS" 2110)], [("INFO", 3300)]]

Per fare questo, ho pensato che avrei potuto usare setParseAction(). Tuttavia, le dichiarazioni print in statementParse() suggeriscono che solo gli ultimi gettoni sono in realtà passati:

>>> statement.parseString("CS 2110 or INFO 3300")
Match [{Suppress:("or") Re:('[A-Z]{2,}') Re:('[0-9]{4}')}] at loc 7(1,8)
string CS 2110 or INFO 3300
loc: 7 
tokens: ['INFO', 3300]
Matched [{Suppress:("or") Re:('[A-Z]{2,}') Re:('[0-9]{4}')}] -> ['INFO', 3300]
(['CS', 2110, 'INFO', 3300], {'Course': [(2110, 1), (3300, 3)], 'DeptCode': [('CS', 0), ('INFO', 2)]})

mi aspettavo tutti i gettoni da passare, ma è solo ['INFO', 3300]. Sto facendo qualcosa di sbagliato? O c'è un altro modo che posso produrre l'output desiderato?

Ecco il codice pyparsing:

from pyparsing import *

def statementParse(str, location, tokens):
    print "string %s" % str
    print "loc: %s " % location
    print "tokens: %s" % tokens

DEPT_CODE = Regex(r'[A-Z]{2,}').setResultsName("DeptCode")
COURSE_NUMBER = Regex(r'[0-9]{4}').setResultsName("CourseNumber")

OR_CONJ = Suppress("or")

COURSE_NUMBER.setParseAction(lambda s, l, toks : int(toks[0]))

course = DEPT_CODE + COURSE_NUMBER.setResultsName("Course")

statement = course + Optional(OR_CONJ + course).setParseAction(statementParse).setDebug()

Soluzione

Al fine di mantenere i bit di token da "CS 2110" e "INFO 3300", vi suggerisco di avvolgere la definizione di corso in un gruppo:

course = Group(DEPT_CODE + COURSE_NUMBER).setResultsName("Course")

Sembra inoltre che si carica a testa alta al parsing fuori una sorta di espressione di ricerca, come "x e y o z". V'è una certa finezza a questo problema, e vi suggerisco di controllare alcuni degli esempi al wiki pyparsing su come costruire questi tipi di espressioni. In caso contrario, si finirà con un nido di uccello di Optional("or" + this) e ZeroOrMore( "and" + that) pezzi. Come un ultimo disperato, si può anche semplicemente usare qualcosa con operatorPrecedence, come:

DEPT_CODE = Regex(r'[A-Z]{2,}').setResultsName("DeptCode")        
COURSE_NUMBER = Regex(r'[0-9]{4}').setResultsName("CourseNumber")
course = Group(DEPT_CODE + COURSE_NUMBER)

courseSearch = operatorPrecedence(course, 
    [
    ("not", 1, opAssoc.RIGHT),
    ("and", 2, opAssoc.LEFT),
    ("or", 2, opAssoc.LEFT),
    ])

(Potrebbe essere necessario scaricare l'ultima versione 1.5.3 dal SourceForge SVN per questo al lavoro.)

Altri suggerimenti

funziona meglio se si imposta l'azione di analisi su sia course e il Optional (si stavano mettendo solo sul Optional!):

>>> statement = (course + Optional(OR_CONJ + course)).setParseAction(statementParse).setDebug()
>>> statement.parseString("CS 2110 or INFO 3300")

dà

Match {Re:('[A-Z]{2,}') Re:('[0-9]{4}') [{Suppress:("or") Re:('[A-Z]{2,}') Re:('[0-9]{4}')}]} at loc 0(1,1)
string CS 2110 or INFO 3300
loc: 0 
tokens: ['CS', 2110, 'INFO', 3300]
Matched {Re:('[A-Z]{2,}') Re:('[0-9]{4}') [{Suppress:("or") Re:('[A-Z]{2,}') Re:('[0-9]{4}')}]} -> ['CS', 2110, 'INFO', 3300]
(['CS', 2110, 'INFO', 3300], {'Course': [(2110, 1), (3300, 3)], 'DeptCode': [('CS', 0), ('INFO', 2)]})

se ho il sospetto che cosa si vuole realmente è quello di impostare l'azione di analisi su ogni corso , non sul istruzione :

>>> statement = course + Optional(OR_CONJ + course)
>>> statement.parseString("CS 2110 or INFO 3300")                               Match {Re:('[A-Z]{2,}') Re:('[0-9]{4}')} at loc 0(1,1)
string CS 2110 or INFO 3300
loc: 0 
tokens: ['CS', 2110]
Matched {Re:('[A-Z]{2,}') Re:('[0-9]{4}')} -> ['CS', 2110]
Match {Re:('[A-Z]{2,}') Re:('[0-9]{4}')} at loc 10(1,11)
string CS 2110 or INFO 3300
loc: 10 
tokens: ['INFO', 3300]
Matched {Re:('[A-Z]{2,}') Re:('[0-9]{4}')} -> ['INFO', 3300]
(['CS', 2110, 'INFO', 3300], {'Course': [(2110, 1), (3300, 3)], 'DeptCode': [('CS', 0), ('INFO', 2)]})

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow