Frage

Ich entwerfen Architektur eines Textparsers. Beispielsatz: Content here, content here.

Ganzer Satz ist ein ... Satz, das ist offensichtlich. The, quick etc sind Wörter; , und . sind Interpunktionsmarken. Aber was sind Wörter und Zeichenzeichen allgemein zusammen? Sind sie nur Symbole? Ich weiß einfach nicht, wie man nennt, woraus ein einzelner Satz auf vernünftigste abstrakte Weise besteht (weil man es schreiben kann, besteht er aus Buchstaben/Vokalen usw.).

Danke für jede Hilfe :)

War es hilfreich?

Lösung

Was Sie tun, ist die technische Lexikalanalyse ("Lexing"), die eine Folge von Eingabemymbolen erfordert und eine Reihe von Token oder Lexemen erzeugt. Wort, Interpunktion und weißer Raum sind alle Token.

In (e) BNF -Begriffen sind Lexeme oder Token Synonym für "Terminalsymbole". Wenn Sie sich die Analyseregeln als Baum vorstellen, sind die Terminalsymbole die Blätter des Baumes.

Was ist das Atom Ihrer Eingabe? Ist es ein Wort oder ein Satz? Wenn es sich um Worte (und weißer Raum) handelt, ist ein Satz eher einer Parsingregel ähnlich. Tatsächlich kann der Begriff "Satz" selbst irreführend sein. Es ist nicht ungewöhnlich, die gesamte Eingabesequenz als Satz zu bezeichnen.

Ein halbkommoner Begriff für eine Sequenz von nicht-weiß-Raum-Zeichen ist ein "Textrun".

Andere Tipps

scheint, dass Sie denselben Variablennamen und 2 oder mehr Aktionen verwenden.Versuchen Sie, einen anderen Variablennamen zu verwenden. generasacodicetagpre.

Versuchen Sie einfach, Ihre Variablen zu ändern.Es sollte funktionieren!

Je nachdem, in welcher Phase von Ihnen lexikalische Analyse Von Eingabetext, den Sie sich ansehen, wären diese entweder "Lexemes" oder "Token".

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top