为什么正则表达式不能使用关键字而不是字符？

https://stackoverflow.com/questions/629573

08-07-2019
|

题

好吧，我几乎不了解 RegEx 基础知识，但为什么他们不能将其设计为使用关键字（如 SQL）而不是一些神秘的通配符和符号呢？

由于正则表达式是在运行时解释/解析的，所以是为了性能吗？（未编译）

或者也许是为了写作速度？考虑到当您学习一些“简单”字符组合时，输入 1 个字符而不是关键字会变得更容易吗？

解决方案

你真的想这个吗？

Pattern findGamesPattern = Pattern.With.Literal(@"<div")
    .WhiteSpace.Repeat.ZeroOrMore
    .Literal(@"class=""game""").WhiteSpace.Repeat.ZeroOrMore.Literal(@"id=""")
    .NamedGroup("gameId", Pattern.With.Digit.Repeat.OneOrMore)
    .Literal(@"-game""")
    .NamedGroup("content", Pattern.With.Anything.Repeat.Lazy.ZeroOrMore)
    .Literal(@"<!--gameStatus")
    .WhiteSpace.Repeat.ZeroOrMore.Literal("=").WhiteSpace.Repeat.ZeroOrMore
    .NamedGroup("gameState", Pattern.With.Digit.Repeat.OneOrMore)
    .Literal("-->");

好的，但这是你的葬礼，伙计。

下载执行此操作的库：
http://flimflan.com/blog/ReadableRegularExpressions.aspx

其他提示

正则表达式具有数学（实际上是语言理论）背景，并且编码有点像 数学公式. 。您可以通过一组规则来定义它们，例如

每个字符都是一个正则表达式，代表它自己
如果 a 和 b 是正则表达式，那么 a?, a|b 和 ab 也是正则表达式
...

使用基于关键字的语言对于简单的正则表达式来说将是一个很大的负担。大多数时候，您只需使用简单的文本字符串作为搜索模式：

grep -R 'main' *.c

或者也许是非常简单的模式：

grep -c ':-[)(]' seidl.txt

一旦习惯了正则表达式，这种语法就非常清晰和精确。在更复杂的情况下，您可能会使用其他东西，因为大的正则表达式显然难以阅读。

Perl 6在正则表达式可读性方面迈出了相当革命性的一步。考虑一下表格的地址： 100 E Main St Springfield MA 01234

这是一个适度可读的Perl 5兼容正则表达式来解析（许多极端情况未处理）：

 m/
     ([1-9]\d*)\s+
     ((?:N|S|E|W)\s+)?
     (\w+(?:\s+\w+)*)\s+
     (ave|ln|st|rd)\s+
     ([:alpha:]+(?:\s+[:alpha:]+)*)\s+
     ([A-Z]{2})\s+
     (\d{5}(?:-\d{4})?)
  /ix;

这个Perl 6正则表达式具有相同的行为：

grammar USMailAddress {
     rule  TOP { <addr> <city> <state> <zip> }

     rule  addr { <[1..9]>\d* <direction>?
                  <streetname> <streettype> }
     token direction { N | S | E | W }
     token streetname { \w+ [ \s+ \w+ ]* }
     token streettype {:i ave | ln | rd | st }
     token city { <alpha> [ \s+ <alpha> ]* }
     token state { <[A..Z]>**{2} }
     token zip { \d**{5} [ - \d**{4} ]? }
  }

Perl 6语法是一个类，并且标记都是可调用的方法。像这样使用它：

if $addr ~~ m/^<USMailAddress::TOP>$/ {
     say "$<city>, $<state>";
}

此示例来自我提出的演讲 Frozen Perl 2009 研讨会。 Perl 6的Rakudo实现足够完整，今天这个例子可以正常工作。

好吧，如果您有关键字，您如何轻松地将它们与实际匹配的文本区分开来？你会如何处理空白？

来源文字公司：A部门：B

标准正则表达式：

Company:\s+(.+)\s+Dept.:\s+(.+)

甚至：

Company: (.+) Dept. (.+)

关键字正则表达式（真的很难找到一个稻草人......）

"Company:" whitespace.oneplus group(any.oneplus) whitespace.oneplus "Dept.:" whitespace.oneplus group(any.oneplus)

或简化：

"Company:" space group(any.oneplus) space "Dept.:" space group(any.oneplus)

不，这可能不会更好。

因为它对应于形式语言理论及其数学符号。

这是Perl的错！......

实际上，更具体地说，正则表达式来自早期的Unix开发，而简洁的语法则更受重视。存储，处理时间，物理终端等都非常有限，与今天不同。

维基百科正则表达的历史解释了更多。

有正则表达式的替代方案，但我不确定是否真的有任何问题。

编辑：由John Saunders修正：Unix正式表达式普及，但首先由 QED 编辑。对早期系统应用相同的设计约束，甚至更多。

实际上，不，世界并没有从Unix开始。如果您阅读维基百科文章，您会看到

在20世纪50年代，数学家Stephen Cole Kleene使用他的数学符号“常规集”来描述这些模型。 SNOBOL语言是模式匹配的早期实现，但与正则表达式不同。 Ken Thompson将Kleene的符号构建到编辑器QED中，作为匹配文本文件中模式的手段。他后来将这个功能添加到了Unix编辑器ed中，最终导致了流行的搜索工具grep使用正则表达式

这比PERL早得多。正则表达式的维基百科条目将正则表达式的第一个实现归于UNIX的Ken Thompson成名，谁在QED中实施了它们，然后是 ed 编辑。我猜这些命令因性能原因而有短名称，但在客户端之前很多。掌握正则表达式是一本关于正则表达式的好书，它提供了注释正则表达式的选项（使用/ x flag）使其更易于阅读和理解。

因为正则表达式的想法 - 就像许多来自UNIX的东西 - 是因为它们简洁，有利于简洁性而不是可读性。这实际上是件好事。我最终编写了15行的正则表达式（反对我更好的判断）。如果它有一个冗长的语法，它就不是一个正则表达式，它就是一个程序。

实现<！>“; wordier <！>”实际上非常容易。正则表达式 - 请参阅我的答案此处。简而言之：编写一些返回正则表达式字符串的函数（并在必要时获取参数）。

我不认为关键字会带来任何好处。这样的正则表达式很复杂但也非常强大。

我认为更令人困惑的是，每个支持库都发明了自己的语法，而不是使用（或扩展）经典的Perl正则表达式（例如\ 1，$ 1，{1}，...用于替换和更多示例）

我知道它以错误的方式回答你的问题，但 RegExBuddy 有一个功能可以解释你的表达式用简单的英语。这可能会让学习起来更容易一些。

如果您使用的语言支持 Posix regexes ，则可以使用它们。

一个例子：

\d

与

相同

[:digit:]

括号表示法在匹配时更加清晰。我仍然会学习<！>“隐藏的通配符和符号，因为你仍然可以在其他人的代码中看到它们，并且需要理解它们。

在regular-expressions.info网页上的表格中有更多示例。

出于某种原因，我之前的回答被删除了。无论如何，我的东西ruby regexp机器适合该法案，在 http://www.rubyregexp.sf.net 。这是我自己的项目，但我认为它应该有用。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow