如何在Perl中的Unicode字符串中仅匹配完全组合的字符？

https://stackoverflow.com/questions/203605

03-07-2019
|

题

我正在寻找一种方法来匹配Unicode字符串中的完全组合字符。

[：print：] 是否依赖于包含此字符类的任何正则表达式实现中的语言环境？例如，它是否匹配日语字符'＆＃12354;'，因为它不是控制字符，或者 [：print：] 总是将是ASCII码0x20到0x7E？

是否有任何字符类，包括Perl RE，可用于匹配控制字符以外的任何内容？如果 [：print：] 仅包含ASCII范围内的字符，我会假设 [：cntrl：] 也是如此。

解决方案

echo あ| perl -nle 'BEGIN{binmode STDIN,":utf8"} print"[<*>

这主要起作用，虽然它会产生关于广泛角色的警告。但它给你的想法是：你必须确定你正在处理一个真正的unicode字符串（检查utf8 :: is_utf8）。或者只是查看 perlunicode  - 整个主题仍然让我头晕目眩。]"; print /[[:print:]]/ ? "YES" : "NO"'

这主要起作用，虽然它会产生关于广泛角色的警告。但它给你的想法是：你必须确定你正在处理一个真正的unicode字符串（检查utf8 :: is_utf8）。或者只是查看 perlunicode - 整个主题仍然让我头晕目眩。

其他提示

我认为您不需要或不需要语言环境，而是Unicode。如果你已经解码了一个文本字符串， \ w 将匹配任何语言的单词字符， \ d 不仅匹配 0..9 ，而且每个Unicode数字等。在正则表达式中，您可以使用 \ p {PropertyName} 查询Unicode属性。特别有趣的可能是 \ p {Print} 。以下是所有可用Unicode字符属性的列表。

我写了一篇关于Unicode和Perl的基础知识和细微之处的文章，它应该让你知道怎样做perl会将你的字符串识别为字符序列，而不仅仅是一个字节序列。

更新：使用Unicode，您不会获得与语言相关的行为，而是无论语言如何都是默认的。这可能是你想要的，也可能不是，但是为了区分priintable / control字符，我不明白为什么你需要语言依赖的行为。

\ X 匹配完全组合的字符（序列）。证明：

#!/usr/bin/env perl
use 5.010;
use utf8;
use Encode qw(encode_utf8);

for my $string (qw(あ ご ご), "\x{3099}") {
    say encode_utf8 sprintf "%s $string", $string =~ /\A \X \z/msx ? 'ok' : 'nok';
}

测试数据是：普通字符，预组合字符，组合字符序列和组合字符（单独“不计数”，简化了Unicode的第3章）。

用 [[：print：]] 替换 \ X ，看看Tanktalus的回答是否会产生前两种情况的错误匹配。

是的，这些表达式依赖于语言环境。

您始终可以使用字符类 [^ [：cntrl：]] 来匹配非控制字符。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow