如何检查文件是否有效UTF-8？

https://stackoverflow.com/questions/115210

02-07-2019
|

题

我正在处理一些本应是有效的UTF-8的数据文件，但不会导致解析器（不受我控制）失败。我想添加一个预先验证UTF-8格式良好数据的阶段，但我还没有找到一个实用程序来帮助实现这一目标。

在W3C上有网络服务，似乎是死了，我发现了一个仅限Windows的验证工具报告无效的UTF-8文件，但不报告要修复的行/字符。

我很满意我可以插入和使用的工具（理想的跨平台），或者我可以参与我的数据加载过程的ruby / perl脚本。

解决方案

您可以使用GNU iconv：

$ iconv -f UTF-8 your_file -o /dev/null; echo $?

或者使用旧版本的iconv，例如在macOS上：

$ iconv -f UTF-8 your_file > /dev/null; echo $?

如果文件可以成功转换，该命令将返回0，否则返回1。此外，它将打印出无效字节序列发生的字节偏移量。

编辑：不必指定输出编码，它将被假定为UTF-8。

其他提示

使用python和str.encode |解码函数。

>>> a="γεια"
>>> a
'\xce\xb3\xce\xb5\xce\xb9\xce\xb1'
>>> b='\xce\xb3\xce\xb5\xce\xb9\xff\xb1' # note second-to-last char changed
>>> print b.decode("utf_8")
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/usr/local/lib/python2.5/encodings/utf_8.py", line 16, in decode
    return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode byte 0xff in position 6: unexpected code byte

抛出的异常在其.args属性中请求信息。

>>> try: print b.decode("utf_8")
... except UnicodeDecodeError, exc: pass
...
>>> exc
UnicodeDecodeError('utf8', '\xce\xb3\xce\xb5\xce\xb9\xff\xb1', 6, 7, 'unexpected code byte')
>>> exc.args
('utf8', '\xce\xb3\xce\xb5\xce\xb9\xff\xb1', 6, 7, 'unexpected code byte')

您可以使用 isutf8 .name / code / moreutils /“rel =”noreferrer“> moreutils collection。

$ apt-get install moreutils
$ isutf8 your_file

在shell脚本中，使用 - quiet 开关并检查退出状态，对于有效的utf-8文件，该状态为零。

gnu iconv 图书馆怎么样？使用iconv（）函数：“输入中遇到无效的多字节序列。在这种情况下，它将errno设置为EILSEQ并返回（size_t）（ - 1）。 * inbuf指向无效多字节序列的开头。“

编辑：哦 - 我错过了你想要一种脚本语言的部分。但是对于命令行工作， iconv 实用程序应该也验证你。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow