我们有一个日本客户在大型机上具有COBOL中的源代码。他声称大型机上的代码在Shift-JIS2中表示(我们认为我们很好地理解了这一点)。当该代码转移到PC时,最常见的编码是什么?我们已经向他发送了一个程序来处理该COBOL代码,并且似乎很窒息。客户不会直接给我们代码,因此实验很难。他的实验似乎表明UTF-8。我假设在Shift-JIS2中编码的日语字符相应地转换为Unicode等效物。有人在这里有任何经验吗?

编辑:我认为我们解决了我们的奥秘。客户端使用PC上的CP-932(“ shiftJis”)是(duh!),但是他的COBOL程序中有日语字符,这就是为什么我们的工具正在窒息的原因。

编辑:随访:更多的是惊喜。 Shift-jis经常将我们认为的ASCII文本编码为所谓的“全width”字符,这些字符具有与东亚意识形态相同的屏幕空间。常规ASCII字符充当半宽。因此,有一个完整的“ a”,“ b”,...“ z”以及全宽的“ - ” - 。显然,要处理日本COBOL,我们的COBOL解析器不仅必须接受西方ASCII,而且还必须接受全宽等效物,尤其是。全宽字母和令人惊讶的全宽连字符,用于在Cobol标识符中分离“字母”。

编辑:IBM Enterprise COBOL允许标识符中的DBCS字符。是的!

有帮助吗?

解决方案

日本仍有三个编码:EUC-JP,ISO-2022-JP和Shift-JIS。

ISO-2022-JP通常用于电子邮件。虽然您将在Unix机器中看到EUC-JP。我个人除了Shift-jis以外没有其他任何处理。 (或大型机。)

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top