Shift-Jis中的IBM大型机上的日语COBOL代码；转移到PC后如何？

https://stackoverflow.com/questions/1309909

19-09-2019
|

题

我们有一个日本客户在大型机上具有COBOL中的源代码。他声称大型机上的代码在Shift-JIS2中表示（我们认为我们很好地理解了这一点）。当该代码转移到PC时，最常见的编码是什么？我们已经向他发送了一个程序来处理该COBOL代码，并且似乎很窒息。客户不会直接给我们代码，因此实验很难。他的实验似乎表明UTF-8。我假设在Shift-JIS2中编码的日语字符相应地转换为Unicode等效物。有人在这里有任何经验吗？

编辑：我认为我们解决了我们的奥秘。客户端使用PC上的CP-932（“ shiftJis”）是（duh！），但是他的COBOL程序中有日语字符，这就是为什么我们的工具正在窒息的原因。

编辑：随访：更多的是惊喜。 Shift-jis经常将我们认为的ASCII文本编码为所谓的“全width”字符，这些字符具有与东亚意识形态相同的屏幕空间。常规ASCII字符充当半宽。因此，有一个完整的“ a”，“ b”，...“ z”以及全宽的“ - ” - 。显然，要处理日本COBOL，我们的COBOL解析器不仅必须接受西方ASCII，而且还必须接受全宽等效物，尤其是。全宽字母和令人惊讶的全宽连字符，用于在Cobol标识符中分离“字母”。

编辑：IBM Enterprise COBOL允许标识符中的DBCS字符。是的！

解决方案

日本仍有三个编码：EUC-JP，ISO-2022-JP和Shift-JIS。

ISO-2022-JP通常用于电子邮件。虽然您将在Unix机器中看到EUC-JP。我个人除了Shift-jis以外没有其他任何处理。（或大型机。）

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow