Python: использовать модуль кодеков или использовать функцию декодирования строк?

https://stackoverflow.com/questions/474373

19-08-2019
|

Вопрос

У меня есть текстовый файл в кодировке UTF-8. Я читаю это, чтобы проанализировать и построить некоторые данные. Я хотел бы, чтобы файл был прочитан как ascii. Будет ли лучше использовать модуль кодеков или встроенный метод декодирования строк? Кроме того, файл разделен как csv, поэтому может ли модуль csv быть правильным решением?

Спасибо за вашу помощь.

Решение

Вы имеете в виду, что ваш файл закодирован в UTF-8? (" Unicode " не является кодировкой ... Обязательно к прочтению: http://www.joelonsoftware.com/articles/Unicode.html ) Я не уверен на 100%, но думаю, что вы сможете прочитать файл в кодировке UTF-8 с помощью модуля csv, и вы сможете преобразуйте строки, содержащие специальные символы, в строки Unicode Python ( edit: , если вам нужно) после прочтения.

Есть несколько примеров использования csv с данными в кодировке UTF-8 по адресу http://docs.python.org./library/csv.html#csv-examples ; это может помочь вам взглянуть на них.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow