Python: utilizzare il modulo codecs o utilizzare la decodifica della funzione stringa?

https://stackoverflow.com/questions/474373

19-08-2019
|

Domanda

Ho un file di testo che è codificato in UTF-8. Lo sto leggendo per analizzare e tracciare alcuni dati. Vorrei che il file fosse letto come ascii. Sarebbe meglio usare il modulo codecs o usare il metodo di decodifica stringa incorporato? Inoltre, il file è suddiviso in csv, quindi il modulo csv potrebbe anche essere una soluzione valida?

Grazie per l'aiuto.

Soluzione

Vuoi dire che il tuo file è codificato in UTF-8? (" Unicode " non è una codifica ... Lettura richiesta: http: //www.joelonsoftware .com / articoli / Unicode.html ) Non sono sicuro al 100% ma penso che dovresti essere in grado di leggere un file codificato UTF-8 con il modulo CSV, e puoi convertire le stringhe che contengono caratteri speciali alle stringhe unicode di Python ( modifica: se necessario) dopo la lettura.

Ci sono alcuni esempi di utilizzo di csv con dati codificati UTF-8 in http://docs.python.org./library/csv.html#csv-examples ; potrebbe aiutarti a guardarli.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow