Python: utilizzare il modulo codecs o utilizzare la decodifica della funzione stringa?
Domanda
Ho un file di testo che è codificato in UTF-8. Lo sto leggendo per analizzare e tracciare alcuni dati. Vorrei che il file fosse letto come ascii. Sarebbe meglio usare il modulo codecs o usare il metodo di decodifica stringa incorporato? Inoltre, il file è suddiviso in csv, quindi il modulo csv potrebbe anche essere una soluzione valida?
Grazie per l'aiuto.
Soluzione
Vuoi dire che il tuo file è codificato in UTF-8? (" Unicode " non è una codifica ... Lettura richiesta: http: //www.joelonsoftware .com / articoli / Unicode.html ) Non sono sicuro al 100% ma penso che dovresti essere in grado di leggere un file codificato UTF-8 con il modulo CSV, e puoi convertire le stringhe che contengono caratteri speciali alle stringhe unicode di Python ( modifica: se necessario) dopo la lettura.
Ci sono alcuni esempi di utilizzo di csv con dati codificati UTF-8 in http://docs.python.org./library/csv.html#csv-examples ; potrebbe aiutarti a guardarli.