使用XLRD读取包含中文和/或印地语字符的Excel XLS文件
题
http://scienceoss.com/read-excel-from-python/comment-page-1/#comment-1051
从上面的链接中,我使用此实用程序读取XLS文件。如果XLS文件包含不同的语言字符,例如中文或印地语,则无法正确输出它们。有解决方法吗?
谷歌搜索后,我发现了这个:
import xlrd
def upload_xls(dir,file,request):
try:
global msg
global row_num
row_num = []
header_arr = []
global file_path
file_path = dir
#reader = csv.reader(open(file), delimiter='#', quotechar='"')
book = xlrd.open_workbook('dodgy.xls',encoding='cp1252') ##To specify UTF8-encoding
wb.sheet_names()
sh = wb.sheet_by_index(0)
valid_xl_format = 0
invalid_xl_format = 0
except:
print "Error
但是行有一个错误 book = open_workbook('dodgy.xls',encoding='cp1252')
:
TypeError: open_workbook() got an unexpected keyword argument 'encoding'
解决方案
根据xlrd 模块文档, ,正确的参数是: encoding_override =“ CP1252” 并不是 编码=“ CP1252”.
从导入XLRD模块的方式中,您应该将函数称为xlrd.open_workbook,但是在示例代码中,您直接使用该函数,就好像您使用了“来自XLRD Import *”。
其他提示
dis]索赔人:我是XLRD的作者。
如果XLS包含不同的语言字符,例如Chine或Hindi。它不会输出确切的措辞。
Encoding_override参数(如文档中所述)仅用于旧文件(由Excels生产的比Excel 97(那是1997年)),直到丢失或不正确的内部录制的“ codepage”时。
注意:带有汉字的旧文件:保证带有“ CP1252”的覆盖效果会引起例外。
注意:带有“印地语”(Devanagari?)字符的旧文件:据我所知,从来没有任何ISCII脚本的正式支持的代码,我也没有听说过任何非正式的代码。有关此主题和/或示例文件的任何信息将非常欢迎。
Excel 97及以后的版本将所有文本数据记录在(有效)UTF-16LE中。如果文件是有效的excel-97或later文件,则忽略了encoding_override。
无论产生该文件的Excel版本如何,XLRD都会返回Unicode字符串。您的问题更有可能与您显示或转换这些Unicode字符串有关。
如需进一步的帮助,请编辑您的问题,以显示实际输出的示例以及“精确措辞”。
标准库中有一个CSV模块,该模块在Python 3.1中处理Unicode。
警告: 在Python 2.x中,CSV库确实 不是 处理Unicode。
也有类似的问题。答案是输出引起问题,而不是XLRD。
回答如何将脚本设置为UTF -8->https://stackoverflow.com/a/17628350/713