使用XLRD读取包含中文和/或印地语字符的Excel XLS文件

https://stackoverflow.com/questions/3511743

29-09-2019
|

题

http://scienceoss.com/read-excel-from-python/comment-page-1/#comment-1051

从上面的链接中，我使用此实用程序读取XLS文件。如果XLS文件包含不同的语言字符，例如中文或印地语，则无法正确输出它们。有解决方法吗？

谷歌搜索后，我发现了这个：

import xlrd

def upload_xls(dir,file,request):
    try:
        global msg
        global row_num
        row_num = []
        header_arr = []
        global file_path
        file_path = dir
        #reader = csv.reader(open(file), delimiter='#', quotechar='"')
        book = xlrd.open_workbook('dodgy.xls',encoding='cp1252')   ##To specify UTF8-encoding
        wb.sheet_names()
        sh =  wb.sheet_by_index(0)
        valid_xl_format = 0
        invalid_xl_format = 0
     except:
        print "Error

但是行有一个错误 book = open_workbook('dodgy.xls',encoding='cp1252'):

TypeError: open_workbook() got an unexpected keyword argument 'encoding'

解决方案

根据xlrd 模块文档, ，正确的参数是： encoding_override =“ CP1252” 并不是 编码=“ CP1252”.

从导入XLRD模块的方式中，您应该将函数称为xlrd.open_workbook，但是在示例代码中，您直接使用该函数，就好像您使用了“来自XLRD Import *”。

其他提示

dis]索赔人：我是XLRD的作者。

如果XLS包含不同的语言字符，例如Chine或Hindi。它不会输出确切的措辞。

Encoding_override参数（如文档中所述）仅用于旧文件（由Excels生产的比Excel 97（那是1997年）），直到丢失或不正确的内部录制的“ codepage”时。

注意：带有汉字的旧文件：保证带有“ CP1252”的覆盖效果会引起例外。

注意：带有“印地语”（Devanagari？）字符的旧文件：据我所知，从来没有任何ISCII脚本的正式支持的代码，我也没有听说过任何非正式的代码。有关此主题和/或示例文件的任何信息将非常欢迎。

Excel 97及以后的版本将所有文本数据记录在（有效）UTF-16LE中。如果文件是有效的excel-97或later文件，则忽略了encoding_override。

无论产生该文件的Excel版本如何，XLRD都会返回Unicode字符串。您的问题更有可能与您显示或转换这些Unicode字符串有关。

如需进一步的帮助，请编辑您的问题，以显示实际输出的示例以及“精确措辞”。

标准库中有一个CSV模块，该模块在Python 3.1中处理Unicode。

警告： 在Python 2.x中，CSV库确实不是处理Unicode。

也有类似的问题。答案是输出引起问题，而不是XLRD。

回答如何将脚本设置为UTF -8->https://stackoverflow.com/a/17628350/713

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow