处理统一码文件是场噩梦？这些诀窍助你大梦初醒

发布时间：2019-08-27 08:11:17 所属栏目：优化来源：读芯术

导读：对于那些经常在日常工作中处理统一码文件(也适用于其他编码)的人来说，这篇文章是必读的。对于自然语言处理的从业者，处理统一码文件是一场噩梦，尤其是使用Windows操作系统。想象一下，当在编码或解码过程中遇到错误时的沮丧，例如： UnicodeEncodeError:

如果在Windows操作系统中运行命令提示符，那么在大多数情况下显示统一码字符都会有问题，出现如下图所示的乱码字符：

显示乱码字符的命令提示符

为了解决这个问题，需要将设置更改为正确的字体。

处理统一码文件是场噩梦？这些诀窍助你大梦初醒

命令提示符的字体属性

打开一个有统一码字符的文件路径——通过pandas模块适用于read_csv

这部分有点棘手，尤其是在使用某些特定Python模块(如pandas)时。假设有以下非英语的文件路径：

file_path = 'C:pathto数据分析data.csv'

试图通过read_csv读取文件将会抛出错误，因为文件路径包含统一码字符。在Python中使用内置的open()函数不是问题所在。为了解决这个问题，需要先打开文件，然后传递给read_csv函数:

with open(file_path, 'r', encoding='utf-8') as f: 
    df = pd.read_csv(f, encoding='utf-8')

（编辑：通化站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

SEO小妙招处理网站多	网站被动免费快排的
企业把网站交给seo优化	SEO和PPC哪种推广更有