加入收藏 | 设为首页 | 会员中心 | 我要投稿 通化站长网 (https://www.0435zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 建站资源 > 优化 > 正文

处理统一码文件是场噩梦?这些诀窍助你大梦初醒

发布时间:2019-08-27 08:11:17 所属栏目:优化 来源:读芯术
导读:对于那些经常在日常工作中处理统一码文件(也适用于其他编码)的人来说,这篇文章是必读的。对于自然语言处理的从业者,处理统一码文件是一场噩梦,尤其是使用Windows操作系统。想象一下,当在编码或解码过程中遇到错误时的沮丧,例如: UnicodeEncodeError:

如果在Windows操作系统中运行命令提示符,那么在大多数情况下显示统一码字符都会有问题,出现如下图所示的乱码字符:

处理统一码文件是场噩梦?这些诀窍助你大梦初醒

显示乱码字符的命令提示符

为了解决这个问题,需要将设置更改为正确的字体。

  • 右键单击顶部菜单并单击属性。
  • 单击字体菜单。
  • 将字体修改为可显示字符的所需字体。例如,可以使用楷体来呈现中文字符。

处理统一码文件是场噩梦?这些诀窍助你大梦初醒

命令提示符的字体属性

打开一个有统一码字符的文件路径——通过pandas模块适用于read_csv

这部分有点棘手,尤其是在使用某些特定Python模块(如pandas)时。假设有以下非英语的文件路径:

  1. file_path = 'C:pathto数据分析data.csv' 

试图通过read_csv读取文件将会抛出错误,因为文件路径包含统一码字符。在Python中使用内置的open()函数不是问题所在。为了解决这个问题,需要先打开文件,然后传递给read_csv函数:

  1. with open(file_path, 'r', encoding='utf-8') as f: 
  2.     df = pd.read_csv(f, encoding='utf-8') 

(编辑:通化站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!