加入收藏 | 设为首页 | 会员中心 | 我要投稿 通化站长网 (https://www.0435zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 传媒 > 正文

你应该知道的编码知识

发布时间:2021-02-25 16:13:12 所属栏目:传媒 来源:互联网
导读:就100个左右,确切的说是128个。这样的话用一个字节进行编码就完全够了,不仅够用了,而且还富裕出一位,即第一位一直没有参与编码,统一定为 0 。这就是所谓的 ASCII 编码。在 ASCII 编码中,空格 SPACE 是 32 (二进制 00100000 ),大写的字母 A 是 65 (

就100个左右,确切的说是128个。这样的话用一个字节进行编码就完全够了,不仅够用了,而且还富裕出一位,即第一位一直没有参与编码,统一定为 0 。这就是所谓的 ASCII 编码。在 ASCII 编码中,空格 SPACE 是 32 (二进制 00100000 ),大写的字母 A 是 65 (二进制 01000001 )。

非ASCII

随着计算机的普及,欧洲也开始普及计算机,欧洲人发现 ASCII 规定的 128 个字符不能满足他们的使用,比如,在法语中,字母上方有注音符号,就无法用 ASCII 码表示。于是,一些欧洲国家就决定,把字节中闲置的第一位编入新的符号。比如,法语中的 é 的编码为 130 (二进制 10000010 )。这样一来,这些欧洲国家使用的编码体系,最多可以表示 256 个符号。这就是大家经常见到的 ISO-8859-1 编码,也叫 Latin1 编码。

中文编码

随着计算机的普及,国人也开始使用计算机,但是发现按照之前的编码方式,根本就没有汉字什么事儿,也就是计算机根本没办法认识汉字。

GB2312

为了能够让计算机认识汉字,我们决定对汉字进行编码,本着敢想敢干的精神,我们规定用两个字节表示一个汉字。

具体规则是这样的:一个小于 127 的字节代表的意义与原来的 ASCII 相同,但两个大于 127的字节连在一起时,就表示这是一个汉字,前面的一个字节称为高字节,后面一个字节称为低字节,这样我们就可以组合出 6763 个简体汉字。这就是大家常说的 GB2312 编码。

GBK

很显然 GB2312 编码的 6763 个汉字,并不能适应所有的使用场景,比如“喆”字就不再其中,于是在 GB2312 的基础上又进行了新的扩展,规定只要第一个字节是大于 127 的就OK,至于第二个字节是大于 127 还是小于 127 都无所谓了。经过这样的改动之后,收录的汉字及符号就可以达到 2W 多个,这就是我们常说的 GBK 编码。

再后来,人们继续对第二个字节进行扩展,发展出了 GB18030 编码,比 GBK 又多出了一些字符编码。

至此,所有的汉字编码都是用两个字节表示的,但是英文是用一个字节表示。上了一些年纪的程序员都体验过,一个汉字算两个英文字符的经历。

BIG-5

上面提到的都是简体中文编码,虽然 GBK 及 GB18030 包含了部


(编辑:通化站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读