「参考文章」
理清ASCII、Unicode、GBK、UTF-8编码之间的关系 - 织梦笔记 (dedenotes.com)
二进制位和字节
我们都知道,在计算机的世界里,所有信息最终都是一个二进制值,信息的表示方式只有 0 和 1,而我们人类信息表示的方式却与之不同,很多时候是用语言文字、图像、声音等传递信息的。
那么我们怎样将其转化为二进制存储到计算机中,这个过程我们称之为编码。更广义地讲,就是把信息从一种形式转化为另一种形式的过程。
我们知道一个二进制位(bit)有 0 和 1 两种状态,因此八个二进制位就可以组合出 256 种状态,这被称为一个字节(byte)。
也就是说,一个字节一共可以用来表示 256 种不同的状态,每一个状态对应一个符号,就是 256 个符号,从 00000000 到 11111111。
基础ASCII码
上个世纪60年代,美国制定了一套字符编码,对英语字符与二进制位之间的关系,做了统一规定。这被称为ASCII码,一直沿用至今。
ASCII 码一共规定了 128 个字符的编码,比如空格 SPACE 是 32(二进制00100000),大写的字母 A 是 65(二进制01000001)。这 128 个符号(包括 32 个不能打印出来的控制符号),只占用了一个字节的后面 7 位,最前面的一位统一规定为 0。
其中:
0~31 及 127(共33个)是控制字符或通信专用字符,如
- 控制符:LF(换行)、CR(回车)、FF(换页)、DEL(删除)、BS(退格)、BEL(响铃)等;
- 通信专用字符:SOH(文头)、EOT(文尾)、ACK(确认)等;
它们并没有特定的图形显示,但会依不同的应用程序,而对文本显示有不同的影响。
32~126(共95个)是可显示字符,其中
- 32是空格。
- 48~57 为 0 到 9 十个阿拉伯数字。
- 65~90 为 26 个大写英文字母。
- 97~122 为 26 个小写英文字母。
- 其余为一些标点符号、运算符号等。
扩展ASCII码
在美国,这 128 是够了,但是其他国家不答应啊,他们的字符和英文是有出入的,比如在法语中在字母上有注音符号,如 é,这个怎么表示成二进制?
所以各个国家就决定把字节中最前面未使用的那一个位拿来使用,原来的 128 种状态就变成了 256 种状态,比如 é 就被编码成 130(二进制的 10000010)。
为了保持与 ASCII 码的兼容性,一般最高为为 0 时和原来的 ASCII 码相同,最高位为 1 的时候,各个国家自己给后面的位(1xxx xxxx)赋予他们国家的字符意义。
但是,这里又出现了新的问题。不同的国家有不同的字母,因此,哪怕它们都使用 256 个符号的编码方式,代表的字母却不一样。
比如,130 在法语编码中代表了 é,在希伯来语编码中却代表了字母 Gimel (ג),在俄语编码中又会代表另一个符号。
但是不管怎样,所有这些编码方式中,0--127 表示的符号是一样的,不一样的只是 128--255 的这一段。不同的国家有不同的字符集,所以它并不是国际标准。
至于亚洲国家的文字,使用的符号就更多了,汉字就多达10万左右。一个字节只能表示 256 种符号,肯定是不够的,就必须使用多个字节表达一个符号。
GBK
由于 ASCII 编码不支持中文,因此,当中国人用到计算机时,就需要寻求一种编码方式来支持中文。
于是,国人就定义了一套编码规则:当字符小于 127 位时,与 ASCII 的字符相同,但当两个大于 127 的字符连接在一起时,就代表一个汉字,第一个字节称为高字节(从0xA1-0xF7),第二个字节为低字节(从0xA1-0xFE),这样大约可以组合 7000 多个简体汉字。这个规则叫做GB2312。
但是由于中国汉字很多,有些字仍无法表示,于是重新定义了规则:不在要求低字节一定是 127 之后的编码,只要第一个字节是大于 127,就固定表示这是一个汉字的开始,不管后面跟的是不是扩展字符集里的内容。
这种扩展之后的编码方案称之为GBK标,包括了 GB2312 的所有内容,同时新增了近 20000 个新的汉字(包括繁体字)和符号。
此外,还有Big5,称为大五码,此码代表中文繁体字,为港、台地区广泛使用,共收录13,060个汉字。
“大五码(Big5)”是在1984年由台湾财团法人资讯工业策进会和五家有意愿共同推动电脑中文化的资讯公司所共同创立,故称大五码。五家公司为:宏碁、神通、佳佳、零壹及大众。
Unicode
正如上一节所说,世界上存在着多种编码方式,同一个二进制数字可以被解释成不同的符号。因此,要想打开一个文本文件,就必须知道它的编码方式,否则用错误的编码方式解读,就会出现乱码。
可以想象,如果有一种编码,将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码,那么乱码问题就会消失。这就是Unicode,就像它的名字都表示的,这是一种所有符号的编码。
Unicode 为世界上所有字符都分配了一个唯一的数字编号,这个编号范围从 0x000000 到 0x10FFFF (十六进制),有 110 多万,每个字符都有一个唯一的 Unicode 编号,这个编号一般写成 16 进制,在前面加上 U+。
例如:U+0639 表示阿拉伯字母 Ain,U+0041 表示英语的大写字母 A,U+4E25 表示汉字“严”。具体的符号对应表,可以查询 unicode.org,或者专门的 汉字对应表。
Unicode 就相当于一张表,建立了字符与编号之间的联系,它是一种规定,但是 Unicode 本身只规定了每个字符的数字编号是多少,并没有规定这个编号如何存储。
比如,汉字“严”的 Unicode 是十六进制数 4E25,转换成二进制数足足有15位(100111000100101),也就是说,这个符号的表示至少需要 2 个字节。表示其他更大的符号,可能需要 3 个字节或者 4 个字节,甚至更多。
这里就有两个严重的问题:
- 如何才能区别 Unicode 和 ASCII ?计算机怎么知道三个字节表示一个符号,而不是分别表示三个符号呢?
- 英文字母只用一个字节表示就够了,如果 Unicode 统一规定,每个符号用三个或四个字节表示,那么每个英文字母前都必然有二到三个字节是 0,这对于存储来说是极大的浪费,文本文件的大小会因此大出二三倍,这是无法接受的。
它们造成的结果是:
- 出现了 Unicode 的多种存储方式,也就是说有许多种不同的二进制格式,可以用来表示 Unicode。
- Unicode 在很长一段时间内无法推广,直到互联网的出现。
UTF-8
互联网的普及,强烈要求出现一种统一的编码方式。UTF-8就是在互联网上使用最广的一种 Unicode 的实现方式,其他实现方式还包括UTF-16(字符用两个字节或四个字节表示)和 UTF-32(字符用四个字节表示),不过在互联网上基本不用。重复一遍,这里的关系是,UTF-8 是 Unicode 的实现方式之一。
UTF-8 最大的一个特点,就是它是一种变长的编码方式,它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度。
UTF-8 的编码规则很简单,只有二条:
- 对于单字节的符号,字节的第一位设为 0,后面 7 位为这个符号的 Unicode 码,因此对于英语字母,UTF-8 编码和 ASCII 码是相同的。
- 对于 n 字节的符号(n > 1),第一个字节的前 n 位都设为 1,第 n + 1 位设为 0,后面字节的前两位一律设为 10,剩下的没有提及的二进制位,全部为这个符号的 Unicode 码。
下表总结了编码规则,字母 x 表示可用编码的位。
跟据上表,解读 UTF-8 编码非常简单。
如果一个字节的第一位是 0,则这个字节单独就是一个字符;如果第一位是 1,则连续有多少个 1,就表示当前字符占用多少个字节。
从上面的表格还可以发现,UTF-8 编码有一个额外的好处,就是 ASCII 编码实际上可以被看成是 UTF-8 编码的一部分,所以,大量只支持 ASCII 编码的历史遗留软件可以在 UTF-8 编码下继续工作。
下面,还是以汉字“严”为例,演示如何实现 UTF-8 编码。
“严”的 Unicode 是4E25(100111000100101),根据上表,可以发现 4E25 处在第三行的范围内(0000 0800 - 0000 FFFF),因此严的 UTF-8 编码需要三个字节,即格式是1110xxxx 10xxxxxx 10xxxxxx。
然后,从严的最后一个二进制位开始,依次从后向前填入格式中的x,多出的位补 0。这样就得到了,严的 UTF-8 编码是 11100100 10111000 10100101,转换成十六进制就是 E4B8A5。
Unicode和UTF-8之间的转换
通过上一节的例子,可以看到严的 Unicode码 是 4E25,UTF-8 编码是 E4B8A5,两者是不一样的。它们之间的转换可以通过程序实现。
Windows平台,有一个最简单的转化方法,就是使用内置的记事本小程序 notepad.exe。打开文件后,点击文件菜单中的另存为命令,会跳出一个对话框,在最底部有一个编码的下拉条。
里面有五个选项:ANSI,UTF-16 LE,UTF-16 BE,UTF-8,带有 BOM 的 UTF-8
- ANSI:是默认的编码方式。对于英文文件是ASCII编码,对于简体中文文件是GB2312编码(只针对 Windows 简体中文版,如果是繁体中文版会采用 Big5 码)。
- UTF-16 LE:16 位 UCS 转换格式,即直接用两个字节存入字符的 Unicode 码,其后缀是 LE,即 little-endian,小头的意思,小头方式就是将高位的字节放在高地址表示。
- UTF-16 BE:16 位 UCS 转换格式,其后缀是 BE,即 big-endian,大头的意思,大头方式就是将高位的字节放在低地址表示。
- UTF-8:也就是上一节谈到的编码方法。
- 带有 BOM 的 UTF-8:又叫 UTF-8 签名。
选择完“编码方式”后,点击“保存”按钮,文件的编码方式就立刻转换好了。
Little endian 和 Big endian
上一节已经提到,UCS 格式可以存储 Unicode 码(码点不超过0xFFFF)。以汉字“严”为例,Unicode 码是 4E25,需要用两个字节存储,一个字节是 4E,另一个字节是 25。
存储的时候,4E 在前,25 在后,这就是Big endian方式;25 在前,4E 在后,这是Little endian方式。
这两个古怪的名称来自英国作家斯威夫特的《格列佛游记》。在该书中,小人国里爆发了内战,战争起因是人们争论,吃鸡蛋时究竟是从大头(Big-endian)敲开还是从小头(Little-endian)敲开。为了这件事情,前后爆发了六次战争,一个皇帝送了命,另一个皇帝丢了王位。
第一个字节在前,就是"大头方式"(Big endian),第二个字节在前就是"小头方式"(Little endian)。
那么很自然的,就会出现一个问题:计算机怎么知道某一个文件到底采用哪一种方式编码?
Unicode 规范定义,每一个文件的最前面分别加入一个表示编码顺序的字符,这个字符的名字叫做“零宽度非换行空格”(zero width no-break space),用 FEFF 表示。这正好是两个字节,而且 FF 比 FE 大 1。
如果一个文本文件的头两个字节是 FE FF,就表示该文件采用“大头方式”;如果头两个字节是 FF FE,就表示该文件采用“小头方式”。
UTF-8和带有BOM的UTF-8
- BOM 即 byte order mark,中文名译作“字节顺序标记”,是为 UTF-16 和 UTF-32 准备的。
- 微软在 UTF-8 中使用 BOM 是因为这样可以把 UTF-8 和 ASCII 等编码明确区分开,但这样的文件在 Windows 之外的操作系统里会带来问题。
- UTF-8 不需要 BOM 来表明字节顺序,尽管 Unicode 标准允许在 UTF-8 中使用 BOM。
- 可以用 BOM 来表明编码方式,字符“Zero Width No-Break Space” 的 UTF-8 编码是 EF BB BF。
- 如果接收者收到以 EF BB BF 开头的字节流,就知道这是 UTF-8编码,Windows 就是使用 BOM 来标记文本文件的编码方式的。
- 不含 BOM 的 UTF-8 才是标准形式,UTF-8 不需要 BOM,在 UTF-8 文件中放置 BOM 主要是微软的习惯。
- 在 UTF-8 中,一个汉字占 3 个字节(一个英文字符占 1 个字节)。
UTF-8 文件中包含 BOM 的坏处
- php 在设计时就没有考虑 BOM 的问题,也就是说它不会忽略 UTF-8 编码的文件开头的那三个 EF BB BF 字符,直接当做文本进行解析,导致解析错误。
- 在 linux 上执行 SQL 脚本报错。
总结
搞清楚了 ASCII、Unicode 和 UTF-8 的关系,我们就可以总结一下现在计算机系统通用的字符编码工作方式:
在计算机内存中,统一使用 Unicode 编码,当需要保存到硬盘或者需要传输的时候,就转换为 UTF-8 编码。
用记事本编辑的时候,从文件读取的 UTF-8 字符被转换为 Unicode 字符到内存里,编辑完成后,保存的时候再把 Unicode 转换为 UTF-8 保存到文件。
浏览网页的时候,服务器会把动态生成的 Unicode 内容转换为 UTF-8 再传输到浏览器。
所以你看到很多网页的源码上会有类似<meta charset="UTF-8" />的信息,表示该网页正是用的 UTF-8 编码。