【计算机基础】常用编码格式

【计算机基础】常用编码格式

ASCII 格式

美国信息交换标准代码(American Standard Code for Information Interchange,ASCII)是基于拉丁字母的一套计算机编码系统,主要用于显示现代英语和其他西欧语言。ASCII 是现今最通用的单字节编码系统,并等同于国际标准 ISO/IEC 646。

一个英文字母(不分大小写)占 1 字节的空间,一个中文汉字占 2 字节的空间。一个二进制数字序列,在计算机中作为一个数字单元,一般为 8 位二进制数,换算为十进制后,最小值为 0,最大值为 255。例如,一个 ASCII 码就是 1 字节。

Unicode 格式

Unicode(又称统一码、万国码或单一码)是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限性而产生的,它为每种语言中的每个字符设定统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。

最初的 Unicode 编码采用固定长度的 16 位,也就是 2 字节代表一个字符,这样一共可以表示 65536 个字符。显然,要表示各种语言中所有的字符,这是远远不够的。Unicode 4.0 规范考虑到了这种情况,定义了一组附加字符编码,附加字符编码采用两个 16 位来表示,这样最多可以定义 1048576 个附加字符,在 Unicode 4.0 规范中只定义了 45960 个附加字符,在 Unicode 5.0 版本中已定义的字符有 238605 个。

Unicode 只是一种编码规范,目前实际实现的 Unicode 编码只有 3 种——UTF-8、UCS-2 和 UTF-16。这 3 种 Unicode 字符集之间可以按照规范进行转换。

UTF-8 格式

UTF-8(8-bit Unicode Transformation Format)是一种针对 Unicode 的可变长度字符编码,又称万国码。UTF-8 由 Ken Thompson 于 1992 年创建,现在已经标准化为 RFC 3629。UTF-8 用 1 ~ 6 字节编码 Unicode 字符,用在网页上,可以统一页面显示的中文简体及其他语言(如英文、日文、韩文)。一个 UTF-8 英文字符等于 1 字节。一个 UTF-8 中文(含繁体)字符,少数占用 3 字节,多数占用 4 字节。一个 UTF-8 数字占用 1 字节。