【计算机基础】常用编码格式

ASCII 格式

美国信息交换标准代码（American Standard Code for Information Interchange，ASCII）是基于拉丁字母的一套计算机编码系统，主要用于显示现代英语和其他西欧语言。ASCII 是现今最通用的单字节编码系统，并等同于国际标准 ISO/IEC 646。

一个英文字母（不分大小写）占 1 字节的空间，一个中文汉字占 2 字节的空间。一个二进制数字序列，在计算机中作为一个数字单元，一般为 8 位二进制数，换算为十进制后，最小值为 0，最大值为 255。例如，一个 ASCII 码就是 1 字节。

Unicode 格式

Unicode（又称统一码、万国码或单一码）是计算机科学领域里的一项业界标准，包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限性而产生的，它为每种语言中的每个字符设定统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。

最初的 Unicode 编码采用固定长度的 16 位，也就是 2 字节代表一个字符，这样一共可以表示 65536 个字符。显然，要表示各种语言中所有的字符，这是远远不够的。Unicode 4.0 规范考虑到了这种情况，定义了一组附加字符编码，附加字符编码采用两个 16 位来表示，这样最多可以定义 1048576 个附加字符，在 Unicode 4.0 规范中只定义了 45960 个附加字符，在 Unicode 5.0 版本中已定义的字符有 238605 个。

Unicode 只是一种编码规范，目前实际实现的 Unicode 编码只有 3 种——UTF-8、UCS-2 和 UTF-16。这 3 种 Unicode 字符集之间可以按照规范进行转换。

UTF-8 格式

UTF-8（8-bit Unicode Transformation Format）是一种针对 Unicode 的可变长度字符编码，又称万国码。UTF-8 由 Ken Thompson 于 1992 年创建，现在已经标准化为 RFC 3629。UTF-8 用 1 ～ 6 字节编码 Unicode 字符，用在网页上，可以统一页面显示的中文简体及其他语言（如英文、日文、韩文）。一个 UTF-8 英文字符等于 1 字节。一个 UTF-8 中文（含繁体）字符，少数占用 3 字节，多数占用 4 字节。一个 UTF-8 数字占用 1 字节。