ascii、unicode、utf-8、gbk 区别？

ASCII (American Standard Code for Information Interchange–美国信息交换标准代码)
Unicode（Universal Multiple-Octet Coded Character Set），简称 UCS
GBK（Chinese Internal Code Specification–汉字内码扩展规范）
UTF（Unicode Transformation Format–Unicode转换格式）

注意:

字符集（Charset）charset = char + set，char 是字符，set是集合，charset就是字符的集合。字符集就是是这个编码方式涵盖了哪些字符，每个字符都有一个数字序号。
编码方式（Encoding）编码方式就是一个字符要怎样编码成二进制字节序，或者反过来怎么解析。也即给你一个数字序号，要编码成几个字节，字节顺序如何，或者其他特殊规则。
Unicode 只是字符集
UTF-8 是一种 Unicode 字符集的编码方式

由于计算机是美国人发明的，因此，最早只有127个字符被编码到计算机里，也就是大小写英文字母、数字和一些符号，这个编码表被称为ASCII编码，比如大写字母A的编码是65，小写字母z的编码是122
你可以想得到的是，全世界有上百种语言，日本把日文编到Shift_JIS里，韩国把韩文编到Euc-kr里，各国有各国的标准，就会不可避免地出现冲突，结果就是，在多语言混合的文本中，显示出来会有乱码。
因此，Unicode应运而生。Unicode把所有语言都统一到一套编码里，这样就不会再有乱码问题了。
但是，新的问题又出现了：如果统一成Unicode编码，乱码问题从此消失了。但是，如果你写的文本基本上全部是英文的话，用Unicode编码比ASCII编码需要多一倍的存储空间，在存储和传输上就十分不划算。
所以，本着节约的精神，又出现了把Unicode编码转化为“可变长编码”的UTF-8编码。UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节，常用的英文字母被编码成1个字节，汉字通常是3个字节，只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符，用UTF-8编码就能节省空间。

bytes("爱".decode())
b'\xe7\x88\xb1'
bin(0xe7)
'0b11100111'
bin(0x88)
'0b10001000'
bin(0xb1)
'0b10110001'
11100111-10001000-10110001

UTF-8编码字节含义
对于UTF-8编码中的任意字节B，如果B的第一位为0，则B独立的表示一个字符(ASCII码)；
如果B的第一位为1，第二位为0，则B为一个多字节字符中的一个字节(非ASCII字符)；
如果B的前两位为1，第三位为0，则B为两个字节表示的字符中的第一个字节；
如果B的前三位为1，第四位为0，则B为三个字节表示的字符中的第一个字节；
如果B的前四位为1，第五位为0，则B为四个字节表示的字符中的第一个字节；