当前位置:网站首页>ASCII、Unicode和UTF-8

ASCII、Unicode和UTF-8

2022-08-10 21:48:00 TABE_

标准ASCII码

标准ASCII码也叫基础ASCII码,使用7位二进制数(剩下的1位二进制为0)来表示所有的大写和小写字母、数字0到9、标点符号以及在美式英语中使用的特殊控制字符。

ASCII码只是用了7位二进制数,用一个字节表示时,它第一位总是为0。如果只表示英文,一个字节是够用的,但要表示世界上所有的文字,必须使用多个字节才行。

Unicode

Unicode就是为了能在计算机中表示所有的文字。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。需要注意的是,Unicode只是一个符号集,它只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存储

UTF-8

UTF-8就是在互联网上使用最广的一种unicode的实现方式。UTF-8是一种变长的编码方式,它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度

UTF-8编码规则:

  1. 对于单个字节的字符,第一位设为 0,后面的 7 位对应这个字符的 Unicode 码点。因此,对于英文中的 0 - 127 号字符,与 ASCII 码完全相同。这意味着 ASCII 码那个年代的文档用 UTF-8 编码打开完全没有问题。
  2. 对于需要使用 N 个字节来表示的字符(N > 1),第一个字节的前 N 位都设为 1,第 N + 1 位设为0,剩余的 N - 1 个字节的前两位都设位 10,剩下的二进制位则使用这个字符的 Unicode 码点来填充。
原网站

版权声明
本文为[TABE_]所创,转载请带上原文链接,感谢
https://blog.csdn.net/TABE_/article/details/126223171