utf8编码对照表,utf-8的数字,英文,中文各自占用几个byte字节

utf8编码对照表,utf-8的数字,英文,中文各自占用几个byte字节详细介绍

本文目录一览： utf-8的数字,英文,中文各自占用几个byte字节

文章总结: UTF-8字符编码的优势非常明显, 英文和数字(也就是ASCII字符集)还是只用一个byte, 而欧洲语言比如希腊语的字符占用2个byte, 中文占用3个byte.
英文字母和中文汉字在不同字符集编码下的字节数英文字母： ·字节数 : 1;编码：GB2312
字节数 : 1;编码：GBK
字节数 : 1;编码：GB18030
字节数 : 1;编码：ISO-8859-1
字节数 : 1;编码：UTF-8
字节数 : 4;编码：UTF-16
字节数 : 2;编码：UTF-16BE
字节数 : 2;编码：UTF-16LE
中文汉字：字节数 : 2;编码：GB2312
字节数 : 2;编码：GBK
字节数 : 2;编码：GB18030
字节数 : 1;编码：ISO-8859-1
字节数 : 3;编码：UTF-8
字节数 : 4;编码：UTF-16
字节数 : 2;编码：UTF-16BE
字节数 : 2;编码：UTF-16LE
美国人首先对其英文字符进行了编码，也就是最早的ascii码，用一个字节的低7位来表示英文的128个字符，高1位统一为0；
后来欧洲人发现你这128位哪够用，比如法国人字母上面的还有注音符，这个怎么区分，于是把高1位编进来吧，这样欧洲普遍使用一个全字节进行编码，最多可表示256位。
但是即使位数少，不同国家地区用不同的字符编码，虽然0–127表示的符号是一样的，但是128–255这一段的解释完全乱套了，即使2进制完全一样，表示的字符完全不一样，比如135在法语，希伯来语，俄语编码中完全是不同的符号；
更麻烦的是，这编码传到中国后，中国人发现我们有10万多个汉字，你们欧美这256字塞牙缝都不够。于是就发明了GB2312这些汉字编码，典型的用2个字节来表示绝大部分的常用汉字，最多可以表示65536个汉字字符，这样就不难理解有些汉字你在新华字典里查得到，但是电脑上如果不处理一下你是显示不出来的了吧。
这下各用各的字符集编码，这世界咋统一？俄国人发封email给中国人，两边字符集编码不同，尼玛显示都是乱码啊。为了统一，于是就发明了unicode，将世界上所有的符号都纳入其中，每一个符号都给予一个独一无二的编码，现在unicode可以容纳100多万个符号，每个符号的编码都不一样，这下可统一了，所有语言都可以互通，一个网页页面里可以同时显示各国文字。
然而，unicode虽然统一了全世界字符的二进制编码，但没有规定如何存储啊。x86和amd体系结构的电脑小端序和大端序都分不清，别提计算机如何识别到底是unicode还是acsii了。如果Unicode统一规定，每个符号用三个或四个字节表示，那么每个英文字母前都必然有二到三个字节是0，文本文件的大小会因此大出二三倍，这对于存储来说是极大的浪费。这样导致一个后果：出现了Unicode的多种存储方式。
互联网的兴起，网页上要显示各种字符，必须统一。 utf-8就是Unicode最重要的实现方式之一。另外还有utf-16、utf-32等。 UTF-8不是固定字长编码的，而是一种变长的编码方式。它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度。这是种比较巧妙的设计，如果一个字节的第一位是0，则这个字节单独就是一个字符；如果第一位是1，则连续有多少个1，就表示当前字符占用多少个字节。 (Google的 Protobuf也参考了这个设计)
注意unicode的字符编码和utf-8的存储编码表示是不同的，例如”严”字的Unicode码是4E25，UTF-8编码是E4B8A5，这个7里面解释了的，UTF-8编码不仅考虑了编码，还考虑了存储， E4B8A5是在存储识别编码的基础上塞进了4E25。
UTF-8 使用一至四个字节为每个字符编码。128 个 ASCII 字符（Unicode 范围由 U+0000 至 U+007F）只需一个字节，带有变音符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文及马尔代夫语（Unicode 范围由 U+0080 至 U+07FF）需要二个字节，其他基本多文种平面（BMP）中的字符（CJK属于此类-Qieqie注）使用三个字节，其他 Unicode 辅助平面的字符使用四字节编码。
所以知道utf-8的中文是一个字符占几个字节了吧？当然是3个了啦!!!

文件编码方式

https://blog.csdn.net/u013139008/article/details/79425520

1.每个文件如何知道该文件是大端还是小端格式？
文件的开头有两个字节：FEFF 大端
FFFE 小端这两个字节叫零宽度非换行空格

2.Unicode可以编码世界上所有的字符
但是没有规定多少个字节表示一个字符（没有规定存储）。如果按照字符使用的最长的字节数来表示，就会造成存储上的浪费。

3.UTF-8是Unicode的一种使用方式。UTF-8是一种可变长的编码方式。使用1-6个字节表示一个字符。
一下是Unicode和UTF-8的对照表：

如果一个文件是UTF-8格式的，可以选择是否添加BOOM头。
本来BOOM头存在的原因就是为了标识该文件是UTF-8编码的。
BOOM头是指在文件开头有三个零宽度字符：efbbbf

4.ANSI编码格式就是GBK的编码格式

5.ASCII码使用一个字节进行编码 128个字符 0-127 0x00-0x7F

6.GB2312是区位码，通过使用区号和位号来指定一个汉字

7.GBK总体编码范围为0x8140~0xFEFE，首字节在 0x81~0xFE 之间，尾字节在 0x40~0xFE 之间
编码格式是CP936 也是值GBK，因为微软Windows安排给GBK的CodePage 是CP936

在一个GBK编码的格式文件中数字和英文都是使用半角的，也就是使用一个字节进行编码。如果是全角的，就是使用两个字节进行编码。在读一个文件的时候，如果是GBK格式，读到的一个字节的首位是0，说明该字节是ASCII码。如果是1，说明该字节是GBK编码，使用两个字节表示一个汉字。

8.如何区分一个文件的编码方式：
1）有boom头，表示是UTF-8
2）无boom头，只能根据文本进行分析

9.UCS-2编码是指使用两个字节表示Unicode码，UCS-4是指使用4个字节表示Unicode码。

10.Unicode和GBK之间没有算法和规则进行转换，只能通过一个大表将二者关联起来。

UTF-8详解

UTF-8 最大的一个特点，就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度。

UTF-8 的编码规则很简单，只有二条：

1）对于单字节的符号，字节的第一位设为0，后面7位为这个符号的 Unicode 码。因此对于英语字母，UTF-8 编码和 ASCII 码是相同的。

2）对于n字节的符号（n > 1），第一个字节的前n位都设为1，第n + 1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的 Unicode 码。

下面，还是以汉字严为例，演示如何实现 UTF-8 编码。
严的 Unicode 是4E25（100111000100101），根据上表，可以发现4E25处在第三行的范围内（0000 0800 - 0000 FFFF），因此严的 UTF-8 编码需要三个字节，即格式是1110xxxx 10xxxxxx 10xxxxxx。然后，从严的最后一个二进制位开始，依次从后向前填入格式中的x，多出的位补0。这样就得到了，严的 UTF-8 编码是11100100 10111000 10100101，转换成十六进制就是E4B8A5。

参考链接：
https://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html
https://blog.csdn.net/weicaijiang/article/details/88946489

求UTF8中汉字编码范围

\u4E00-\u9FFF，这个包含了常用的汉字、日文和韩文，扩展部分的范围如下：
Extension A (3400–4DBF)
Extension B (20000–2A6DF)
Extension C (2A700–2B73F)
Extension D (2B840–2B81F)
十进制自己用windows自带的科学计算器换算一下吧。

utf-8是什么编码？

UTF-8（8位元，Universal Character Set/Unicode Transformation Format）是针对Unicode的一种可变长度字符编码。它可以用来表示Unicode标准中的任何字符，而且其编码中的第一个字节仍与ASCII相容，使得原来处理ASCII字符的软件无须或只进行少部份修改后，便可继续使用。因此，它逐渐成为电子邮件、网页及其他存储或传送文字的应用中，优先采用的编码。
基本特征
UCS字符U+0000到U+007F（ASCII）被编码为字节0×00到0x7F（ASCIⅡ兼容）。这意味着只包含7位ASCIl字符的文件在ASCIⅡ和UTF-8两种编码方式下是一样的。
所有大于0x007F的UCS字符被编码为一个有多个字节的串，每个字节都有标记位集。因此，ASCIl字节（0x00-0x7F）不可能作为任何其他字符的一部分。表示非ASCIl字符的多字节串的第一个字节总是在0xC0到0XFD的范围里，并指出这个字符包含多少个字节。多字节串的其余字节都在0x80到0xBF范围里。这使得重新同步非常容易，并使编码无国界，且很少受丢失字节的影响。
UTF-8编码字符理论上可以最多到6个字节长，然而16位BMP字符最多只用到3字节长，Bigendian UCS-4字节串的排列顺序是预定的，字节0xFE和OxFF在UTF-8编码中从未用到。
编码字节数
UTF-8使用1~4字节为每个字符编码：
·一个US-ASCIl字符只需1字节编码（Unicode范围由U+0000~U+007F）。
·带有变音符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文等字母则需要2字节编码（Unicode范围由U+0080~U+07FF）。
·其他语言的字符（包括中日韩文字、东南亚文字、中东文字等）包含了大部分常用字，使用3字节编码。
·其他极少使用的语言字符使用4字节编码。
UTF-8编码规则：
如果只有一个字节则其最高二进制位为0；如果是多字节，其第一个字节从最高位开始，连续的二进制位值为1的个数决定了其编码的字节数，其余各字节均以10开头。

字符编码-深入理解ASCII,GB2312,GBK,Unicode,UTF-8

ASCII码是西欧编码的方式，采取7位编码，所以是2^7=128,共可以表示128个字符，包括34个字符，（如换行LF，回车CR等），其余94位为英文字母和标点符号及运算符号等。
重点:
注：NUL:‘\0'是一个ASCII码为0的字符，从ASCII码表中可以看到ASCII码为0的字符是“空操作字符”，它不引起任何控制动作，也不是一个可显示的字符。
你看到的unicode字符集是这样的编码表：
计算机只懂二进制，因此，严格按照unicode的方式(UCS-2)，应该这样存储：
这个字符串总共占用了18个字节，但是对比中英文的二进制码，可以发现，英文前9位都是0！浪费啊，浪费硬盘，浪费流量。
怎么办？
UTF
UTF-8是这样做的：
这样就形成了如下的UTF-8标记位：

从上面的内容了解了字符编码以后，以后遇到相关的字符编码问题的时候至少有解决的思路，而不是一头雾水
开始问题分析： 1.字符集分析：gb2312支持数字和英文和6000+汉字 2.编码分析：英文占一个字节，中文占两个字节（这就是问题）
这时就要想到,中文汉子对照表：
3.特性：gb2312的高位字节如果大于127（ASCII），就为中文,只有gb2312具有这个特性
4.如果想兼容utf-8和unicode和gbk,那么可以4位16进制的字符截取，如果大于127,那么默认为中文,否则就是英文或字符或数字
这个函数是把数字或进制字符都转为10进制的数字，第二个参数radix表示的是第一个参数string的类型（10进制，2进制，8进制，16进制），我之前很白菜的理解为我想把第一个参数string转化成16进制。哎，我还是太年轻啊

utf-8 繁体中文编码表范围是多少

由 e38080 到 e9be98 ( 包括全型符号 )
第一个中文字则由 e4b880 起
UTF-8是Unicode的一种实现方式，也就是它的字节结构有特殊要求，所以我们说一个汉字的范围是0X4E00到0x9FA5，是指unicode值，至于放在utf-8的编码里去就是由三个字节来组织，所以可以看出unicode是给出一个字符的范围，定义了这个字是码值是多少，至于具体的实现方式可以有多种多样来实现。
UTF-8是一种变长字节编码方式。对于某一个字符的UTF-8编码，如果只有一个字节则其最高二进制位为0；如果是多字节，其第一个字节从最高位开始，连续的二进制位值为1的个数决定了其编码的位数，其余各字节均以10开头。UTF-8最多可用到6个字节。
如表：
1字节 0xxxxxxx
2字节 110xxxxx 10xxxxxx
3字节 1110xxxx 10xxxxxx 10xxxxxx
4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
因此UTF-8中可以用来表示字符编码的实际位数最多有31位，即上表中x所表示的位。除去那些控制位（每字节开头的10等），这些x表示的位与UNICODE编码是一一对应的，位高低顺序也相同。
实际将UNICODE转换为UTF-8编码时应先去除高位0，然后根据所剩编码的位数决定所需最小的UTF-8编码位数。
因此那些基本ASCII字符集中的字符（UNICODE兼容ASCII）只需要一个字节的UTF-8编码（7个二进制位）便可以表示。
对于上面的问题，代码中给出的两个字节是
十六进制：C0 B1
二进制：11000000 10110001
对比两个字节编码的表示方式：
110xxxxx 10xxxxxx
提取出对应的UNICODE编码：
00000 110001
可以看出此编码并非“标准”的UTF-8编码，因为其第一个字节的“有效编码”全为0，去除高位0后的编码仅有6位。由前面所述，此字符仅用一个字节的UTF-8编码表示就够了。
JAVA在把字符还原为UTF-8编码时，是按照“标准”的方式处理的，因此我们得到的是仅有1个字节的编码。
大家可以试试运行这段代码：
public class TestUTF8 {
public static void main(String[] args) throws Exception {
byte[][] bytes = {
// 00110001
{(byte)0x31},
// 11000000 10110001
{(byte)0xC0,(byte)0xB1},
// 11100000 10000000 10110001
{(byte)0xE0,(byte)0x80,(byte)0xB1},
// 11110000 10000000 10000000 10110001
{(byte)0xF0,(byte)0x80,(byte)0x80,(byte)0xB1},
// 11111000 10000000 10000000 10000000 10110001
{(byte)0xF8,(byte)0x80,(byte)0x80,(byte)0x80,(byte)0xB1},
// 11111100 10000000 10000000 10000000 10000000 10110001
{(byte)0xFC,(byte)0x80,(byte)0x80,(byte)0x80,(byte)0x80,(byte)0xB1},
};
for (int i = 0; i < 6; i++) {
String str = new String(bytes[i], "UTF-8");
System.out.println("原数组长度：" + bytes[i].length +
"/t转换为字符串：" + str +
"/t转回后数组长度：" + str.getBytes("UTF-8").length);
}
}
}
　　运行结果为：
原数组长度：1 转换为字符串：1 转回后数组长度：1
原数组长度：2 转换为字符串：1 转回后数组长度：1
原数组长度：3 转换为字符串：1 转回后数组长度：1
原数组长度：4 转换为字符串：1 转回后数组长度：1
原数组长度：5 转换为字符串：1 转回后数组长度：1
原数组长度：6 转换为字符串：1 转回后数组长度：1

阅读更多 >>> 为什么一字节等于八位

utf8mb4和utf8有什么区别

整理 MySQL 8.0 文档时发现一个变更：
默认字符集由 latin1 变为 utf8mb4。想起以前整理过字符集转换文档，升级到 MySQL 8.0 后大概率会有字符集转换的需求，在此正好分享一下。
当时的需求背景是：
部分系统使用的字符集是 utf8，但 utf8 最多只能存 3 字节长度的字符，不能存放 4 字节的生僻字或者表情符号，因此打算迁移到 utf8mb4。
迁移方案一1. 准备新的数据库实例，修改以下参数：[mysqld]## Character Settingsinit_connect='SET NAMES utf8mb4'#连接建立时执行设置的语句，对super权限用户无效character-set-server = utf8mb4collation-server = utf8mb4_general_ci#设置服务端校验规则，如果字符串需要区分大小写，设置为utf8mb4_binskip-character-set-client-handshake#忽略应用连接自己设置的字符编码，保持与全局设置一致## Innodb Settingsinnodb_file_format = Barracudainnodb_file_format_max = Barracudainnodb_file_per_table = 1innodb_large_prefix = ON#允许索引的最大字节数为3072（不开启则最大为767字节，对于类似varchar(255)字段的索引会有问题，因为255*4大于767）
2. 停止应用，观察，确认不再有数据写入
可通过 show master status 观察 GTID 或者 binlog position，没有变化则没有写入。
3. 导出数据
先导出表结构：mysqldump -u -p --no-data --default-character-set=utf8mb4 --single-transaction --set-gtid-purged=OFF --databases testdb > /backup/testdb.sql
后导出数据：mysqldump -u -p --no-create-info --master-data=2 --flush-logs --routines --events --triggers --default-character-set=utf8mb4 --single-transaction --set-gtid-purged=OFF --database testdb > /backup/testdata.sql
4. 修改建表语句
修改导出的表结构文件，将表、列定义中的 utf8 改为 utf8mb4
5. 导入数据
先导入表结构：mysql -u -p testdb < /backup/testdb.sql
后导入数据：mysql -u -p testdb < /backup/testdata.sql
6. 建用户
查出旧环境的数据库用户，在新数据库中创建
7. 修改新数据库端口，启动应用进行测试
关闭旧数据库，修改新数据库端口重启，启动应用
utf8mb4和utf8区别如下：
MySQL在5.5.3之后增加了这个utf8mb4的编码，mb4就是most bytes 4的意思，专门用来兼容四字节的unicode。好在utf8mb4是utf8的超集，除了将编码改为utf8mb4外不需要做其他转换。当然，为了节省空间，一般情况下使用utf8也就够了。
理论上讲， UTF-8 格式使用一至六个字节，最大能编码 31 位字符。最新的 UTF-8 规范只使用一到四个字节，最大能编码21位，正好能够表示所有的 17个 Unicode 平面。
utf-8编码方式如下：
unicode code point table
表示范围：

← 上一篇: html+css+js的网页毕业设计,网页设计模板-如何制作网页模板下一篇: gridview删除当前行,C# DataGridView中如何删除某一行的数据→

utf8编码对照表,utf-8的数字,英文,中文各自占用几个byte字节

utf8编码对照表,utf-8的数字,英文,中文各自占用几个byte字节详细介绍

相关文章：

文章数据信息: