问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

深入理解Unicode字符编码：原理与实践

创作时间:

作者:

@小白创作中心

深入理解Unicode字符编码：原理与实践

引用

CSDN

1.

https://blog.csdn.net/weixin_38125348/article/details/139733667

Unicode字符编码是现代计算机系统中处理多语言文本的基础。本文将深入探讨Unicode的设计理念、现代字符编码模型的层次结构，以及UTF-8、UTF-16、UTF-32等主要编码方案的原理与应用。

简单的字符编码模型

在计算机中存储一个字符，涉及到多个方面，包括字符集的大小、字符的编号方式以及如何将这些编号转换为字节序列存储。这种机制被称为字符编码模型（Character Encoding Model）。

传统的字符编码模型，如ASCII和GB系列编码，采用简单的编号方式：列出所有字符并进行编号，然后将编号的二进制数作为字符的编码。在这种模型中，字符集和字符编码通常是等价的，不需要严格区分。

Unicode的设计思路

Unicode采用了一种全新的字符编码模型，将字符集和字符编码的概念细分为以下几个方面：

一套字符集包含哪些字符
这些字符的编号是什么
编号的规则
编号如何转换为字节序列
在特殊传输环境（如电子邮件）中的适应性编码处理

现代字符编码模型的核心思想是创建一个能够用不同方式编码的通用字符集。这意味着同一个字符集可以适用于不同的编码方式，字符集与编码方式之间可以是一对多的关系。这种设计将字符集与编码方式解耦，类似于软件工程中的接口与实现的分离。

现代字符编码模型

在Unicode技术报告（UTR）《UNICODE CHARACTER ENCODING MODEL》中，现代字符编码模型被分为五个层次：

抽象字符表（ACR）：明确字符的范围，即确定支持哪些字符，可以简单理解为无序的字符集合。
编号字符集（CCS）：用数字给抽象字符表中的字符进行编号。
字符编码方式（CEF）：决定用几个字节存储字符，也就是如何将数字编号转换为二进制。
字符编码模式（CES）：如何将多个字节存储到计算机中，包括字符之间的分隔和字节顺序。
传输编码语法（TES）：在网络传输中的适应性编码处理，如压缩等。

Unicode的编码方案

Unicode有多种编码方式，统称为UTF（Unicode Transformation Formats），包括UTF-8、UTF-16和UTF-32。这些编码方式根据不同的存储或传输需求，采用不同字节长度的编码方案。

以汉字“严”为例，其Unicode编码为十六进制数4E25，转换为二进制数需要15位（0100 1110 0010 0101），至少需要2个字节存储。在不同编码方式下的具体编码如下：

编码	hex	dec (bytes)	dec	binary
UTF-8	E4 B8 A5	228 184 165	14989477	11100100 10111000 10100101
UTF-16BE	4E 25	78 37	20005	01001110 00100101
UTF-16LE	25 4E	37 78	9550	00100101 01001110
UTF-32BE	00 00 4E 25	0 0 78 37	20005	00000000 00000000 01001110 00100101
UTF-32LE	25 4E 00 00	37 78 0 0	625868800	00100101 01001110 00000000 00000000

UTF-32

UTF-32是最简单的编码方式，每个字符固定占用4个字节，可以直接存储Unicode编号，不需要任何转换。这种编码方式提高了效率，便于字符截断，但空间利用率较低。

UTF-8

UTF-8是一种变长编码方式，根据字符的Unicode码点使用1到4个字节进行存储，既节省空间又兼容ASCII。其编码规则如下：

单字节编码形式：0xxxxxxx（兼容ASCII）
双字节编码形式：110x xxxx 10xx xxxx
三字节编码形式：1110 xxxx 10xx xxxx 10xx xxxx
四字节编码形式：1111 0xxx 10xx xxxx 10xx xxxx 10xx xxxx

以汉字“严”为例，其Unicode码点为4E25（十进制20005），属于三字节编码范围。具体编码过程如下：

将十六进制码点转换为二进制：0100 1110 0010 0101
根据三字节编码规则填充：1110 xxxx 10xx xxxx 10xx xxxx
替换x为实际二进制值：1110 0100 1011 1000 1010 0101
计算补码存储：-28 -72 -91

UTF-16

UTF-16使用2个或4个字节存储字符，介于UTF-8和UTF-32之间。其编码规则较为复杂，涉及代理对（Surrogate Pairs）的概念，用于表示超出基本多文种平面（BMP）的字符。

查询Unicode编码

要查询字符的Unicode编码，可以通过以下方式：

官方网站：Unicode – The World Standard for Text and Emoji
汉字对应表：字体编辑用中日韩汉字 Unicode 编码表
在线查询工具：基本拉丁字母 — ✔️ ❤️ ★ Unicode 字符百科

编程语言与Unicode

大多数编程语言都提供了查询Unicode码点的内置函数：

Python：ord("严")
JavaScript："严".codePointAt()
Java：str.codePointAt(0)

Unicode转字符

知道Unicode码点后，可以通过以下方式获取对应的字符：

Java：String str = "\u4E25";
微信翻译功能：发送Unicode码点并右键翻译

关于Emoji

Emoji是Unicode的一部分，从2010年开始被纳入标准。在各种社交媒体、邮箱和文档中都可以使用Emoji，可以通过特定的输入法快速输入。

小结

字符：文字与符号的总称，包括文字、图形符号、数学符号等。
字符集：一组抽象字符的集合，需要通过某种编码方式表示和存储。
字符编码：用二进制形式表示字符集中的字符，每种字符集都有其特有的编码方式。

Unicode字符编码模型通过将字符集和编码方式解耦，实现了更灵活、高效的多语言文本处理方案，是现代计算机系统处理文本的基础。

热门推荐

十二生肖消费大揭秘：谁是购物狂？谁是省钱达人？

十二生肖消费大揭秘：谁是购物狂？谁是省钱达人？

橘子中的维C，让你美美哒！

橘子中的维C，让你美美哒！

心肌酶谱异常就是心肌梗死吗？答案令人惊喜

心肌酶谱异常就是心肌梗死吗？答案令人惊喜

地下大峡谷溶洞漂流创吉尼斯纪录，江北最长溶洞现100余处景观

地下大峡谷溶洞漂流创吉尼斯纪录，江北最长溶洞现100余处景观

临沂三日深度游：自然、历史、红色三大主题全览

临沂三日深度游：自然、历史、红色三大主题全览

牙周护理双管齐下，有效预防牙齿松动

牙周护理双管齐下，有效预防牙齿松动

膳食补充麦角硫因可延长寿命并促进健康衰老

膳食补充麦角硫因可延长寿命并促进健康衰老

三教融合：从南宋白朴陈亮到现代道教名人

三教融合：从南宋白朴陈亮到现代道教名人

主战派陈亮：用“实事实功”挑战南宋理学主流

主战派陈亮：用“实事实功”挑战南宋理学主流

南宋陈亮：事功学派创始人，力主抗金的改革思想家

南宋陈亮：事功学派创始人，力主抗金的改革思想家

年末出游必备：外币兑换全攻略

年末出游必备：外币兑换全攻略

外币兑换英语，让你秒变国际范儿

外币兑换英语，让你秒变国际范儿

南华医院创新T6+Hemlock手术，合肥一院完成首例人工尿道括约肌植入

南华医院创新T6+Hemlock手术，合肥一院完成首例人工尿道括约肌植入

最新研究：孕前补充叶酸可预防先天性心脏病，但我国九成备孕人群未达标

最新研究：孕前补充叶酸可预防先天性心脏病，但我国九成备孕人群未达标

绍兴更化：宋高宗对秦桧势力的清除与对和议路线的坚守

绍兴更化：宋高宗对秦桧势力的清除与对和议路线的坚守

天然气背后的烷烃秘密

天然气背后的烷烃秘密

权力的死局：赵构必须求和，秦桧必须卖国，靖康耻，不能雪

权力的死局：赵构必须求和，秦桧必须卖国，靖康耻，不能雪

豆腐真的这么神？吃了就能瘦？

豆腐真的这么神？吃了就能瘦？

科学证实：深度睡眠催眠曲让90%失眠者受益

科学证实：深度睡眠催眠曲让90%失眠者受益

音乐疗法改善失眠，科学证实有效

音乐疗法改善失眠，科学证实有效

桂林豆腐乳：舌尖上的千年非遗

桂林豆腐乳：舌尖上的千年非遗

从选豆到成型：自制豆腐全攻略

从选豆到成型：自制豆腐全攻略

东北大豆：制作Q弹豆腐的黄金之选

东北大豆：制作Q弹豆腐的黄金之选

双色球选号秘籍：历史数据揭秘好运密码

双色球选号秘籍：历史数据揭秘好运密码

隔夜海鲜还能吃吗？揭秘隔夜海鲜的安全性与食用建议

隔夜海鲜还能吃吗？揭秘隔夜海鲜的安全性与食用建议

预防心脏病的重要措施

预防心脏病的重要措施

心肌酶谱是查什么的

心肌酶谱是查什么的

葡萄酒分类大揭秘：让你成为品酒高手！

葡萄酒分类大揭秘：让你成为品酒高手！

葡萄酒背后的英雄：葡萄品种大揭秘

葡萄酒背后的英雄：葡萄品种大揭秘

两种气功御寒法，让你冬天不再怕冷

两种气功御寒法，让你冬天不再怕冷

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号