博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
汉字在UTF-8中的需要几个字节表示
阅读量:7218 次
发布时间:2019-06-29

本文共 479 字,大约阅读时间需要 1 分钟。

hot3.png

汉字在UTF-8中的需要几个字节表示

汉字在GB家族中是双字节,但在UTF-8中却是3字节,所以其编码方式是1110xxxx 10xxxxxx 10xxxxxx
UTF-8 使用一至四个字节为每个字符编码。128 个 ASCII 字符(Unicode 范围由 U+0000 至 U+007F)只需一个字节,带有变音符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文及马尔代夫语(Unicode 范围由 U+0080 至 U+07FF)需要二个字节,其他基本多文种平面(BMP)中的字符(CJK属于此类-Qieqie注)使用三个字节,其他 Unicode 辅助平面的字符使用四字节编码。
 
摘自:
 
思考:
1.按这么说目前为止,没有5个字节的UTF-8的字符表示。
2.汉字都是3个字节,转换unicode的可以直接存在wchar中。
问题:
1.若是4个字节的utf-8,转换成unicode是否要存在 wchar[2] 中呢?
 
欢迎探讨分享

转载于:https://my.oschina.net/u/174422/blog/57023

你可能感兴趣的文章
从输入 URL 到页面加载完成的过程中都发生了什么事情?
查看>>
实例讲解JQuery中this和$(this)区别
查看>>
centos 7 静态ip地址模板
查看>>
影响系统性能的20个瓶颈
查看>>
shell的详细介绍和编程(上)
查看>>
软件开发性能优化经验总结
查看>>
面试题编程题05-python 有一个无序数组,如何获取第K 大的数,说下思路,实现后的时间复杂度?...
查看>>
kendo grid序号显示
查看>>
Spring 教程(二) 体系结构
查看>>
Indexes
查看>>
2.Web中使用iReport 整合----------创建html格式的
查看>>
异常备忘:java.lang.UnsupportedClassVersionError: Bad version number in .class file
查看>>
最全三大框架整合(使用映射)——applicationContext.xml里面的配置
查看>>
初步理解Java的三大特性——封装、继承和多态
查看>>
知识点积累(一)
查看>>
iphone-common-codes-ccteam源代码 CCFile.m
查看>>
python:浅析python 中__name__ = '__main__' 的作用
查看>>
修改tomcat端口后不能IP访问问题
查看>>
review board
查看>>
URAL 1495 One-two, One-two 2
查看>>