unicode字符编码区间表

因为我也没有找到更适合的参考资料,因此只能自己生成一份编码表,然后从中找出这些特征,不过大部份来说都是准确的,有些个别的外语,,我也不知道是什么。(文 IT柏拉图) 至于这个表是干吗的,如果你想对用户输入的一些东西进行过滤或尝试识别乱码,或编码具于utf-8编码的分词系统,那么这些参考资料是很有意义的。

一、中文汉字区:

(1)生冷字:0x3400–0x4DB5

(2)普通:0x4E00–0x9FA5

(3)其它:0xF900–0xFA2C

二、韩文区:

(1)韩文音标字符区0x1100–0x11F90x3130–0x318E

(2)韩文:0xAC00–0xD7A3

三、符号表情:

(1)分段字符(如:① ⑴ ⒈ )0x2460–0x24E9

(2)制表附助、特殊字符等(┊┌┍ ▃ ▄ ▅)0x2500–0x25FF

(3)实物体字符0x2600–0x26710x2700–0x27FF

(4)全角括号(《》「」『』【】〔〕〖〗等)0x3007–0x301A

(5)特殊序号或单位元素区(㈠ ㎎ ㎏ ㎡ 等)0x3200–0x33FF

(6)与ANSI对应的全角字符0xFF00–0xFF5E对应: 0x0020–0xFF7E (即 ! — ~ 的区间)

(7)其它特殊符号0x2000–0x22FF

四、日本字符或假名符号区:0x3041–0x30FF

0x3104–0x312A0xFF66–0xFF9E

其中平假名:0x3041–0x3094 片假名:0x30A1–0x30FA

五、其它字条或音标区:(1)罗马音标0x00C0–0x0232

(2)类罗马音标或欧洲字符0x0386–0x04F30x1E00–0x1EFF0x1F00–0x1FFF

(3)阿拉伯语0x0620–0x06FF

(4)佛教混合梵语0x0904–0x09700x0A00–0x0AEF0x0E00–0x0E32

六、unicode编码与UTF-8编码转换:

Unicode符号范围 | UTF-8编码方式

u0000 0000 – u0000 007F | 0xxxxxxxu0000 0080 – u0000 07FF | 110xxxxx 10xxxxxxu0000 0800 – u0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx

正确的寒暄必须在短短一句话中明显地表露出你对他的关怀。

unicode字符编码区间表

相关文章:

你感兴趣的文章:

标签云: