因为我也没有找到更适合的参考资料,因此只能自己生成一份编码表,然后从中找出这些特征,不过大部份来说都是准确的,有些个别的外语,,我也不知道是什么。(文 IT柏拉图) 至于这个表是干吗的,如果你想对用户输入的一些东西进行过滤或尝试识别乱码,或编码具于utf-8编码的分词系统,那么这些参考资料是很有意义的。
一、中文汉字区:
(1)生冷字:0x3400–0x4DB5
(2)普通:0x4E00–0x9FA5
(3)其它:0xF900–0xFA2C
二、韩文区:
(1)韩文音标字符区0x1100–0x11F90x3130–0x318E
(2)韩文:0xAC00–0xD7A3
三、符号表情:
(1)分段字符(如:① ⑴ ⒈ )0x2460–0x24E9
(2)制表附助、特殊字符等(┊┌┍ ▃ ▄ ▅)0x2500–0x25FF
(3)实物体字符0x2600–0x26710x2700–0x27FF
(4)全角括号(《》「」『』【】〔〕〖〗等)0x3007–0x301A
(5)特殊序号或单位元素区(㈠ ㎎ ㎏ ㎡ 等)0x3200–0x33FF
(6)与ANSI对应的全角字符0xFF00–0xFF5E对应: 0x0020–0xFF7E (即 ! — ~ 的区间)
(7)其它特殊符号0x2000–0x22FF
四、日本字符或假名符号区:0x3041–0x30FF
0x3104–0x312A0xFF66–0xFF9E
其中平假名:0x3041–0x3094 片假名:0x30A1–0x30FA
五、其它字条或音标区:(1)罗马音标0x00C0–0x0232
(2)类罗马音标或欧洲字符0x0386–0x04F30x1E00–0x1EFF0x1F00–0x1FFF
(3)阿拉伯语0x0620–0x06FF
(4)佛教混合梵语0x0904–0x09700x0A00–0x0AEF0x0E00–0x0E32
六、unicode编码与UTF-8编码转换:
Unicode符号范围 | UTF-8编码方式
u0000 0000 – u0000 007F | 0xxxxxxxu0000 0080 – u0000 07FF | 110xxxxx 10xxxxxxu0000 0800 – u0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
正确的寒暄必须在短短一句话中明显地表露出你对他的关怀。