汉字的unicode编码表,关于汉字、符号等的编码形如 & # 3 4 2 0 1 (去掉空格)
汉字的unicode编码表,关于汉字、符号等的编码形如 & # 3 4 2 0 1 (去掉空格)详细介绍
本文目录一览: unicode编码是什么?
Unicode是一种字符编码方案,它为每种语言中的每个字符都设定了统一唯一的二进制编码,以实现跨语言、跨平台进行文本转换、处理的要求。
Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。目前的Unicode字符分为17组编排,0x0000至0x10FFFF,每组称为平面(Plane),而每平面拥有65536个码位,共1114112个。
Unicode 编码表
BMP SMP SIP SSP
0000—0FFF 8000—8FFF 10000—10FFF 20000—20FFF 28000—28FFF E0000—E0FFF
1000—1FFF 9000—9FFF 21000—21FFF 29000—29FFF
2000—2FFF A000—AFFF 12000—12FFF 22000—22FFF 2A000—2AFFF
3000—3FFF B000—BFFF 23000—23FFF
4000—4FFF C000—CFFF 24000—24FFF 2F000—2FFFF
5000—5FFF D000—DFFF 1D000—1DFFF 25000—25FFF
6000—6FFF E000—EFFF 26000—26FFF
7000—7FFF F000—FFFF 1F000—1FFFF 27000—27FFF
关于汉字、符号等的编码形如 & # 3 4 2 0 1 (去掉空格)
应该可以强制成INT后再输出的!!!没试过!!!你可以试下
看看看下面的表(太长,仅摘录一部分),就可以明白汉字的Unicode编码规律。
一:一丁丂七丄丅丆
万:万丈三上下丌不与丏丐丑丒专且丕世丗丘丙业丛东丝丞丢
丠:丠両丢丣两严并丧丨丩个丫丬中丮丯丰丱串丳临丵丶丷丸
丹:丹为主丼丽举丿乀乁乂乃乄久乆乇么义乊之乌乍乎乏乐乑
乒:乒乓乔乕乖乗乘乙乚乛乜九乞也习乡乢乣乤乥书乧乨乩乪
乫:乫乬乭乮乯买乱乲乳乴乵乶乷乸乹乺乻乼乽乾乿亀亁乱亃
亄:亄亅了亇予争亊事二亍于亏亐云互亓五井亖亗亘亘亚些亜
亝:亝亚亟亠亡亢亣交亥亦产亨亩亪享京亭亮亯亰亱亲亳亴亵
亶:亶亷亸亹人亻亼亽亾亿什仁仂仃仄仅仆仇仈仉今介仌仍从
........
齠:龆龄齢出齤齥龈啮齨齩龊齫龉齭齮齯齰齱龋齳齴齵腭龌齸
齹:齹齺齻齼齽齾齿龀龁龂龃龄龅龆龇龈龉龊龋龌龙龎龏庞龑
龒:龒龓龚龛龖龗龘龙龚龛龟龝龞龟龠龡龢龣龤龥
本人不知道有没有现成的程序能做这样的查询。下面是我用的办法。
汉字的编码是按部首+笔划+笔顺的顺序排列的。如果你手头有这样一张表,查起来可能方便些。没有这张表的话,用任何你熟悉的语言编个程序,生成这样一张表也并非困难(如果不会可以单独提问)。对于汉字来说,编码范围是19968-40869。
如果手头没有这样一张表,又不想编程,使用计算机从编码查汉字还有一种简单方法. 比如想知道"㊚㊛"是什么, 使用任何一种文本编辑器把它们输入进去保存成htm文件, 然后直接用IE打开这个htm文件就明白了.(注意每个编码后面有一个分号)
网上见过Unicode Kanji Code Table(http://www.dcs.shef.ac.uk/~wei/cjk.htm),但它用的十六进制编码。
汉字的unicode编码
在Java中采用unicode字陪脊符集,每个字符占据2个字节,unicode字符集最多可包含65 535个字符。
65 535是一个很大的数字,英文字母、俄文字母、希腊字母、日文字母、阿拉伯数字、标点符号以及汉字等,都是unicode字符集中的字符。
具体而言,汉字对应的unicode范围为\u4E00~\u9FA5,9FA5-4E00=30101,即数森有30101个汉字,我们常用的汉芦毕渗字有7000个。
ASCII码与汉字编码
最全的ASCII码对照表
Unicdoe【真正的完整码表】对照表(一)
Unicdoe【真正的完整码表】对照表(二)汉字Unicode表
汉字编码之GBK编码(附完整码表)
ASCII,Unicode和UTF-8搞清楚
方向键(←): VK_LEFT (37)
方向键(↑): VK_UP (38)
方向键(→): VK_RIGHT (39)
方向键(↓): VK_DOWN (40)
F1键: VK_F1 (112)
F2键: VK_F2 (113)
F3键: VK_F3 (114)
F4键: VK_F4 (115)
F5键: VK_F5 (116)
F6键: VK_F6 (117)
F7键: VK_F7 (118)
F8键: VK_F8 (119)
F9键: VK_F9 (120)
F10键: VK_F10 (121)
F11键: VK_F11 (122)
F12键: VK_F12 (123)
Num Lock键: VK_NUMLOCK (144)
小键盘0: VK_NUMPAD0 (96)
小键盘1: VK_NUMPAD0 (97)
小键盘2: VK_NUMPAD0 (98)
小键盘3: VK_NUMPAD0 (99)
小键盘4: VK_NUMPAD0 (100)
小键盘5: VK_NUMPAD0 (101)
小键盘6: VK_NUMPAD0 (102)
小键盘7: VK_NUMPAD0 (103)
小键盘8: VK_NUMPAD0 (104)
小键盘9: VK_NUMPAD0 (105)
小键盘.: VK_DECIMAL (110)
小键盘*: VK_MULTIPLY (106)
小键盘+: VK_MULTIPLY (107)
小键盘-: VK_SUBTRACT (109)
小键盘/: VK_DIVIDE (111)
Pause Break键: VK_PAUSE (19)
Scroll Lock键: VK_SCROLL (145)
Unicode字符列表的Unicode 编码表
复制到EXCEL然后自动填充
=(ROW()-1)*20+COLUMN()&" "&UNICHAR((ROW()-1)*20+COLUMN())
Unicode 编码表 BMP SMP SIP SSP 0000—0FFF 8000—8FFF 10000—10FFF 20000—20FFF 28000—28FFF E0000—E0FFF 1000—1FFF 9000—9FFF 21000—21FFF 29000—29FFF 2000—2FFF A000—AFFF 12000—12FFF 22000—22FFF 2A000—2AFFF 3000—3FFF B000—BFFF 23000—23FFF 4000—4FFF C000—CFFF 24000—24FFF 2F000—2FFFF 5000—5FFF D000—DFFF 1D000—1DFFF 25000—25FFF 6000—6FFF E000—EFFF 26000—26FFF 7000—7FFF F000—FFFF 1F000—1FFFF 27000—27FFF注:除非有特别指明,否则以下符号皆属“半角”而非“全角”。
unicode不能对汉字进行编码吗
能。Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。
在Unicode中:汉字“字”对应的数字是23383(十进制),十六进制表示为5B57。在Unicode中,我们有很多方式将数字23383表示成程序中的数据,包括:UTF-8、UTF-16、UTF-32。UTF是“Unicode Transformation Format”的缩写,可以翻译成Unicode字符集转换格式,即怎样将Unicode定义的数字转换成程序数据。
扩展资料:
Unicode编码将世界上所有的符号都纳入其中,无论是英文、日文、还是中文等,大家都使用这个编码表,不会出现编码不匹配现象。每个符号对应一个唯一的编码,乱码问题不存在。
Unicode当然是一个很大的集合,现在的规模可以容纳100多万个符号。每个符号的编码都不一样,比如,U+0639表示阿拉伯字母Ain,U+0041表示英语的大写字母A,“汉”这个字的Unicode编码是U+6C49。
Unicode固然统一了编码方式,但是它的效率不高,比如UCS-4(Unicode的标准之一)规定用4个字节存储一个符号,那么每个英文字母前都必然有三个字节是0,这对存储和传输来说都很耗资源。
参考资料:
百度百科-Unicode
怎样用win7系统自带的字符映射表查找我想要的汉字对应的Unicode码
http://www.guabu.com/zhuanma/你可以试试这个网址,有你想要的转换器.或者你下载一个汉字转unicode工具.
把下面的“高级查看”打上 勾,在“分组依据”里选“按拼音分类的简体中文”,就可以找到“好”了。你试试
依次单击开始——所有程序——附件——命令提示符,打开命令提示符,输入chcp,按回车键执行,会查询当前系统的活动代码页,它指明了当前系统使用的编码,如下图所示:
936 代表GBK 扩展的EUC-CN 编码( GB 2312-80编码,包含 6763 个汉字)到Unicode (GB13000.1-93)中定义的20902个汉字,即中国大陆使用的是简体中文zh_CN.。其它常见的还有:
932 :Shift-JIS包含日本语 charset JIS X 0201 (每个字符一个字节) 和 JIS X 0208 (每个字符两个字节),所以 JIS X 0201平假名包含一个字节半宽的字符,其剩馀的60个字节被用做7076个汉字以及648个其他全宽字符的首字节.同EUC-JP编码区别的是, Shift-JIS没有包含JIS X 202中定义的5802个汉字.
949 :UnifiedHangul (UHC) 是韩文 EUC-KR 编码(KS C 5601-1992 编码,包括2350 韩文音节和 4888 个汉字a)的超集,包含 8822个附加的韩文音节( 在C1中 )
950:是代替EUC-TW (CNS 11643-1992)的 Big5 编码(13072 繁体 zh_TW 中文字) 繁体中文,这些定义都在Ken Lunde的 CJK.INF中或者 Unicode 编码表中找到.
java 中常用汉字 的unicode 码范围是多少到多少
Unicode CJK 的范围分布在多个区段中,带有 CJK 的区块名中都拥有汉字。但最常用的范围是 U+4E00~U+9FA5,即名为:CJK Unified Ideographs 的区块,但 U+9FA6~U+9FFF 之间的字符还属于空码,暂时还未定义,但不能保证以后不会被定义。
在正则表达式中使用 [\u4e00-\u9fa5] 这种方式属于写死的代码,并不能根据平台所提供的字符集范围不同而改变,不过对于要求不是很高的话的是可以了。如果对字符集的要求很高,可以采用下面的这种 Unicode 块的方式:
String regex = "[\\p{InCJK Unified Ideographs}&&\\P{Cn}]]";
在当前的 JDK 版中与 [\u4e00-\u9fa5] 的意义一致。但这样可以匹配 Java 平台所支持Unicode 块名为 CJK Unified Ideogrpahs 中已定义的字符,这种方式就属于“活”代码今后的 JDK 版本升级了,定义到了 \u9fa6 的字符,同样能够满足匹配。
java 中常用汉字 的unicode 码范围是20~25
常用汉字 的unicode 码范围是:\u4e00-\u9fa5,下面一个例子是把中英文文档中的汉字提取出来的简单例子:
public class DrawEnglish{ private static String draw(String content) { StringBuffer english = new StringBuffer(); String regex = "[\u4e00-\u9fa5。,?”“《》:!——-、]"; Pattern pattern = Pattern.compile(regex); Matcher matcher = pattern.matcher(content); while(matcher.find()) { String temp = matcher.group(); english.append(temp); } return english.toString(); } public static void drawEnglish(String path) { FileInputStream fr; BufferedReader br; FileWriter fw; BufferedWriter bw = null ; try { fr = new FileInputStream(path); br = new BufferedReader(new InputStreamReader(fr,"gb2312")); fw = new FileWriter("new1.txt"); bw = new BufferedWriter(fw); String str = null; StringBuffer sb = new StringBuffer(); while((str = br.readLine()) != null) { sb.append(str + "\n"); } String temp = draw(sb.toString()); bw.write(temp); } catch (FileNotFoundException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } finally { try { if(bw != null) bw.close(); } catch (IOException e) { e.printStackTrace(); } } } public static void main(String[] args) { drawEnglish("draw1.txt"); }}