中文与unicode的相互转换,如何将unicode字符转换成汉字?
中文与unicode的相互转换,如何将unicode字符转换成汉字?详细介绍
本文目录一览: unicode如何转汉字
百度搜索“unicode在线工具”,我们以“武汉加油,中国加油”为例,unicode结果如下:武汉加油,中国加油新建文件,编辑内容如下:function u2c($str){ return preg_replace_callback("#\u([0-9a-f]{4})#i", function ($r) {return iconv('UCS-2BE', 'UTF-8', pack('H4', $r[1]));}, $str);}echo u2c('u53eau80fdu4e2du6587u624du61c2u6211');更多相关知识,请访问PHP中文网!
python 字符串格式的unicode编码转中文
?python对于Unicode编码可以使用decode进行转换成中文:
>>> str = b'\xe8\xb4\xb9\xe8\x84\x91\xe5\xad\x90'
>>> str.decode('utf-8')
'费脑子'
如果是字符串类型的Unicode编码没办法直接用decode进行转换:
>>>?str ="\\xe8\\xb4\\xb9\\xe8\\x84\\x91\\xe5\\xad\\x90"
>>>?str.decode('utf-8')
Traceback (most recent call last):
? File "
", line 1, in
AttributeError: 'str' object has no attribute 'decode'
处理方式:
>>>?str = eval("b" + "\"" + str + "\"")
>>>?str.decode('utf-8')
'费脑子'
如何将unicode字符转换成汉字?
如果是VB的话可以用chrw()实现unicode字符转换成汉字,用ascw()可以实现汉字转换成unicode码。
那如果是好几个字符(字符串)呢?该怎么转换?
回答:是的。不过可以像下面这样来操作:
Dim
unicode()
st
=
"字符串"
L
=
Len(st)
ReDim
unicode(L)
For
i
=
0
To
L
-
1
unicode(i)
=
AscW(Mid(st,
i
+
1,
1))
Next
For
i
=
0
To
L
-
1
Print
unicode(i)
Next这样字符串的所有字符都转换成unicode码并全部放到了数组unicode中了
怎么把汉字转换成unicode编码
unicode编码不需要转换成汉字,因为unicode就是和字符关联的终极编码。
windows中只有unicode码可以和字符直接关联,也就是使用国际标准的unicode字符集。
中文windowsXp默认的内码是gbk(装过gb18030补丁的话也就变成gb18030),日文系统就是JIS,不同语言版本的windows都有不同的默认内码,这是每个国家的标准化管理局规定的。
然后就是页码表的概念,所谓页码表就是把一个用系统默认编码(比如gbk,gb2312)表示的字符映射到对应unicode编码,而每个unicode编码对应着唯一确定的字符。这样就完成了地域性编码到国际标准码再到字符的对应关系。
在控制面板->区域和语言选择->高级,里面可以看到window提供的所有页码表。
汉字转换Unicode的工作原理是什么?
工作原理是根据编码表进行对应字符的转换。
你的问题应该是。
GB2312,GBK,GB18030字符表的内码,与unicode的内码转化问题。
UTF是unicode是内码的存储实现方式,他们之间的转换,存在一个转化的算法。
GB2312,GBK,GB18030的内码与unicode的转换不存在一个这样的算法,只能逐个对照字符表。
近期看的资料,资料太多,来源记不清楚了。
GB2312,GBK,的汉字和全角符号都是用两个自己字节的编码来存储的。也叫双字节编码方案。
GB18030是多字节字符集,它的字符可以用一个、两个或四个字节表示。
UTF-8,汉字可以两个字节,三个字节,四个字节,的编码来存储。
参考资料
GB18030编码研究以及GBK、GB18030与Unicode的映射
http://blog.csdn.net/fmddlmyy/article/details/2288312
怎么将汉字转换成unicode
unicode编码不需要转换成汉字,因为unicode就是和字符关联的终极编码。windows中只有unicode码可以和字符直接关联,也就是使用国际标准的unicode字符集。中文windowsXp默认的内码是gbk(装过gb18030补丁的话也就变成gb18030),日文系统就是JIS,不同语言版本的windows都有不同的默认内码,这是每个国家的标准化管理局规定的。然后就是页码表的概念,所谓页码表就是把一个用系统默认编码(比如gbk,gb2312)表示的字符映射到对应unicode编码,而每个unicode编码对应着唯一确定的字符。这样就完成了地域性编码到国际标准码再到字符的对应关系。在控制面板->区域和语言选择->高级,里面可以看到window提供的所有页码表。
请问如何用C语言实现汉字,和Unicode编码的转换?
字转换:wctomb、mbtowc,wc 指 Wide charactor,mb 指 Multi-byte。\r\n字符串转换:wcstombs、mbstowcs,wcs 和 mbs 的 s 指 string。\r\n\r\n这 4 个函数是 C 标准函数库函数中的。如果只是在 Windows 平台下编程,可直接调用 Windows API 函数 WideCharToMultiByte 和 MultiByteToWideChar 实现。但是如果调用标准库函数的话,在 Linux 下也是有效的。调用标准库函数,首先必须包含 locale.h 并调用 setlocale(LC_ALL, "") 后才能正确转换。Windows 下的 Multi-byte 是 ANSI 编码的,Wide charactor 是 Unicode (UTF-16) 编码,而 Linux 下的 Multi-byte 是 UTF-8 编码的,Wide charactor 是 Unicode (UTF-32) 编码。\r\n\r\n#include \r\n#include \r\n#include \r\n\r\nint main(void)\r\n{\r\n char str[12];\r\n wchar_t wstr[] = { 0x52B3, 0x788C, 0 };\r\n setlocale(LC_ALL, "");\r\n wcstombs(str, wstr, sizeof(str)/sizeof(char));\r\n printf("%s", str);\r\n return 0;\r\n}
如何把中文转换为UNICODE
可以使用Notepad++
loads取出后是unicode?我怀疑你用的是python3
通常python2时所有IO读写都是byte方式。也就是编码后的。java也是这样子。只有python3还有某些特定的模块才会自动将byte重新转换成unicode
在python2里的确可以使用s.decode('gbk','ignore')之类的变成unicode。不过在python3里应该是这样子, s.encode('gbk','ignore')这样就变成了byte
如果你喜欢 utf-8,可以s.encode(‘utf-8','ignore')和s.decode(‘utf-8','ignore')
多试试就可以了。 console和文件只支持编码过的字符串。
unicode编码怎么转换成中文显示
unicode编码不需要转换成汉字,因为unicode就是和字符关联的终极编码。 windows中只有unicode码可以和字符直接关联,也就是使用国际标准的unicode字符集。 中文windowsXp默认的内码是gbk(装过gb18030补丁的话也就变成gb18030),日文系统就是JIS..