中文编码unicode转换,怎样用C语言实现汉字和ASCII码到UNICODE码的转换？

中文编码unicode转换,怎样用C语言实现汉字和ASCII码到UNICODE码的转换？详细介绍

本文目录一览： python 字符串格式的unicode编码转中文

?python对于Unicode编码可以使用decode进行转换成中文：

>>> str = b'\xe8\xb4\xb9\xe8\x84\x91\xe5\xad\x90'

>>> str.decode('utf-8')

'费脑子'

如果是字符串类型的Unicode编码没办法直接用decode进行转换：

>>>?str ="\\xe8\\xb4\\xb9\\xe8\\x84\\x91\\xe5\\xad\\x90"

>>>?str.decode('utf-8')

Traceback (most recent call last):

? File "

", line 1, in

AttributeError: 'str' object has no attribute 'decode'

处理方式：

>>>?str = eval("b" + "\"" + str + "\"")

>>>?str.decode('utf-8')

'费脑子'

js 将 unicode编码转换中文2种方式

1、网上有工具
2、带/u 或者%u的是unicode编码结果
3、转中文方式

详细：
unescape() 函数可对通过 escape() 编码的字符串进行解码，已废弃。

编码和解码一一对应关系
escape() 编码， unescape() 解码废弃
encodeURI 编码，decodeURI 解码
encodeURIComponent 编码，decodeURIComponent 解码
用什么解码对应的文件内容

Python如何将Unicode中文字符串转换成 string字符串

Unicode字符串可以用多种方式编码为普通字符串，假设unicodestring = u"Hello world"，依照所选择的编码(encoding)，如下：
1、#将Unicode转换成普通的Python字符串:"编码(encode)"。
2、 #将普通的Python字符串转换成Unicode: "解码(decode)"。
扩展资料：
Python转换字符和字符串的原因：为了处理不适合用ASCII字符集表示的数据。
在以ASCII码为中心的语言和环境中，字节和字符被当做相同的事物。由于一个字节只能有256个值，这些环境就受限为只支持256个字符Unicode码，另一方面，有数万个字符，那意谓着每个Unicode字符占用多个字节，因此，你需要在字符和字节之间作出区别。
（1）UTF-8编码能处理任何的Unicode字符。它也是与ASCII码向后兼容的，因此一个纯粹的ASCII码文件也能被考虑为一个UTF-8文件，而且一个碰巧只使用ASCII码字符的 UTF-8文件和拥有同样字符的ASCII码文件是相同的。
这个特性使得UTF-8的向后兼容性非常好,尤其使用较旧的Unix工具时。UTF-8 无疑地是在 Unix上的占优势的编码。它主要的弱点是对东方文字是非常低效的。
（2）UTF-16编码在微软的操作系统和Java环境下受到偏爱。它对西方语言是比较低效,但对于东方语言是更有效率的。一个UTF-16 的变体有时叫作UCS-2 。
（3）ISO-8859编码系列是256个字符的ASCII码的超集。他们不能够支援所有的Unicode码字符;他们只能支援一些特别的语言或语言家族。
ISO-8859-1,也既Latin-1,包括大多数的西欧和非洲语言,但是不含阿拉伯语。ISO-8859-2,也既Latin-2,包括许多东欧的语言,像是匈牙利语和波兰语。
参考资料：
百度百科--Unicode

请问如何用C语言实现汉字，和Unicode编码的转换？

字转换：wctomb、mbtowc，wc 指 Wide charactor，mb 指 Multi-byte。\r\n字符串转换：wcstombs、mbstowcs，wcs 和 mbs 的 s 指 string。\r\n\r\n这 4 个函数是 C 标准函数库函数中的。如果只是在 Windows 平台下编程，可直接调用 Windows API 函数 WideCharToMultiByte 和 MultiByteToWideChar 实现。但是如果调用标准库函数的话，在 Linux 下也是有效的。调用标准库函数，首先必须包含 locale.h 并调用 setlocale(LC_ALL, "") 后才能正确转换。Windows 下的 Multi-byte 是 ANSI 编码的，Wide charactor 是 Unicode (UTF-16) 编码，而 Linux 下的 Multi-byte 是 UTF-8 编码的，Wide charactor 是 Unicode (UTF-32) 编码。\r\n\r\n#include \r\n#include \r\n#include \r\n\r\nint main(void)\r\n{\r\n char str[12];\r\n wchar_t wstr[] = { 0x52B3, 0x788C, 0 };\r\n setlocale(LC_ALL, "");\r\n wcstombs(str, wstr, sizeof(str)/sizeof(char));\r\n printf("%s", str);\r\n return 0;\r\n}

怎么把汉字转换成unicode编码

unicode编码不需要转换成汉字，因为unicode就是和字符关联的终极编码。
windows中只有unicode码可以和字符直接关联，也就是使用国际标准的unicode字符集。
中文windowsXp默认的内码是gbk(装过gb18030补丁的话也就变成gb18030)，日文系统就是JIS，不同语言版本的windows都有不同的默认内码，这是每个国家的标准化管理局规定的。
然后就是页码表的概念，所谓页码表就是把一个用系统默认编码（比如gbk，gb2312）表示的字符映射到对应unicode编码，而每个unicode编码对应着唯一确定的字符。这样就完成了地域性编码到国际标准码再到字符的对应关系。
在控制面板->区域和语言选择->高级，里面可以看到window提供的所有页码表。

java怎么把汉字转化成unicode编码

中文转换成Unicode编码和Unicode编码转换成中文
import java.util.Properties; public class Test { public static void main(String[] args) { String s = "简介"; String tt = gbEncoding(s); // String tt1 = "你好"; System.out.println(decodeUnicode("\\u7b80\\u4ecb")); // System.out.println(decodeUnicode(tt1)); System.out.println(HTMLDecoder.decode("中国")); String s1 = "\u7b80\u4ecb"; System.out.println(s.indexOf("\\")); } public static String gbEncoding(final String gbString) { char[] utfBytes = gbString.toCharArray(); String unicodeBytes = ""; for (int byteIndex = 0; byteIndex < utfBytes.length; byteIndex++) { String hexB = Integer.toHexString(utfBytes[byteIndex]); if (hexB.length() <= 2) { hexB = "00" + hexB; } unicodeBytes = unicodeBytes + "\\u" + hexB; } System.out.println("unicodeBytes is: " + unicodeBytes); return unicodeBytes; } public static String decodeUnicode(final String dataStr) { int start = 0; int end = 0; final StringBuffer buffer = new StringBuffer(); while (start > -1) { end = dataStr.indexOf("\\u", start + 2); String charStr = ""; if (end == -1) { charStr = dataStr.substring(start + 2, dataStr.length()); } else { charStr = dataStr.substring(start + 2, end); } char letter = (char) Integer.parseInt(charStr, 16); // 16进制parse整形字符串。 buffer.append(new Character(letter).toString()); start = end; } return buffer.toString(); } } } }}

阅读更多 >>> unicode编码格式,unicode编码的编码标准

怎样用C语言实现汉字和ASCII码到UNICODE码的转换？

汇编语言真够难
用MultiByteToWideChar和WideCharToMultiByte可以做到编码的转换。 MultiByteToWideChar是一个windows API 函数，该函数映射一个字符串到一个宽字符（unicode）的字符串。函数原型：int MultiByteToWideChar(UINT CodePage,DWORD dwFlags,LPCSTR lpMultiByteStr,int cchMultiByte,LPWSTR lpWideCharStr,int cchWideChar);参数：CodePage：指定执行转换的字符集，这个参数可以为系统已安装或有效的任何字符集所给定的值。你也可以指定其为下面的任意一值：CP_ACP：ANSI字符集；CP_MACCP：Macintosh代码页；CP_OEMCP：OEM代码页；CP_SYMBOL：符号字符集（42）；CP_THREAD_ACP：当前线程ANSI代码页；CP_UTF7：使用UTF-7转换；CP_UTF8：使用UTF-8转换。dwFlags：一组位标记用以指出是否未转换成预作或宽字符（若组合形式存在），是否使用象形文字替代控制字符，以及如何处理无效字符。你可以指定下面是标记常量的组合，含义如下：MB_PRECOMPOSED：通常使用预作字符——就是说，由一个基本字符和一个非空字符组成的字符只有一个单一的字符值。这是缺省的转换选择。不能与MB_COMPOSITE值一起使用。MB_COMPOSITE：通常使用组合字符——就是说，由一个基本字符和一个非空字符组成的字符分别有不同的字符值。不能与MB_PRECOMPOSED值一起使用。MB_ERR_INVALID_CHARS：如果函数遇到无效的输入字符，它将运行失败，且GetLastErro返回ERROR_NO_UNICODE_TRANSLATION值。MB_USEGLYPHCHARS：使用象形文字替代控制字符。组合字符由一个基础字符和一个非空字符构成，每一个都有不同的字符值。每个预作字符都有单一的字符值给基础/非空字符的组成。在字符è中，e就是基础字符，而重音符标记就是非空字符。函数的缺省动作是转换成预作的形式。如果预作的形式不存在，函数将尝试转换成组合形式。标记MB_PRECOMPOSED和MB_COMPOSITE是互斥的，而标记MB_USEGLYPHCHARS和MB_ERR_INVALID_CHARS则不管其它标记如何都可以设置。lpMultiByteStr：指向将被转换字符串的字符。cchMultiByte：指定由参数lpMultiByteStr指向的字符串中字节的个数。如果lpMultiByteStr指定的字符串以空字符终止，可以设置为-1（如果字符串不是以空字符中止，设置为-1可能失败，可能成功），此参数设置为0函数将失败。lpWideCharStr：指向接收被转换字符串的缓冲区。cchWideChar：指定由参数lpWideCharStr指向的缓冲区的宽字符个数。若此值为零，函数返回缓冲区所必需的宽字符数，在这种情况下，lpWideCharStr中的缓冲区不被使用。返回值：如果函数运行成功，并且cchWideChar不为零，返回值是由lpWideCharStr指向的缓冲区中写入的宽字符数；如果函数运行成功，并且cchWideChar为零，返回值是接收到待转换字符串的缓冲区所需求的宽字符数大小。如果函数运行失败，返回值为零。若想获得更多错误信息，请调用GetLastError函数。它可以返回下面所列错误代码：ERROR_INSUFFICIENT_BUFFER；ERROR_INVALID_FLAGS；ERROR_INVALID_PARAMETER；ERROR_NO_UNICODE_TRANSLATION。 WideCharToMultiByte，该函数映射一个unicode字符串到一个多字节字符串。函数原型：int WideCharToMultiByte(UINT CodePage, //指定执行转换的代码页DWORD dwFlags, //允许你进行额外的控制，它会影响使用了读音符号（比如重音）的字符LPCWSTR lpWideCharStr, //指定要转换为宽字节字符串的缓冲区int cchWideChar, //指定由参数lpWideCharStr指向的缓冲区的字符个数LPSTR lpMultiByteStr, //指向接收被转换字符串的缓冲区int cchMultiByte, //指定由参数lpMultiByteStr指向的缓冲区最大值LPCSTR lpDefaultChar, //遇到一个不能转换的宽字符，函数便会使用pDefaultChar参数指向的字符LPBOOL pfUsedDefaultChar //至少有一个字符不能转换为其多字节形式，函数就会把这个变量设为TRUE);参数：CodePage：指定执行转换的代码页，这个参数可以为系统已安装或有效的任何代码页所给定的值。你也可以指定其为下面的任意一值：CP_ACP：ANSI代码页；CP_MACCP：Macintosh代码页；CP_OEMCP：OEM代码页；CP_SYMBOL：符号代码页（42）；CP_THREAD_ACP：当前线程ANSI代码页；CP_UTF7：使用UTF-7转换；CP_UTF8：使用UTF-8转换返回值：如果函数运行成功，并且cchMultiByte不为零，返回值是由 lpMultiByteStr指向的缓冲区中写入的字节数；如果函数运行成功，并且cchMultiByte为零，返回值是接收到待转换字符串的缓冲区所必需的字节数。如果函数运行失败，返回值为零。若想获得更多错误信息，请调用GetLastError函数。它可以返回下面所列错误代码：ERROR_INSUFFICIENT_BJFFER；ERROR_INVALID_FLAGS；ERROR_INVALID_PARAMETER；ERROR_NO_UNICODE_TRANSLATION。注意：指针lpMultiByteStr和lpWideCharStr必须不一样。如果一样，函数将失败，GetLastError将返回ERROR_INVALID_PARAMETER的值。　Windows CE：不支持参数CodePage中的CP_UTF7和CP_UTF8的值，以及参数dwFlags中的WC_NO_BEST_FIT_CHARS值。

unicode不能对汉字进行编码吗

能。Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。
在Unicode中：汉字“字”对应的数字是23383（十进制），十六进制表示为5B57。在Unicode中，我们有很多方式将数字23383表示成程序中的数据，包括：UTF-8、UTF-16、UTF-32。UTF是“Unicode Transformation Format”的缩写，可以翻译成Unicode字符集转换格式，即怎样将Unicode定义的数字转换成程序数据。
扩展资料：
Unicode编码将世界上所有的符号都纳入其中，无论是英文、日文、还是中文等，大家都使用这个编码表，不会出现编码不匹配现象。每个符号对应一个唯一的编码，乱码问题不存在。
Unicode当然是一个很大的集合，现在的规模可以容纳100多万个符号。每个符号的编码都不一样，比如，U+0639表示阿拉伯字母Ain，U+0041表示英语的大写字母A，“汉”这个字的Unicode编码是U+6C49。
Unicode固然统一了编码方式，但是它的效率不高，比如UCS-4(Unicode的标准之一)规定用4个字节存储一个符号，那么每个英文字母前都必然有三个字节是0，这对存储和传输来说都很耗资源。
参考资料：
百度百科-Unicode

如何实现UTF-8 Unicode Ansi 汉字编码转换

请参照下面方法，把 CFile类改成 FILE*。写字符串改成写文件流。
注意，汉字在utf8中占3个字节。
// unicode to ansi
void CConvertDlg::OnBnClickedButtonUnicodeToAnsi()
{
// unicode to ansi
wchar_t* wszString = L"abcd1234你我他";
//预转换，得到所需空间的大小，这次用的函数和上面名字相反
int ansiLen = ::WideCharToMultiByte(CP_ACP, NULL, wszString, wcslen(wszString), NULL, 0, NULL, NULL);
//同上，分配空间要给'\0'留个空间
char* szAnsi = new char[ansiLen + 1];
//转换
//unicode版对应的strlen是wcslen
::WideCharToMultiByte(CP_ACP, NULL, wszString, wcslen(wszString), szAnsi, ansiLen, NULL, NULL);
//最后加上'\0'
szAnsi[ansiLen] = '\0';
//Ansi版的MessageBox API
::MessageBoxA(GetSafeHwnd(), szAnsi, szAnsi, MB_OK);
//接下来写入文本
//写文本文件，ANSI文件没有BOM
CFile cFile;
cFile.Open(_T("1.txt"), CFile::modeWrite | CFile::modeCreate);
//文件开头
cFile.SeekToBegin();
//写入内容
cFile.Write(szAnsi, ansiLen * sizeof(char));
cFile.Flush();
cFile.Close();
delete[] szAnsi;
szAnsi =NULL;
//方法2
//和上面一样有另一种方法
setlocale(LC_CTYPE, "chs");
char szStr[100];
//注意下面是大写，在ansi中，代表后面是unicode字符串
//sprintf
sprintf(szStr, "%S", wszString);
::MessageBoxA(GetSafeHwnd(), szStr, szStr, MB_OK);
}
// UTF8转UNICODE
void CConvertDlg::OnBnClickedButtonU8ToUnicode()
{
//UTF8 to Unicode
//由于中文直接复制过来会成乱码，编译器有时会报错，故采用16进制形式
char* szU8 = "abcd1234\xe4\xbd\xa0\xe6\x88\x91\xe4\xbb\x96\x00";
//预转换，得到所需空间的大小
int wcsLen = ::MultiByteToWideChar(CP_UTF8, NULL, szU8, strlen(szU8), NULL, 0);
//分配空间要给'\0'留个空间，MultiByteToWideChar不会给'\0'空间
wchar_t* wszString = new wchar_t[wcsLen + 1];
//转换
::MultiByteToWideChar(CP_UTF8, NULL, szU8, strlen(szU8), wszString, wcsLen);
//最后加上'\0'
wszString[wcsLen] = '\0';
//unicode版的MessageBox API
::MessageBoxW(GetSafeHwnd(), wszString, wszString, MB_OK);
//写文本同ansi to unicode
}

← 上一篇: 五种常见的软件架构,软件的系统架构和开发平台都有哪些？具体都有哪几种呢？下一篇: dreamweaver新手教程,Dreamweaver CS5中文版基础教程的目录→

中文编码unicode转换,怎样用C语言实现汉字和ASCII码到UNICODE码的转换？

中文编码unicode转换,怎样用C语言实现汉字和ASCII码到UNICODE码的转换？详细介绍

相关文章：

文章数据信息: