中文转unicode,如何把中文转换为UNICODE

中文转unicode,如何把中文转换为UNICODE详细介绍

本文目录一览： c语言怎么把UTF-8转换成Unicode

下面程序给出的是UTF-8转成Unicode（UCS-2）的函数：
#include

#include

int utf8_to_unicode(char* pInput, char** ppOutput)

{

int outputSize = 0; //记录转换后的Unicode字符串的字节数

*ppOutput = (char *)malloc(strlen(pInput) * 2); //为输出字符串分配足够大的内存空

memset(*ppOutput, 0, strlen(pInput) * 2);

char *tmp = *ppOutput; //临时变量，用于遍历输出字符串

while (*pInput)

{

if (*pInput > 0x00 && *pInput <= 0x7F) //处理单字节UTF8字符（英文字母、数字）

{

*tmp = *pInput;

tmp++;

*tmp = 0; //小端法表示，在高地址填补0

}

else if (((*pInput) & 0xE0) == 0xC0) //处理双字节UTF8字符

{

char high = *pInput;

pInput++;

char low = *pInput;

if ((low & 0xC0) != 0x80) //检查是否为合法的UTF8字符表示

{

return -1; //如果不是则报错

}

*tmp = (high << 6) + (low & 0x3F);

tmp++；

*tmp = (high >> 2) & 0x07;

}

else if (((*pInput) & 0xF0) == 0xE0) //处理三字节UTF8字符

{

char high = *pInput;

pInput++;

char middle = *pInput;

pInput++;

char low = *pInput;

if (((middle & 0xC0) != 0x80) || ((low & 0xC0) != 0x80))

{

return -1;

}

*tmp = (middle << 6) + (low & 0x7F);

tmp++;

*tmp = (high << 4) + ((middle >> 2) & 0x0F);

}

else //对于其他字节数的UTF8字符不进行处理

{

return -1;

}

pInput ++;

tmp ++;

outputSize += 2;

}

*tmp = 0;

tmp++;

*tmp = 0;

return outputSize;

}

扩展资料

UTF-8：互联网的普及，强烈要求出现一种统一的编码方式。 UTF-8就是在互联网上使用最广的一种unicode的实现方式。其他实现方式还包括UTF-16和UTF-32，不过在互联网上基本不用。重复一遍，这里的关系是，UTF-8是Unicode的实现方式之一。

UTF-8最大的一个特点，就是它是一种变长的编码方式。它可以使用1~6个字节表示一个符号，根据不同的符号而变化字节长度。

UTF-8的编码规则：

UTF-8的编码规则很简单，只有两条：

1、对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。

2、对于n字节的符号(n>1)，第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。

VB中如何将汉字转换为Unicode代码？

ASC(字符) 返回ascii码
给你一个函数
它会返回传入的字符串所有ASCII码
Function AscStr(ByVal txt As String) As String
Dim ascii As String
For i = 1 To Len(txt)
ascii = ascii & Asc(Mid$(txt, i, 1)) & "$"
Next
AscStr = ascii
End Function
Private Sub Form_Load()
MsgBox AscStr("我们是")
End Sub
如果你要对返回的结果进行处理
请用split函数
例如
Function AscStr(ByVal txt As String) As String
Dim ascii As String
For i = 1 To Len(txt)
ascii = ascii & Asc(Mid$(txt, i, 1)) & "$"
Next
AscStr = ascii
End Function
Private Sub Form_Load()
Dim a
a = Split(AscStr("这个是AscStr函数测试用例"), "$")
For i = 0 To UBound(a)
If a(i) <> "" Then
MsgBox Chr$(a(i)) & "(" & a(i) & ")"
End If
Next
End Sub
傲游应该是IE的核心吧应该不是傲游的功能
AscW(字符) 返回ascii码
Option Explicit
Dim sTemp As String
Dim yTemp() As Byte
Private Sub Form_Load()
Text1 = "汉字转换为"
sTemp = Text1
yTemp = StrConv(sTemp, vbFromUnicode)
sTemp = StrConv(yTemp, vbUnicode)
Text2 = sTemp
End Sub
把ascii码转化成汉字
Chr 函数
返回 String，其中包含有与指定的字符代码相关的字符
Private Sub Command1_Click()
Text1 = Chr(-17734) '显示汉
End Sub
AscW(字符)
回答补充：用Chr()函数把ascii码转化成汉字
用ChrW()函数把Unicode码转化成汉字
（还有之前说的
AscW()函数返回值为负的时候，应加上65536 才得到汉字实际的Unicode码）
----------------------------------------------------------------------------------------
求汉字的Unicode代码用AscW()函数
AscW("汉")=27721
求汉字的ASCII码用Asc()函数返回一个负数值
如Asc("汉")=-17734
PS:PS:改进了下可转化多个汉字
在窗体上建三个text控件，
功能：text1中按个输入汉字后 text2中按个显示汉字的Unicode代码 text3中显示汉字的ASCII码
原代码如下：
Private Function change(s As String) As String
change = AscW(s)
If change < 0 Then
change = change + 65536
End If
End Function
Private Function change2(s As String) As String
change2 = Asc(s)
End Function
Private Sub Text1_Change()
For i = 1 To Len(Text1.Text)
s = s & change(Mid(Text1.Text, i, 1)) & " "
Next
Text2.Text = s
s = ""
For i = 1 To Len(Text1.Text)
s = s & change2(Mid(Text1.Text, i, 1)) & " "
Next
Text3.Text = s
End Sub
补充：a 的ASCII码是97
Asc函数返回的是字符串首字母的ASCII码（如字符串只一个字符，即返回该字符的ASCII码）
Asc 函数

阅读更多 >>> unicode编码表白,unicode编码对应表

返回一个 Integer，代表字符串中首字母的字符代码。
语法
Asc(string)
必要的 string 参数可以是任何有效的字符串表达式。如果 string 中没有包含任何字符，则会产生运行时错误。
PSPS: VB里目前我还没找到能将之转换成把汉字转换成西欧文编码的函数不敢断言没有（有估计也很难找我搜了好多关键字都没找到）
还有不只是遨游浏览器，一般的IE浏览器也有此功能
查看——编码——其他——最下面那小三角号——西欧(ISO)

groovy jsonOutput将中文转为Unicode的问题

使用StringEscapeUtils将Unicode转回中文即可

如何将中文转为unicode和GB2312

在记事本中输入的中文保存为Unicode格式就是Unicode字符集的编码;保存为ANSI格式便是GB2312字符集的编码。

怎么把汉字转换成unicode编码

unicode编码不需要转换成汉字，因为unicode就是和字符关联的终极编码。
windows中只有unicode码可以和字符直接关联，也就是使用国际标准的unicode字符集。
中文windowsXp默认的内码是gbk(装过gb18030补丁的话也就变成gb18030)，日文系统就是JIS，不同语言版本的windows都有不同的默认内码，这是每个国家的标准化管理局规定的。
然后就是页码表的概念，所谓页码表就是把一个用系统默认编码（比如gbk，gb2312）表示的字符映射到对应unicode编码，而每个unicode编码对应着唯一确定的字符。这样就完成了地域性编码到国际标准码再到字符的对应关系。
在控制面板->区域和语言选择->高级，里面可以看到window提供的所有页码表。

如何将XML中的中文字符转为unicode

普通字符串可以用多种方式编码成Unicode字符串，具体要看你究竟选择了哪种编码：
unicodestring = u"Hello world"
# 将Unicode转化为普通Python字符串："encode"
utf8string = unicodestring.encode("utf-8")
asciistring = unicodestring.encode("ascii")
isostring = unicodestring.encode("ISO-8859-1")
utf16string = unicodestring.encode("utf-16")
# 将普通Python字符串转化为Unicode："decode"
plainstring1 = unicode(utf8string, "utf-8")
plainstring2 = unicode(asciistring, "ascii")
plainstring3 = unicode(isostring, "ISO-8859-1")
plainstring4 = unicode(utf16string, "utf-16")
assert plainstring1 == plainstring2 == plainstring3 == plainstring4

怎么将汉字转换成unicode

unicode编码不需要转换成汉字，因为unicode就是和字符关联的终极编码。windows中只有unicode码可以和字符直接关联，也就是使用国际标准的unicode字符集。中文windowsXp默认的内码是gbk(装过gb18030补丁的话也就变成gb18030)，日文系统就是JIS，不同语言版本的windows都有不同的默认内码，这是每个国家的标准化管理局规定的。然后就是页码表的概念，所谓页码表就是把一个用系统默认编码（比如gbk，gb2312）表示的字符映射到对应unicode编码，而每个unicode编码对应着唯一确定的字符。这样就完成了地域性编码到国际标准码再到字符的对应关系。在控制面板->区域和语言选择->高级，里面可以看到window提供的所有页码表。

请问如何用C语言实现汉字，和Unicode编码的转换？

字转换：wctomb、mbtowc，wc 指 Wide charactor，mb 指 Multi-byte。\r\n字符串转换：wcstombs、mbstowcs，wcs 和 mbs 的 s 指 string。\r\n\r\n这 4 个函数是 C 标准函数库函数中的。如果只是在 Windows 平台下编程，可直接调用 Windows API 函数 WideCharToMultiByte 和 MultiByteToWideChar 实现。但是如果调用标准库函数的话，在 Linux 下也是有效的。调用标准库函数，首先必须包含 locale.h 并调用 setlocale(LC_ALL, "") 后才能正确转换。Windows 下的 Multi-byte 是 ANSI 编码的，Wide charactor 是 Unicode (UTF-16) 编码，而 Linux 下的 Multi-byte 是 UTF-8 编码的，Wide charactor 是 Unicode (UTF-32) 编码。\r\n\r\n#include \r\n#include \r\n#include \r\n\r\nint main(void)\r\n{\r\n char str[12];\r\n wchar_t wstr[] = { 0x52B3, 0x788C, 0 };\r\n setlocale(LC_ALL, "");\r\n wcstombs(str, wstr, sizeof(str)/sizeof(char));\r\n printf("%s", str);\r\n return 0;\r\n}

如何把中文转换为UNICODE

可以使用Notepad++
loads取出后是unicode?我怀疑你用的是python3
通常python2时所有IO读写都是byte方式。也就是编码后的。java也是这样子。只有python3还有某些特定的模块才会自动将byte重新转换成unicode
在python2里的确可以使用s.decode('gbk','ignore')之类的变成unicode。不过在python3里应该是这样子, s.encode('gbk','ignore')这样就变成了byte
如果你喜欢 utf-8，可以s.encode(‘utf-8','ignore')和s.decode(‘utf-8','ignore')
多试试就可以了。 console和文件只支持编码过的字符串。

← 上一篇: 安卓开发学习网站,怎样做简单安卓APP软件下一篇: switch语句是什么语句,C语言中switch语句什么意思→

中文转unicode,如何把中文转换为UNICODE

中文转unicode,如何把中文转换为UNICODE详细介绍

相关文章：

文章数据信息: