百度
360搜索
搜狗搜索

中文转unicode,如何把中文转换为UNICODE详细介绍

本文目录一览: c语言怎么把UTF-8转换成Unicode

下面程序给出的是UTF-8转成Unicode(UCS-2)的函数:
#include

#include

#include

#include

int utf8_to_unicode(char* pInput, char** ppOutput)

{

int outputSize = 0; //记录转换后的Unicode字符串的字节数

*ppOutput = (char *)malloc(strlen(pInput) * 2); //为输出字符串分配足够大的内存空

memset(*ppOutput, 0, strlen(pInput) * 2);

char *tmp = *ppOutput; //临时变量,用于遍历输出字符串

while (*pInput)

{

if (*pInput > 0x00 && *pInput <= 0x7F) //处理单字节UTF8字符(英文字母、数字)

{

*tmp = *pInput;

tmp++;

*tmp = 0; //小端法表示,在高地址填补0

}

else if (((*pInput) & 0xE0) == 0xC0) //处理双字节UTF8字符

{

char high = *pInput;

pInput++;

char low = *pInput;

if ((low & 0xC0) != 0x80) //检查是否为合法的UTF8字符表示

{

return -1; //如果不是则报错

}

*tmp = (high << 6) + (low & 0x3F);

tmp++;

*tmp = (high >> 2) & 0x07;

}

else if (((*pInput) & 0xF0) == 0xE0) //处理三字节UTF8字符

{

char high = *pInput;

pInput++;

char middle = *pInput;

pInput++;

char low = *pInput;

if (((middle & 0xC0) != 0x80) || ((low & 0xC0) != 0x80))

{

return -1;

}

*tmp = (middle << 6) + (low & 0x7F);

tmp++;

*tmp = (high << 4) + ((middle >> 2) & 0x0F);

}

else //对于其他字节数的UTF8字符不进行处理

{

return -1;

}

pInput ++;

tmp ++;

outputSize += 2;

}

*tmp = 0;

tmp++;

*tmp = 0;

return outputSize;

}

扩展资料

UTF-8:互联网的普及, 强烈要求出现一种统一的编码方式。 UTF-8就是在互联网上使用最广的一种unicode的实现方式。其他实现方式还包括UTF-16和UTF-32,不过在互联网上基本不用。重复一遍,这里的关系是,UTF-8是Unicode的实现方式之一。

UTF-8最大的一个特点,就是它是一种变长的编码方式。它可以使用1~6个字节表示一个符号,根据不同的符号而变化字节长度。

UTF-8的编码规则:

UTF-8的编码规则很简单,只有两条:

1、对于单字节的符号,字节的第一位设为0,后面7位为这个符号的unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。

2、对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的unicode码。

VB中如何将汉字转换为Unicode代码?

ASC(字符) 返回ascii码
给你一个函数
它会返回传入的字符串所有ASCII码
Function AscStr(ByVal txt As String) As String
Dim ascii As String
For i = 1 To Len(txt)
ascii = ascii & Asc(Mid$(txt, i, 1)) & "$"
Next
AscStr = ascii
End Function
Private Sub Form_Load()
MsgBox AscStr("我们是")
End Sub
如果你要对返回的结果进行处理
请用split函数
例如
Function AscStr(ByVal txt As String) As String
Dim ascii As String
For i = 1 To Len(txt)
ascii = ascii & Asc(Mid$(txt, i, 1)) & "$"
Next
AscStr = ascii
End Function
Private Sub Form_Load()
Dim a
a = Split(AscStr("这个是AscStr函数测试用例"), "$")
For i = 0 To UBound(a)
If a(i) <> "" Then
MsgBox Chr$(a(i)) & "(" & a(i) & ")"
End If
Next
End Sub
傲游应该是IE的核心吧 应该不是傲游的功能
AscW(字符) 返回ascii码
Option Explicit
Dim sTemp As String
Dim yTemp() As Byte
Private Sub Form_Load()
Text1 = "汉字转换为"
sTemp = Text1
yTemp = StrConv(sTemp, vbFromUnicode)
sTemp = StrConv(yTemp, vbUnicode)
Text2 = sTemp
End Sub
把ascii码转化成汉字
Chr 函数
返回 String,其中包含有与指定的字符代码相关的字符
Private Sub Command1_Click()
Text1 = Chr(-17734) '显示汉
End Sub
AscW(字符)
回答补充: 用Chr()函数把ascii码转化成汉字
用ChrW()函数把Unicode码转化成汉字
(还有之前说的
AscW()函数返回值为负的时候,应加上65536 才得到汉字实际的Unicode码)
----------------------------------------------------------------------------------------
求汉字的Unicode代码 用AscW()函数
AscW("汉")=27721
求汉字的ASCII码 用Asc()函数 返回一个负数值
如Asc("汉")=-17734
PS:PS:改进了下 可转化多个汉字
在窗体上建三个text控件,
功能:text1中按个输入汉字后 text2中按个显示汉字的Unicode代码 text3中显示汉字的ASCII码
原代码如下:
Private Function change(s As String) As String
change = AscW(s)
If change < 0 Then
change = change + 65536
End If
End Function
Private Function change2(s As String) As String
change2 = Asc(s)
End Function
Private Sub Text1_Change()
For i = 1 To Len(Text1.Text)
s = s & change(Mid(Text1.Text, i, 1)) & " "
Next
Text2.Text = s
s = ""
For i = 1 To Len(Text1.Text)
s = s & change2(Mid(Text1.Text, i, 1)) & " "
Next
Text3.Text = s
End Sub
补充:a 的ASCII码是97
Asc函数返回的是字符串首字母的ASCII码(如字符串只一个字符,即返回该字符的ASCII码)
Asc 函数

阅读更多 >>>  sql建立一个学生表,数据库中创建一个学生表

返回一个 Integer,代表字符串中首字母的字符代码。
语法
Asc(string)
必要的 string 参数可以是任何有效的字符串表达式。如果 string 中没有包含任何字符,则会产生运行时错误。
PSPS: VB里 目前我还没找到能将之转换成 把汉字转换成西欧文编码的函数 不敢断言没有(有估计也很难找 我搜了好多关键字都没找到)
还有 不只是遨游浏览器,一般的IE浏览器 也有此功能
查看——编码——其他——最下面那小三角号——西欧(ISO)

groovy jsonOutput将中文转为Unicode的问题

使用StringEscapeUtils将Unicode转回中文即可

如何将中文转为unicode和GB2312

在记事本中输入的中文保存为Unicode格式就是Unicode字符集的编码;保存为ANSI格式便是GB2312字符集的编码。

怎么把汉字转换成unicode编码

unicode编码不需要转换成汉字,因为unicode就是和字符关联的终极编码。
windows中只有unicode码可以和字符直接关联,也就是使用国际标准的unicode字符集。
中文windowsXp默认的内码是gbk(装过gb18030补丁的话也就变成gb18030),日文系统就是JIS,不同语言版本的windows都有不同的默认内码,这是每个国家的标准化管理局规定的。
然后就是页码表的概念,所谓页码表就是把一个用系统默认编码(比如gbk,gb2312)表示的字符映射到对应unicode编码,而每个unicode编码对应着唯一确定的字符。这样就完成了地域性编码到国际标准码再到字符的对应关系。
在控制面板->区域和语言选择->高级,里面可以看到window提供的所有页码表。

如何将XML中的中文字符转为unicode

普通字符串可以用多种方式编码成Unicode字符串,具体要看你究竟选择了哪种编码:
unicodestring = u"Hello world"
# 将Unicode转化为普通Python字符串:"encode"
utf8string = unicodestring.encode("utf-8")
asciistring = unicodestring.encode("ascii")
isostring = unicodestring.encode("ISO-8859-1")
utf16string = unicodestring.encode("utf-16")
# 将普通Python字符串转化为Unicode:"decode"
plainstring1 = unicode(utf8string, "utf-8")
plainstring2 = unicode(asciistring, "ascii")
plainstring3 = unicode(isostring, "ISO-8859-1")
plainstring4 = unicode(utf16string, "utf-16")
assert plainstring1 == plainstring2 == plainstring3 == plainstring4

怎么将汉字转换成unicode

unicode编码不需要转换成汉字,因为unicode就是和字符关联的终极编码。windows中只有unicode码可以和字符直接关联,也就是使用国际标准的unicode字符集。中文windowsXp默认的内码是gbk(装过gb18030补丁的话也就变成gb18030),日文系统就是JIS,不同语言版本的windows都有不同的默认内码,这是每个国家的标准化管理局规定的。然后就是页码表的概念,所谓页码表就是把一个用系统默认编码(比如gbk,gb2312)表示的字符映射到对应unicode编码,而每个unicode编码对应着唯一确定的字符。这样就完成了地域性编码到国际标准码再到字符的对应关系。在控制面板->区域和语言选择->高级,里面可以看到window提供的所有页码表。

请问如何用C语言实现汉字,和Unicode编码的转换?

字转换:wctomb、mbtowc,wc 指 Wide charactor,mb 指 Multi-byte。\r\n字符串转换:wcstombs、mbstowcs,wcs 和 mbs 的 s 指 string。\r\n\r\n这 4 个函数是 C 标准函数库函数中的。如果只是在 Windows 平台下编程,可直接调用 Windows API 函数 WideCharToMultiByte 和 MultiByteToWideChar 实现。但是如果调用标准库函数的话,在 Linux 下也是有效的。调用标准库函数,首先必须包含 locale.h 并调用 setlocale(LC_ALL, "") 后才能正确转换。Windows 下的 Multi-byte 是 ANSI 编码的,Wide charactor 是 Unicode (UTF-16) 编码,而 Linux 下的 Multi-byte 是 UTF-8 编码的,Wide charactor 是 Unicode (UTF-32) 编码。\r\n\r\n#include \r\n#include \r\n#include \r\n\r\nint main(void)\r\n{\r\n char str[12];\r\n wchar_t wstr[] = { 0x52B3, 0x788C, 0 };\r\n setlocale(LC_ALL, "");\r\n wcstombs(str, wstr, sizeof(str)/sizeof(char));\r\n printf("%s", str);\r\n return 0;\r\n}

如何把中文转换为UNICODE

可以使用Notepad++
loads取出后是unicode?我怀疑你用的是python3
通常python2时所有IO读写都是byte方式。也就是编码后的。java也是这样子。只有python3还有某些特定的模块才会自动将byte重新转换成unicode
在python2里的确可以使用s.decode('gbk','ignore')之类的变成unicode。不过在python3里应该是这样子, s.encode('gbk','ignore')这样就变成了byte
如果你喜欢 utf-8,可以s.encode(‘utf-8','ignore')和s.decode(‘utf-8','ignore')
多试试就可以了。 console和文件只支持编码过的字符串。

网站数据信息

"中文转unicode,如何把中文转换为UNICODE"浏览人数已经达到16次,如你需要查询该站的相关权重信息,可以点击进入"Chinaz数据" 查询。更多网站价值评估因素如:中文转unicode,如何把中文转换为UNICODE的访问速度、搜索引擎收录以及索引量、用户体验等。 要评估一个站的价值,最主要还是需要根据您自身的需求,如网站IP、PV、跳出率等!