Java 核心技术5NOTE String char 代码单元 代码点 操作

第五章String详解(代码点、代码单元及操作)

String可以定义为一个不可变的库例程中的一个预定义的一个类。

不可变:是指一个String的对象是不容修改的,如:Stringg=”Hello”;想变为“Help”,只能让g引用另外一个String对象,而“Hello”会被回收,这看起来效率比较低,但是Java的字符串是可以共享的。

库类:是指Java中没有内置的字符串类型。String是库例程中的一个预定义的一个类。

一些常见的操作在java.lang.String可以找到,不一一讲解。

有关代码单元和代码点的理解:

Char:在java中是采用UTF-16编码的,也就是说,Char是代表一个字符单元。

代码单元:UTF-8中是用8个字节表示的,UTF-16中使用16个字节表示的等等。

代码点:对应各种真正字符(char不是真正的字符,是代码单元)的Unicode编码。

一个代码点可能对应一对代码单元,如辅助字符。

也正是因为以上原因,在Java中,不赞成使用Char类型,因为它并不能代表一个真正的字符,而只是代码单元,而操作中,我们往往想得到的是真正的字符,而不是代码单元char。

当然,一般我们很少遇到辅助字符(由两个代码单元组成),但还是有必要了解一下。

具体操作及区别:

Stringtest=”Hello”;

长度:test.Length();//返回代码单元的数量

test.codePointCount(0,test.Length());//0-length单元之间,返回代码点的数量

字符:

test.charAt(i);//返回第i个代码单元

Intindex=test.offByCodePoint(0,i);//返回第i个代码点的专用索引

test.codePointAt(index);//返回第i个代码点

便利字符串真正字符:

Intcp=test.codePointAt(i);

If(Character.isSupplementaryCodePoint(cp))i+=2;//判断是否是辅助字符

Elsei++;

“过去酒逢知已千杯少,现在酒逢千杯知已少”。

Java 核心技术5NOTE   String  char 代码单元  代码点  操作

相关文章:

你感兴趣的文章:

标签云: