Java内存分配工作原理

本文主要通过分析Java内存分配的栈、堆以以及常量池详细的讲解了其的工作原理。

　　一、java虚拟机内存原型

　　寄存器：我们在程序中无法控制栈：存放基本类型的数据和对象的引用，但对象本身不存放在栈中，而是存放在堆中堆：存放用new产生的数据静态域：存放在对象中用static定义的静态成员常量池：存放常量非RAM存储：硬盘等永久存储空间。

　　二、常量池(constant pool)

　　常量池指的是在编译期被确定，并被保存在已编译的。class文件中的一些数据。除了包含代码中所定义的各种基本类型(如int、long等等)和对象型(如String及数组)的常量值(final)还包含一些以文本形式出现的符号引用，比如：

　　1、类和接口的全限定名;

　　2、字段的名称和描述符;

　　3、方法和名称和描述符。

　　虚拟机必须为每个被装载的类型维护一个常量池。常量池就是该类型所用到常量的一个有序集和，包括直接常量(string,integer和floating point常量)和对其他类型，字段和方法的符号引用。对于String常量，它的值是在常量池中的。而JVM中的常量池在内存当中是以表的形式存在的，对于String类型，有一张固定长度的CONSTANT_String_info表用来存储文字字符串值，注意：该表只存储文字字符串值，不存储符号引用。说到这里，对常量池中的字符串值的存储位置应该有一个比较明了的理解了。在程序执行的时候，常量池会储存在Method Area,而不是堆中。

　　三、Java内存分配中的栈

　　栈的基本单位是帧(或栈帧)：每当一个java线程运行的时候， java虚拟机会为该线程分配一个java栈。该线程在执行某个java方法的时候，向java栈压入一个帧，这个帧用于存储参数、局部变量、操作数、中间运算结果等。当这个方法执行完的时候，帧会从栈中弹出。Java栈上的所有数据是私有的，其他线程都不能该线程的栈数据。在函数中定义的一些基本类型的变量数据和对象的引用变量都在函数的栈内存中分配。当在一段代码块定义一个变量时，Java就在栈中为这个变量分配内存空间，当该变量退出该作用域后，Java会自动释放掉为该变量所分配的内存空间，该内存空间可以立即被另作他用。

　　四、Java内存分配中的堆

　　java虚拟机中的堆用来存放由new创建的对象和数组。在堆中分配的内存，由Java虚拟机的自动的垃圾回收机制来管理堆的内存。简单的说和栈相对，堆主要是用来存放java对象的，栈主要是用来存放对象引用的…在堆中产生了一个数组或对象后，还可以在栈中定义一个特殊的变量，让栈中这个变量的取值等于数组或对象在堆内存中的首地址，栈中的这个变量就成了数组或对象的引用变量。引用变量就相当于是为数组或对象起的一个名称，以后就可以在程序中使用栈中的引用变量来访问堆中的数组或对象。引用变量就相当于是为数组或者对象起的一个名称。

　　引用变量是普通的变量，定义时在栈中分配，引用变量在程序运行到其作用域之外后被释放。而数组和对象本身在堆中分配，即使程序运行到使用new 产生数组或者对象的语句所在的代码块之外，数组和对象本身占据的内存不会被释放，数组和对象在没有引用变量指向它的时候，才变为垃圾，不能在被使用，但仍然占据内存空间不放，在随后的一个不确定的时间被垃圾回收器收走(释放掉)。这也是Java 比较占内存的原因。实际上，栈中的变量指向堆内存中的变量，这就是Java中的指针!

　　Java的堆是一个运行时数据区，类的(对象从中分配空间。这些对象通过new、newarray、anewarray和multianewarray等指令建立，它们不需要程序代码来显式的释放。堆是由垃圾回收来负责的，堆的优势是可以动态地分配内存大小，生存期也不必事先告诉编译器，因为它是在运行时动态分配内存的，Java的垃圾收集器会自动收走这些不再使用的数据。但缺点是，由于要在运行时动态分配内存，存取速度较慢。

　　栈的优势是，存取速度比堆要快，仅次于寄存器，栈数据可以共享。但缺点是，存在栈中的数据大小与生存期必须是确定的，缺乏灵活性。栈中主要存放一些基本类型的变量数据(int, short, long, byte, float, double, boolean, char)和对象句柄(引用)。

　　栈有一个很重要的特殊性，就是存在栈中的数据可以共享。假设我们同时定义：

　　int a=3; int b=3; 编译器先处理int a = 3;首先它会在栈中创建一个变量为a的引用，然后查找栈中是否有3这个值，如果没找到，就将3存放进来，然后将a指向3.接着处理int b = 3;在创建完b的引用变量后，因为在栈中已经有3这个值，便将b直接指向3.这样，就出现了a与b同时均指向3的情况。

　　这时，如果再令a=4;那么编译器会重新搜索栈中是否有4值，如果没有，则将4存放进来，并令a指向4;如果已经有了，则直接将a指向这个地址。因此a值的改变不会影响到b的值。

　　要注意这种数据的共享与两个对象的引用同时指向一个对象的这种共享是不同的，因为这种情况a的修改并不会影响到b, 它是由编译器完成的，它有利于节省空间。而一个对象引用变量修改了这个对象的内部状态，会影响到另一个对象引用变量。

其实对于我们一般理解的计算机内存，它算是CPU与计算机打交道最频繁的区域，所有数据都是先经过硬盘至内存，然后由CPU再从内存中获取数据进行处理，又将数据保存到内存，通过分页或分片技术将内存中的数据再flush至硬盘。那JVM的内存结构到底是如何呢？JVM做为一个运行在操作系统上，但又独立于os运行的平台，它的内存至少应该包括象寄存器、堆栈等区域。

JVM在运行时将数据划分为了6个区域来存储，而不仅仅是大家熟知的Heap区域，这6个区域图示如下：

JVM内存的分配结构示意图

下面将逐一介绍下各个区域所做的工作及其充当的功能。

PC Register(PC寄存器)

PC寄存器是一块很小的内存区域，主要作用是记录当前线程所执行的字节码的行号。字节码解释器工作时就是通过改变当前线程的程序计数器选取下一条字节码指令来工作的。任何分支，循环，方法调用，判断，异常处理，线程等待以及恢复线程，递归等等都是通过这个计数器来完成的。

由于Java多线程是通过交替线程轮流切换并分配处理器时间的方式来实现的，在任何一个确定的时间里，在处理器的一个内核只会执行一条线程中的指令。因此为了线程等待结束需要恢复到正确的位置执行，每条线程都会有一个独立的程序计数器来记录当前指令的行号。计数器之间相互独立互不影响，我们称这块内存为“线程私有”的内存。

如果所调用的方法为native的，则PC寄存器中不存储任何信息。

l JVM栈

JVM栈是线程私有的，每个线程创建的同时都会创建JVM栈，JVM栈中存放的为当前线程中局部基本类型的变量（java中定义的八种基本类型：boolean、char、byte、short、int、long、float、double）、部分的返回结果以及Stack Frame，非基本类型的对象在JVM栈上仅存放一个指向堆上的地址，因此Java中基本类型的变量是值传递，而非基本类型的变量是引用传递，Sun JDK的实现中JVM栈的空间是在物理内存上分配的，而不是从堆上分配。

由于JVM栈是线程私有的，因此其在内存分配上非常高效，并且当线程运行完毕后，这些内存也就被自动回收。

当JVM栈的空间不足时，会抛出StackOverflowError的错误，在Sun JDK中可以通过-Xss来指定栈的大小，例如如下代码：

newThread(newRunnable(){publicvoidrun(){loop(0);}privatevoidloop(inti){if(i!=1000){i++;loop(i);}else{return;}}}).start();

当JVM参数设置为-Xss1K，运行后会报出类似下面的错误：

Exception in thread "Thread-0"java.lang.StackOverflowError

l 堆（Heap）

Heap是大家最为熟悉的区域，它是JVM用来存储对象实例以及数组值的区域，可以认为Java中所有通过new创建的对象的内存都在此分配，Heap中的对象的内存需要等待GC进行回收，Heap在32位的操作系统上最大为2G，在64位的操作系统上则没有限制，其大小通过-Xms和-Xmx来控制，-Xms为JVM启动时申请的最小Heap内存，默认为物理内存的1/64但小于1G，-Xmx为JVM可申请的最大Heap内存，默认为物理内存的1/4，默认当空余堆内存小于40%时，JVM会增大Heap的大小到-Xmx指定的大小，可通过-XX:MinHeapFreeRatio=来指定这个比例，当空余堆内存大于70%时，JVM会将Heap的大小往-Xms指定的大小调整，可通过-XX:MaxHeapFreeRatio=来指定这个比例，但对于运行系统而言，为了避免频繁的Heap Size的大小，通常都会将-Xms和-Xmx的值设成一样，因此这两个用于调整比例的参数通常是没用的。其实jvm中对于堆内存的分配、使用、管理、收集等有更为精巧的设计，具体可以在JVM堆内存分析中进行详细介绍。

当堆中需要使用的内存超过其允许的大小时，会抛出OutOfMemory的错误信息。

l 方法区域（MethodArea）

方法区域存放了所加载的类的信息（名称、修饰符等）、类中的静态变量、类中定义为final类型的常量、类中的Field信息、类中的方法信息，当开发人员在程序中通过Class对象中的getName、isInterface等方法来获取信息时，这些数据都来源于方法区域，可见方法区域的重要性。同样，方法区域也是全局共享的，它在虚拟机启动时在一定的条件下它也会被GC，当方法区域需要使用的内存超过其允许的大小时，会抛出OutOfMemory的错误信息。

在Sun JDK中这块区域对应的为PermanetGeneration，又称为持久代，默认为64M，可通过-XX:PermSize以及-XX:MaxPermSize来指定其大小。

l 运行时常量池（RuntimeConstant Pool）

类似C中的符号表，存放的为类中的固定的常量信息、方法和Field的引用信息等，其空间从方法区域中分配。类或接口的常量池在该类的class文件被java虚拟机成功装载时分配。

l 本地方法堆栈（NativeMethod Stacks）

JVM采用本地方法堆栈来支持native方法的执行，此区域用于存储每个native方法调用的状态。

例如有这么一段代码：

publicclassA{publicstaticvoidmain(String[]args){Stringa="a";Stringb="b";Stringab="ab";System.out.println((a+b)==ab);//falseSystem.out.println(("a"+"b")==ab);//truefinalStringafinal="a";Stringresult=afinal+"b";System.out.println(result==ab);//trueStringplus=a+"b";System.out.println(plus==ab);//falseSystem.out.println(plus.intern()==ab);//true}}

分析下上面代码执行的结果，可通过javap –verbose A来辅助理解分析。

l (a+b)==ab

a+b是两个变量相加，需要到运行时才能确定其值，到运行时后JVM会为两者相加后产生一个新的对象，因此a+b==ab的结果为false。

l (“a”+”b”)==ab

“a”+”b”是常量，在编译时JVM已经将其变为”ab”字符串了，而ab=”ab”也是常量，这两者在常量池即为同一地址，因此(“a”+”b”)==ab为true。

l result==ab

result=afinal+”b”，afinal是个final的变量， result在编译时也已经被转变为了”ab”，和”ab”在常量池中同样为同一地址，因此result==ab为true。

l plus=ab

plus和a+b的情况是相同的，因此plus==ab为false。

l plus.intern()==ab

这里的不同点在于调用了plus.intern()方法，这个方法的作用是获取plus指向的常量池地址，因此plus.intern()==ab为true。

在掌握了JVM对象内存分配的机制后，接下来看看JVM是如何做到自动的对象内存回收的，这里指的的是Heap以及Method Area的回收，其他几个区域的回收都由JVM简单的按生命周期来进行管理

临行之前，面对太多的疑问和不解：

相关文章：

你感兴趣的文章：

标签云：