EchoCaiCai的专栏

1. 性能测评

时间测定方法

R中提供的测量时间最简单的方法是system.time函数。

system.time(expr, gcFirst=TRUE)

这个函数会在不降低程序运行性能的情况下,执行表达式expr,gcFrist则是指定程序运行前是否先执行垃圾回收。

do.stuff <- function(){a <- 1:100000for(i in 1:100000){a[i] <- a[i]^2}a}system.time(do.stuff())

监控内存方法

R中函数gc(),有两个功能,一是立即执行一次垃圾清理,二是显示剩余内存的统计信息。

gc()

used是当前使用情况,gc trigger是会触发垃圾回收的值,max used是上次gc()操作或者是此次启动R后使用最大值。(Mb)是Ncells和Vcells的大小转换为Mb单位时的值。

Ncells即cons cells,32位R中占28B,64位R中占56B,我是用的32位的R,所以2616689*28/(1024^2) = 69.9。

Vcells即vector cells,占8B,所以63817864*8/(1024^2) = 486.9。

不是很懂Ncells和Vcells分别指的是R中的什么对象,网上也没找到很确切的说法,所以不知道应该怎么去翻译它们,有知道的朋友希望能告知,,谢谢!

R中object.size()函数可以查看每个对象占用内存数。

object.size(1)object.size(train)

R中memory.profile()函数可以查看不同对象类型的内存占用情况。

memory.profile()

不过memory.profile()展示的是Ncells的统计量,可以看到gc()中查到的Ncells使用数跟memory.profiles()的总量非常接近。

R中memory.size()函数,可以查看到R使用的内存大小,还可以设置参数max=TRUE,来查看上次gc()操作或者是此次启动R后使用的最大的内存数。

memory.size()memory.size(max=TRUE)

时间性能分析

R中有Rprof()方法,能监控R语言程序中每一个操作语句的耗时。

Rprof(filenames=”Rprof.out”,append=FLASE,interval=0.02,memory.profiling=FALSE)filenames 输出文件路径

append 向已存在文件追加内容还是覆盖已存在文件

interval 采用时间间隔

memory.profiling 是否将内存信息写入文件

启动性能监控是Rprof(filename)

停止性能监控时Rprof()或者Rprof(NULL)

summaryRprof()方法可以查看Rprof()性能采集的结果。

summaryRprof(filenames=”Rprof.out”,chunksize=5000,memory=c(“none”,”both”,”tseries”,”stats”),index=2,diff=TRUE,exclude=NULL)filenames 输出文件路径

chunksize 一次读取的行数

memory 如何显示内存消耗信息,分别是不显示,时间和内存信息都显示,一时间序列的方式显示,显示内存消耗统计量。

index 是否将内存的信息写入文件

diff 在内存统计量中是否显示内存使用的变化,或者总的内存消耗

exclude 指定排除在统计结果之外的函数

这个部分不给出详细的例子了,可以看这篇文章里面讲到的性能监控的例子,使用的就是这两个函数:。

内存性能分析

R中有Rprofmen

Rprofmem(filename = "Rprofmem.out", append =FALSE, threshold = 0)filenames 输出文件路径

append 向已存在文件追加内容还是覆盖已存在文件

threshold 内存分配大于这个值的才会被记录,单位字节

启动性能监控是Rprofmem (filename)

停止性能监控时Rprofmem ()或者Rprofmem (NULL)

查看运行结果,直接读取filename就行。下面的例子,是函数说明文档中的例子:

Rprofmem("Rprofmem.out", threshold = 1000)example(glm)Rprofmem(NULL)noquote(readLines("Rprofmem.out", n = 5))

2. 优化R代码

使用向量操作

R的一个很大的特点就是能进行向量操作,相比循环迭代的方法而言,向量操作的效率更高。

square.two <- function(n){v <- numeric(0)length(v) <- nfor(i in 1:n){v[i] <- i^2}v}square.two (10)system.time(square.two (10000))system.time(square.two (100000))system.time(square.two (1000000))结果如下图,可以看出来,消耗的时间随向量长度线性增长。

文画音,看似耳目所为,其实是内心世界的感受。

EchoCaiCai的专栏

相关文章:

你感兴趣的文章:

标签云: