百度
360搜索
搜狗搜索

clusterprofiler包,GEO挖掘实战二、差异分析及富集分析详细介绍

本文目录一览: GEO数据挖掘小尝试:(三)利用clusterProfiler进行富集分析

安装clusterProfiler:

对于没有转换的gene ID,clusterProfiler也提供了 bitr 方法进行转换ID:

可以看到,这里转换ID的对应文件来源于"org.Hs.eg.db"这个包。

在开始富集分析之前先看看GO和KEGG富集分析的方法以及参数:

导入数据,这是一个整合数据,在这里我们要用到的只是entrez ID列和最后一列(logFC):

由于clusterProfiler富集分析推荐的输入文件是Entrez ID,因此这里提取的是Entrez ID,接下来就可以进行富集分析了:

KEGG通路富集函数用法与GO富集分析方法类似:

我们继续使用上面的数据进行KEGG富集分析:

这里使用clusterProfiler里面的 GSEA 函数进行GSEA富集分析,并与使用超几何分布富集( enricher 函数)的结果进行简单比较, enricher 函数与 GSEA 函数用法基本相同,因此这里只给出 GSEA 的用法及参数。

在进行富集分析之前需要对数据做一个预处理——排序。

这里使用的是broad GSEA提供的gene sets 来提供TERM2GENE:

万事俱备,只欠东风。现在可以开始分析了,先进行超几何分布的富集分析:

再做GSEA富集分析,在此之前需要对输入gene list做一下处理,包括三步:

输入文件准备好了尽可以进行GSEA富集分析了:

不要问我为什么要pvalueCutoff设置0.8,因为一直调大到0.8才富集到结果。。。可见数据应该是有问题的,但这里作为一个实践就不管那么多了。
而且,clusterProfiler还支持GSEA的GO、KEGG富集。

顺便再利用上面处理好的glist进行一下KEGG富集到的某一条通路的可视化:

上面的命令会在当前目录生成3个文件:一个原始KEGG通路图片,一个标注了上下调基因的,最后一个文本文件则是一些KEGG通路信息。

参考:
clusProfiler命令参考手册
GSEA的分析汇总
Statistical analysis and visualization of functional profiles for genes and gene clusters
GSEA分析是个什么鬼?(上)
GSEA是个什么鬼?(下)

clusterProfiler导入失败解决办法

最近在安装光叔的clusterProfiler包时,遇到了以下报错:

即可以正常安装,但不能导入。

显示错误:package or namespace load failed for 'clusterProfiler': 'namespace:rvcheck'没有出口'get_fun_from_pkg'这个对象,随后电脑右侧弹出360杀毒软件的提示,把某dll文件列入了风险清单,准备删除。于是我思考,可能是由于杀毒软件的原因,于是我重装了Rstudio(version 1.4.1717)和R(version 4.0.5),关掉了360杀毒和安全卫士,利用github接口安装包:

导入成功了!

R包 clusterProfiler: GO和KEGG富集结果显示基因symbol

注:1)MF和CC方法同BP,将BP改为MF,CC即可。
2)可视化中,showCategory为显示的item数,scale_y_discrete则调节label过长的情况,让图片看起来
更美观。
3)检查结果,可见geneID展示为gene symbol。

(1)在enrichGO函数中,设置readable = TRUE;
(2)用setReadable函数,对GO或者KEGG结果进行转化即可。

R安装clusterProfiler 包遇到无法安装依赖包stringi

install.packages("BiocManager")

BiocManager::install("clusterProfiler")

stringi 报错,本地安装

wget https://github.com/gagolews/stringi/archive/master.zip -O stringi.zip

unzip stringi.zip

sed -i '/\/icu..\/data/d' stringi-master/.Rbuildignore

R CMD build stringi-master

R CMD INSTALL?stringi_1.7.5.9001.tar.gz

BiocManager::install("clusterProfiler")

用clusterProfiler包进行KEGG富集分析遇到Error记录

按照标准流程对GEO上下的数据进行数据处理,差异分析,富集分析
到enrichKEGG的这一步的时候就出现了Error。

Error in download.KEGG.Path(species) :
'species' should be one of organisms listed in ' http://www.genome.jp/kegg/catalog/org_list.html' ...
提示我输入的物种缩写名错了,必须是KEGG网站上的名字,但是我输的 "mmu"就是小鼠对应的缩写名。

蛋白ID转基因ID

将Ensembl 中的蛋白ID转化成基因ID,可以通过clusterProfiler这个包。
如以大鼠的基因与蛋白转化为例;
安装clusterProfiler与大鼠org.Rn.eg.db,如果是人的注释包为org.Hs.eg.db,小鼠的注释包为org.Mm.eg.db.

查看可以转化的ID:

[1] "ACCNUM" "ALIAS" "ENSEMBL" "ENSEMBLPROT" "ENSEMBLTRANS"
[6] "ENTREZID" "ENZYME" "EVIDENCE" "EVIDENCEALL" "GENENAME"
[11] "GO" "GOALL" "IPI" "ONTOLOGY" "ONTOLOGYALL"
[16] "PATH" "PFAM" "PMID" "PROSITE" "REFSEQ"
[21] "SYMBOL" "UNIGENE" "UNIPROT"

将蛋白ID转为基因ID:

clusterprofiler 可以分析其他物种吗

1 如果肯下功夫,可以通过R语言获得基因本体论以及通路富集数据并将其可视化,所用的R包可以是GOSim(GO分析),或者clusterprofiler(GO&KEGG)
2 cytoscape 的插件cluego可以傻瓜式实现通路的图片展示,可以用来直接发文章(低分的至少可以)
3 关于GO和KEGG数据的获得,上DAVID就好

转录组下游分析之GSEA

gsea的原始数据分为三列,一列是geneid,一列是FoldChange,一列是根据FoldChange排序的结果。

其实gsea就是看foldchange的值的分布,如果是随机分布,那结果就不理想。我们想要的是在两端富集分布。
GSEA分析同样可以使用clusterprofiler包。Y叔的包真的强大,我还要用它做转录因子的富集分析。

GEO挖掘实战二、差异分析及富集分析

「生信技能树」三阴性乳腺癌表达矩阵探索 系列笔记
GEO挖掘实战一、初步探索数据 -
GEO挖掘实战二、差异分析及富集分析 -
GEO挖掘实战三、GSVA -
GEO挖掘实战四、TNBC相关探索 -

芯片数据的差异分析一般使用limma包

之前学习RNA-seq转录组学习时,对富集分析的概念与流程有过一定的了解。主要分为ORF与GESA两类,都可用clusterProfiler包完成。在曾老师的视频中后者是使用了MsigDB的数据集进行分析的。
- RNA-seq学习:No.5富集分析--ORF过表达 -
- RNA-seq学习:No.6富集分析--GESA -

主要需要上下调基因的ENTREZID

需要准备genelist数值型字符串,即为logFC值,从大到小排列;并以ENTREZID/SYMBOL命名。

转录组入门(8): 差异基因结果注释

首先根据上一节的结果,按p<0.05且abs(logFC)>1作为筛选标准取差异表达基因。
用Y叔的 clusterProfiler 包进行富集分析。
加universe后报错,强制类型转换错误。
str(ego) 显示universe有23454个gene,而org.Mm.eg.db里有GO注释的有24139个。搜索之后发现了 原因 。即背景基因集会筛选有对应注释分类的基因,而不是全部基因。
先将基因按不同标准(比如GO、KEGG、癌症特征基因等)分类成多个基因集(S),依据表达值或者变化倍数等对基因排序(L),计算ES(富集得分)、NES(标准化富集得分)再进行统计检验。
GSEA的目的就在于判断S的成员是随机的分布于L上,还是有序的分布于顶部与尾部。
ES计算基本规则是扫描排序后基因序列L,每出现一个基因集(S)中的基因,则增加ES值,反之则减少ES值。ES>0,表明S基因集排在L中的前方,反之则在后方。

阅读更多 >>>  linux如何查进程杀进程

网站数据信息

"clusterprofiler包,GEO挖掘实战二、差异分析及富集分析"浏览人数已经达到19次,如你需要查询该站的相关权重信息,可以点击进入"Chinaz数据" 查询。更多网站价值评估因素如:clusterprofiler包,GEO挖掘实战二、差异分析及富集分析的访问速度、搜索引擎收录以及索引量、用户体验等。 要评估一个站的价值,最主要还是需要根据您自身的需求,如网站IP、PV、跳出率等!