一周很快又要结束了,这周没有学习多少新知识。翻翻笔记就只有昨天在Jimmy师兄的指点下学习了一点关于基因富集分析的统计概念和原理。(只有超几何分布检验的富集分析那张图我自己画的,那肯定是对的,其他概念复制粘贴来的仅供参考学习。)
统计概念
配对样本均数t检验
p值、pFDR和q值
- p值相关
- 单个假设检验中主要依靠p值(或统计量t)做出是否拒绝零假设H0的决定:p值和预先设定的检验水准alpha做对比,如果p值小于等于alpha,拒绝原假设,否则不拒绝原假设。
- p值:表征了在原假设成立的条件下,重复进行当前的试验,获得现有统计量t及其更极端情况的概率。
- 给定检验水准alpha时,可得出对应的拒绝域;根据当前试验,可以计算出p值。当p值越小时,表示此时试验得到的统计量t越落在拒绝域。因此基于p值的结果等价于基于t值的结果。因此,p值越小,拒绝原假设的信心越大。
- 假阳性率:false positive rate, FPR.检验水准alpha给出了事先犯I-型错误的最大概率。
- 多重假设检验和总体错误率
- 在进行多重假设检验时,每个单独的假设都具有其本身的I型错误。在这种情况下,如果不进行任何的控制,犯I-型错误的概率会随着假设检验的个数而迅速增加。
- 多重假设检验中,广泛使用的错误控制指标是总体错误率(family-wise error rate,FWER),即至少出现一次错误地拒绝真实H0的可能性;FWER小于等于alpha。而研究者更关心的是能否尽量多地识别出差异表达的基因,并且能够容忍和允许总的拒绝中发生少量的错误识别,称为错误发现false discovery。即需要在错误发现和总的拒绝次数R之间寻找一种平衡,即在检验出尽可能多的候选变量的同时将错误发现率控制在一个可以接受的范围。
- 错误发现率(False Discovery Rate,FDR),表示了在所有R次拒绝中错误发现的期望比例。错误发现率和假阳性率之间有着本质的差别。错误发现率将范围限定在总的拒绝次数中;而假阳性率则针对所有变量数而言。
- 给定FDR的控制水平alpha,多重假设检验次数M,通过求得拒绝H0的次数N,可得出多重检验M次中,有多少次是被错误识别的(=alpha * N)。Benjamini和Hochberg给出了一个基于p值的逐步向下控制程序,用于求出拒绝H0的次数N的值。并且证明在BH控制下,FDR 小于等于 alpha。
- pFDR和q值
- pFDR阳性错误拒绝率,是基于至少拒绝一个H0的事实。经过一系列的推导,pFDR的实际意义是,在pFDR错误率控制下,当拒绝一个H0时,该假设为真实的概率;pFDR反应了已经在拒绝H0的情况下H0 = 0的概率。可以认为pFDR是贝叶斯后验p值。
- 按照和p值类似的定义,Storey给出了q值的定义。
- q值量化了在观察统计量T = t时,拒绝H0所犯的最小FDR。p值的定义基于H0=0的条件而量化T属于Talpha的概率,显然q值是p值定义的一个逆过程,q值是基于T属于Talpha的条件而量化H0=0的概率。
- 和BH控制不同,q值和pFDR正好相反,即通过选定的拒绝域Talpha去估计对应的q值,当q小于等于alpha时,可保证FDR小于等于alpha。Storey给出了关于q值和pFDR的估计算法。
- 根据p值或q值可以计算对应的FDR,多重假设检验中拒绝H0的次数。
- BH计算错误发现率时具有保守性,即在降低假阳性的同时,也减少了正确的假设。为此可采用q值用于FDR计算。
超几何分布
超几何分布是统计学上一种离散概率分布。它描述了由有限个物件中抽出n个物件,成功抽出指定种类的物件的次数(不归还)。称为超几何分布,是因为其形式与“超几何函数”的级数展式的系数有关。
负二项分布
负二项分布是统计学上一种离散概率分布。“负二项分布”与“二项分布”的区别在于:“二项分布”是固定试验总次数N的独立试验中,成功次数k的分布;而“负二项分布”是所有到成功r次时即终止的独立试验中,失败次数k的分布。
差异基因分析
在利用数据比较分析两个样品中同一个基因是否存在差异表达的时候,一般选取两个标准:
i)FoldChange
FoldChange,就是两样品中同一个基因表达水平的变化倍数。可以用RPKM、FPKM或TPM值来计算。实验组和正常组的表达值的差异倍数,是用于检测差异表达基因的最基本的方法,由于其简单,易理解和不错的实验结果,使得其成为差异表达直观分析的首要选择。整体而言,Fold Change 方法在探测差异表达基因时,能够直接的得到差异变化值,因此在与差异表达绝对值相关的研究时具有优势。但是其较难选定其所需的阈值,在缺少假阳性的控制的情况下,其检测的基因假阳性结果比率相对较高。
ii)FDR校正后的p值,即q值
FDR值的计算方法如下:
- 1)对每个基因进行p值的计算 T检验是差异基因表达检测中常用的统计方法,通过合并样本间可变的数据,来评价差异表达,用于判断某一基因在两个样本中是否有差异表达。 由于样本量较少,从而对总体方差的估计不很准确,T检验的检验效能降低。
- 2)用FDR错误控制法对p值作多重假设检验校正 FDR(假阳性率:false positive rate)错误控制法是Benjamini于1995年提出一种方法,通过控制FDR(False Discovery Rate)来决定p值的域值。假设你挑选了R个差异表达的基因,其中有S个是真正有差异表达的,另外有V个其实是没有差异表达的,是假阳性的。实践中希望错误比例Q=V/R平均而言不能超过某个预先设定的值(比如0.05),在统计学上,这也就等价于控制FDR不能超过5%。对所有候选基因的p值进行从小到大排序,则若想控制FDR不能超过q,则只需找到最大的正整数i,使得 p(i)<= (iq)/m.然后,挑选对应p(1),p(2),…,p(i)的基因做为差异表达基因,这样就能从统计学上保证FDR不超过q。 因此,FDR的计算公式如下:q-value(i)=p(i)length(p)/rank(p)
基因GO和Pathway富集分析
基因富集分析是分析基因表达信息的一种方法,富集是指将基因按照先验知识,也就是基因组注释信息进行分类。通过对差异基因的GO富集分析,可以找到富集的差异基因GO项,寻找不同样品的差异基因可能与哪些基因功能的改变相关。通过差异基因的Pathway富集分析,可以找到富集的差异基因的Pathway,寻找不同样品的差异基因可能与哪些细胞通路的改变相关。对差异基因进行GO和Pathway富集分析,进行Network构建,定位基因的功能和其参与的信号通路,并进行清晰直观的展示。
超几何分布检验的富集分析
做完超几何概率分布,对得到的p值进行校正;
GSEA的基因富集分析
基因集富集分析 (Gene Set Enrichment Analysis, GSEA) 的基本思想是使用预定义的基因集,通常来自功能注释或先前实验的结果,将基因按照在两类样本中的差异表达程度排序,然后检验预先设定的基因集合是否在这个排序表的顶端或者底端富集。基因集合富集分析检测基因集合而不是单个基因的表达变化,因此可以包含这些细微的表达变化,预期得到更为理想的结果。 不再需要p值和FoldChange;用整个表达量来计算差异度量(信噪比、p值等六种度量),将其标准化,得到基因在处理前后的排序的gene list。 每个基因在分组sample的差异度量,根据差异度量对所有基因进行排序,根据特定的gene set (感兴趣的基因集)来计算ES score。得到一条背景gene和ES score的曲线,最大值设置为该通路的ES score。将所有样本基因打乱,进行根据1000次的permutation来对计算NE Score和nominal的p值(看一个数值是否属于一个分布),再来计算FDR值。
参考资料
http://www.biomart.cn/specials/gminix/article/145461
http://blog.sina.com.cn/s/blog_670445240101m4z3.html
https://guangchuangyu.github.io/cn/2012/04/enrichment-analysis/
http://www.chenlianfu.com/?p=1122
http://fhqdddddd.blog.163.com/blog/static/1869915420169212398814