用于检测基因表达水平的 DNA 微阵列实验,应用之一是比较实验,目的是比较两个条件下的基因表达差异,从中识别出与条件相关的特异性基因,例如,识别可用于肿瘤分型的特异基因等。为了提高实验的可靠性,对于同一样本,往往有两次或更多次的重复实验,但是,由于 DNA 微阵列的费用仍然很昂贵,不可能重复足够多的次数来满足实验数据分析的要求,因此需要采用统计方法来分析这些数据。对于这些表达数据的分析,目的就是要识别在两个条件下有显著表达差异的基因。何谓显著表达差异?通常是指一个基因在两个条件中表达水平的检测值在排除实验、检测等因素外,达到一定的差异,具有统计学意义,同时也具有生物学意义。常用的分析方法有三类,*类称之为倍数分析,计算每一个基因在两个条件下的 Ratio 值,若大于给定阈值,则为表达差异显著的基因;第二类方法采用统计分析中的 t 检验和方差分析,计算表达差异的置信度,来分析差异是否具有统计显著性;第三类是建模的方法,通过确定两个条件下的模型参数是否相同来判断表达差异的显著性,例如贝叶斯方法。
倍数分析
早期基于 cDNA 微阵列技术的比较实验,用倍数来分析基因表达水平差异,即计算基因在两个条件下表达水平的 Ratio 值。用
,可表示基因 g 在条件 1 和 2 下的表达水平差异。对于 cDNA 微阵列实验,是将两个条件下的样本混合后与 cDNA 微阵列进行杂交实验,得到的是成对数据,对每次实验得到的数据计算
。而对于寡核苷酸芯片,首先分别计算两个样本的重复实验的归一化表达水平的平均值,然后计算其 Ratio 值。当
<1 或
<1 表示基因在条件 1 是下调的,而
>2 或 <1/2 ,则认为该基因的表达差异是显著的。然而,对表达数据仔细考察后可以发现,这样简单的 2 倍法并不能产生*的结果,因为因子 2 在不同的表达水平上有相当不同的显著性。对于低表达水平的基因,其信噪比太低,用 2 倍法作为判断条件太宽松,而对于高表达基因,条件又太苛刻,往往小于 2 就具有生物学意义。在具体应用中,并没有明确的阈值,往往根据分析的具体要求由数据分析者自行确定。
t 检验
于两个条件下的多次重复实验,为了判断基因的表达差异是否具有显著性,在应用中较多的是采用假设检验,包括两个条件下的 t 检验和多个条件下的方差分析( ANOVA ),这里仅仅介绍 t 检验,关于 ANOVA 请参考相应的统计分析书籍。
零假设为
。 t 统计量的计算公式如下:
,
为某一条件下的重复实验次数,Xgij是基因g在第i个条件下第j次重复实验的表达水平测量值。根据统计量
经常较小,
(8-7)
(8-9)
假设
的值较小,导致
独立于基因表达水平,在分母上增加 S0 , 增加 S0 后可以降低
大于阈值的基因被认为是表达差异显著的。
8.3.3 贝叶斯分析
由于 DNA 微阵列数据噪声大、波动大,而且在大量数据的背后还有很多相关变量不能被观察到,因此,贝叶斯方法可以用来分析微阵列表达数据。贝叶斯分析可以简单描述如下:

为真的概率,称为后验概率; P(M) 称为先验概率,表示在没有得到任何数据之前所估计的模型 M 为真的概率; P(D|M) 是指似然度,表示从模型 M 得到一个观测数据集 D 的概率。贝叶斯推断是通过参数估计和模型选择来实现任务的,zui常用的方法是zui大后验概率 (MAP) 估计和zui大似然 (ML) 估计。在用贝叶斯方法分析表达数据时,首先假设在给定条件下,一个基因的表达水平测量值是独立的,并满足正态分布。根据经验,这一假设是合理的,特别是表达水平的对数大致服从对数正态分布。对于重复实验,也可以引入伽玛分布、高斯 / 伽玛混合分布等。一个基因在一种条件下的表达测量值可以用一个正态分布
,似然函数可以由下式给出:
和
的选择有几种,一般采用共扼先验分布。先验分布的四个超参数构成向量
(8-12)
超参数
可以分别解释为
分别解释为
和
(8-13)
其中
和
和<img alt="" "="" align="middle" border="1" height="22" data-cke-saved-src="http://www.bio1000.com/uploads/allimg/120625/145912L15-42.png" src="http://www.bio1000.com/uploads/allimg/120625/145912L15-42.png" width="24" style="vertical-align: middle; border: 0px;"> 。