什么是定量数据据做多个组之间比较可以使用的方法及使用条件?

一.统计方法抉择的条件

在临床科研工作中正确地抉择统计分析方法,应充分考虑科研工作者的分析目的、临床科研设计方法、搜集到的数据资料类型、数据资料的分咘特征与所涉及的数理统计条件等其中任何一个问题没考虑到或考虑有误,都有可能导致统计分析方法的抉择失误

此外,统计分析方法的抉择应在科研的设计阶段来完成而不应该在临床试验结束或在数据的收集工作已完成之后。

对临床科研数据进行统计分析和进行统計方法抉择时应考虑下列因素:

对于临床医生及临床流行病医生来说,在进行统计分析前一定要明确利用统计方法达到研究者的什么目的。一般来说统计方法可分为描述与推断两类方法。一是统计描述(descriptive statistics)二是统计推断(inferential statistics)。

统计描述即利用统计指标、统计图或统计表,對数据资料所进行的最基本的统计分析使其能反映数据资料的基本特征,有利于研究者能准确、全面地了解数据资料所包涵的信息以便做出科学的推断。统计表如频数表、四格表、列联表等;统计图,如直方图、饼图散点图等;统计指标,如均数、标准差、率及构荿比等

统计推断,即利用样本所提供的信息对总体进行推断(估计或比较)其中包括参数估计和假设检验,如可信区间、t检验、方差汾析、?2检验等如要分析甲药治疗与乙药治疗两组的疗效是否不相同、不同地区某病的患病率有无差异等。

还有些统计方法既包含了統计描述也包含了统计推断的内容,如不同变量间的关系分析相关分析,可用于研究某些因素间的相互联系以相关系数来衡量各因素間相关的密切程度和方向,如高血脂与冠心病、慢性宫颈炎与宫颈癌等的相关分析;回归分析可用于研究某个因素与另一因素(变量)嘚依存关系,即以一个变量去推测另一变量如利用回归分析建立起来的回归方程,可由儿童的年龄推算其体重

资料类型的划分现多采鼡国际通用的分类方法,将其分为两类:数值变量(numerical variable)资料和分类变量(categorical variable)资料数值变量是指其值是可以定量或准确测量的变量,其表现为数值夶小的不同;而分类变量是指其值是无法定量或不能测量的变量其表现没有数值的大小而只有互不相容的类别或属性。分类变量又可分為无序分类变量和有序分类变量两小类无序分类变量表现为没有大小之分的属性或类别,如:性别是两类无序分类变量血型是四类无序分类变量;有序分类变量表现为各属性或类别间有程度之分,如:临床上某种疾病的“轻、中、重”,治疗结果的“无效、显效、好转、治愈”由此可见,数值变量资料、无序分类变量资料和有序分类变量资料又可叫做计量资料、计数资料和等级资料

资料类型的划分与統计方法的抉择有关,在多数情况下不同的资料类型选择的统计方法不一样。如数值变量资料的比较可选用t检验、u检验等统计方法;而率的比较多用?2检验

值得注意的是,有些临床科研工作者常常人为地将数值变量的结果转化为分类变量的临床指标,然后参与统计分析如患者的血红蛋白含量,研究者常用正常、轻度贫血、中度贫血和重度贫血来表示这样虽然照顾了临床工作的习惯,却损失了资料所提供的信息量换言之,在多数情况下数值变量资料提供的信息量最为充分,可进行统计分析的手段也较为丰富、经典和可靠与之楿比,分类变量在这些方面都不如数值变量资料因此,在临床实验中要尽可能选择量化的指标反映实验效应若确实无法定量时,才选鼡分类数据通常不宜将定量数据转变成分类数据。

在众多的临床科研设计方法中每一种设计方法都有与之相适应的统计方法。在统计方法的抉择时必须根据不同的临床科研设计方法来选择相应的统计分析方法。如果统计方法的抉择与设计方法不一致统计分析得到的任何结论都是错误的。

在常用的科研设计方法中有成组设计(完全随机设计)的t检验、配对t检验、成组设计(完全随机设计)的方差分析、配伍设计(随机区组设计)的方差分析等,都是统计方法与科研设计方法有关的佐证因此,应注意区分成组设计(完全随机设计)與配对和配伍设计(随机区组设计)在成组设计中又要注意区别两组与多组设计。最常见的错误是将配对或配伍设计(随机区组设计)嘚资料当做成组设计(完全随机设计)来处理如配对设计的资料使用成组t检验、配伍设计(随机区组设计)使用成组资料的方差分析;戓将三组及三组以上的成组设计(完全随机设计)资料的比较采用多个t检验、三个或多个率的比较采用四格表的卡方检验来进行比较,都昰典型的错误如下表:

表1 常见与设计方法有关的统计方法抉择错误

设计方法 错误的统计方法 正确统计方法

两个均数的比较(成组设计、唍全随机设计) 成组设计的t检验、成组设计的秩和检验

多个均数的比较(成组设计、完全随机设计) 多个成组设计的t检验 完全随机设计的方差分析及q检验、完全随机设计的秩和检验及两两比较

数值变量的配对设计 成组设计的t检验 配对t检验、配对秩和检验

随机区组设计(配伍設计) 多个成组设计的t检验、完全随机设计的方差分析 随机区组设计的方差分析及q检验、随机区组设计的秩和检验及两两比较

交叉设计 成組设计的t检验、配对t检验、配对秩和检验 交叉设计的方差分析、交叉设计的秩和检验

4.分布特征及数理统计条件

数理统计和概率论是统计嘚理论基础。每种统计方法都要涉及数理统计公式而这些数理统计公式都是在一定条件下推导和建立的。也就是说只有当某个或某些條件满足时,某个数理统计公式才成立反之若不满足条件时,就不能使用某个数理统计公式

在数理统计公式推导和建立的条件中,涉忣最多的是数据的分布特征数据的分布特征是指数据的数理统计规律,许多数理统计公式都是在特定的分布下推导和建立的若实际资料服从(符合)某种分布,即可使用该分布所具有的数理统计规律来分析和处理该实际资料反之则不能。在临床资料的统计分析过程中涉及得最多的分布有正态分布、偏态分布、二项分布等。

许多统计方法对资料的分布有要求如:均数和标准差、t和u检验;方差分析都偠求资料服从正态分布,而中位数和四分位数间距、秩和检验等可用于不服从正态分布的资料。所以临床资料的统计分析过程中,应栲虑资料的分布特征最起码的要求是熟悉正态分布与偏态分布。

例如:在临床科研中许多资料的描述不考虑资料的分布特征,而多选擇均数与标准差如某妇科肿瘤化疗前的血象值,资料如下表:

某妇科肿瘤化疗前的血象值

指标名 例数 均数 标准差 偏度系数 P值 峰度系数 P值

從上结果可见若只看三项指标的均数和标准差,临床医生也许不会怀疑有什么问题但是经正态性检验,病人的血红蛋白服从正态分布而血小板和白细胞两项指标的偏度和峰度系数均不服从正态分布(P<0.05)。因此描述病人的血小板和白细胞平均水平正确的指标是中位数,而其变异程度应使用四分位数间距

除了数据的分布特征外,有些数理统计公式还有其它一些的条件如t检验和方差分析的方差齐性、鉲方检验的理论数(T)大小等。

总之对于临床科研工作者来说,为正确地进行统计方法的抉择首先要掌握或熟悉上述影响统计方法抉择因素;其次,还应熟悉和了解常用统计方法的应用条件

统计描述的内容包括了统计指标、统计图和表,其目的是使数据资料的基本特征更加清晰地表达本节只讨论统计指标的正确选用,而统计图表的正确使用请参阅其他书籍

1.数值变量资料的描述

描述数值变量资料的基夲特征有两类指标,一是描述集中趋势的指标用以反映一组数据的平均水平;二是描述离散程度的指标,用以反映一组数据的变异大小各指标的名称及适用范围等见表2。

表2 描述数值变量资料的常用指标

指标名称 用 途 适用的资料

描述一组数据的平均水平集中位置 正态分咘或近似正态分布

中 位 数(M) 与均数相同 偏态分布、分布未知、两端无界

几何均数(G ) 与均数相同 对数正态分布,等比资料

描述一组数据嘚变异大小离散程度

正态分布或近似正态分布

(QU-QL) 与标准差相同 偏态分布、分布未知、两端无界

极 差 (R) 与标准差相同 观察例数相近的數值变量

变异系数(CV) 与标准差相同 比较几组资料间的变异大小

从表中可看出,均数与标准差联合使用描述正态分布或近似正态分布资料嘚基本特征;中位数与四分位数间距联合使用描述偏态分布或未知分布资料的基本特征

这些描述指标应用时,最常见的错误是不考虑其應用条件的随意使用如:用均数和标准差描述偏态分布、分布未知或两端无界的资料,这是目前在临床研究文献中较为普遍和典型的错誤

2.分类变量资料的描述

描述分类变量资料常用的指标有死亡率、患病率、发病率等。

临床上这类指标的应用较多,出现的错误也较哆这些错误归纳起来大致有两类:一是以比代率,即误将构成比(proportion)当做率(rate)来描述某病发生的强度和频率如用某病的病人数除以就诊人数(或人次)得到“某病患病率”或“某病发病率”,就是典型的以比代率的例子二是把各种不同的率相互混淆,如把患病率与发病率、迉亡率与病死率等概念混同

需要指出的是,单纯利用常规资料最易得到的指标是构成比。而描述疾病发生强度和频率的指标的率反映洳患病率、发病率、死亡率等很难利用的常规资料(如的病例档案)获得。因为常规资料无法得到计算这些率所需的分子和分母的资料。所以一旦研究者利用的是常规资料,则无法衡量疾病对人群的危害程度常用描述指标如表3。

表3 描述分类变量资料的常用指标

指标洺称 计算公式 意 义

率 发生某现象的观察单位数 可能发生某现象的观察单位总数 ×K

描述事件发生的强度和频率

事物内部各组成部分所占的比偅

A指标为B指标的若干倍或百分之几

在众多的科研研究方法中归纳起来最基本的手段有两种,一是对研究对象的全体进行研究在实际工莋中往往难以实现;二是从总体中抽取一定数量的样本进行抽样研究,但要考虑抽样误差对结果的影响因此,若用样本信息去推断其所玳表的总体间有无差别时需要使用假设检验(hypothesis testing)或称显著性检验(significance test)。

1.假设检验的基本步骤

test)无效假设H0是研究者想得到结论的对立事件的假设,对于差异性检验而言研究者想得到的是“有差别”的结论,故首先应假设各总体间无差别;备择假设H1是其对立的假设即是“有差别”的假设;此外,还应确定有统计意义的概率水平?通常?取0.05。建立检验假设的通常格式为:

H0:多个样本来自同一总体各样本间的差別是由于抽样误差所致

H1:多个样本来自不同的总体,各样本间的差别是由于不同总体所致

根据资料的类型、分布特征、科研设计方法等条件选择不同的统计量计算方法,如t检验、u检验等统计方法

(3)根据统计量的值得到概率(P)值;再按概率(P)值的大小得出结论。其结论只有兩种情况若P≤?时,即概率小于我们事先确定好的检验水平概率(如P≤0.05)我们就拒绝其无差别假设H0,而接受H1认为差别有统计学意义,各样本来自不同总体样本间的差别是总体的不同所致;若P>?时,其概率大于我们事先确定好的检验水平(如P>0.05)我们就不拒绝其無差别的假设H0,还不能认为各总体间有差别样本来自同一总体,即差别没有统计学意义

2.假设检验结论的两类错误

在假设检验的两种結论中无论做出何种结论,都有可能犯错误

当P≤?时,做出“拒绝其无差别的假设可认为各总体间有差别”的结论时就有可能犯错误,这类错误称为第一类错误(Ⅰ型错误type Ⅰ error),其犯错误的概率用?表示若?取0.05,此时犯Ⅰ型错误的概率小于或等于0.05若假设检验的P值仳0.05越小,犯一类错误的概率就越小

当P>?时,做出“不拒绝其无差别的假设还不能认为各总体间有差别”的结论时,就有可能犯第二類错误(Ⅱ型错误type Ⅱ error),其犯错误的概率用?表示在通常情况下犯Ⅱ类错误的概率未知,虽然?是个未知数但假设检验P值越大,犯②类错误的概率就越小

表4 假设检验的两类错误

真实情况 假设检验结果

样本来自同一总体 推断不正确(?) 推断正确(1-?)

样本来自不同總体 推断正确(1-?) 推断不正确(?)

3.假设检验的注意事项

(1)假设检验比较的对象是总体,而研究的方法是抽样研究即通过对样本提供的信息去推断总体间有无差别。不能误认为假设检验是样本间的比较更不能将此体现在结论中。如果研究方法是普查时由于不存茬抽样误差,也不存在用样本提供的信息去推断总体的问题因此,在这种情况下也就不能使用假设检验的统计方法

(2)当P≤?时,概率(P)越小越有理由拒绝无差别的假设,即拒绝假设的可信程度就越大这时概率(P)越小,其结论的可靠性就越好当P>?时,概率(P)越大越有理由不拒绝无差别的假设,即不拒绝无差别假设的可信程度就越大这时概率(P)越大,其结论的可靠性就越好因此,無论概率P≤?还是P>?时,都不能说明组间差别的大小

(3)假设检验的结论不能绝对化。假设检验的结论是根据概率(P)的大小得出嘚事实上当P≤?时,我们拒绝其无差别的假设可认为各总体间有差别,但是只要P≠0,我们无法完全拒绝无差别的假设即不能肯定各总体间有差别:同理,当P>?时我们不拒绝其无差别的假设,还不能认为各总体间有差别但是,只要P≠1我们无法完全接受无差别嘚假设,即不能肯定各总体间无差别因此,在做出统计结论时要避免使用绝对的或肯定的语句,如当P≤?时使用“拒绝假设,可认為各组间有差别”;而当P>?时使用“不拒绝假设,还不能认为各组间有差别”的语言进行描述

(4)假设检验的方法与设计方案和分咘特征有关,如:两组比较的方法有t检验、u检验、两组秩和检验、四格表和校正四格表的?2检验等这些方法只能用于两组比较,而不能鼡于多组的比较在实际工作中错误地使用两组比较的方法代替多组比较的情况并不少见,如三个均数比较用三个t检验、四个均数比较鼡六个t检验等。多组比较可用方差分析、多组秩和检验、行乘列?2检验等t、u检验和方差分析用于正态分布的资料,不服从正态分布的资料可用秩和检验

(1) 计量资料的假设检验

表5 常用计量资料假设检验方法

比较目的 应用条件 统计方法

样本与总体的比较 例数(n)较大,(任意分布) u检验

例数(n)较小样本来自正态 t检验

(完全随机设计) 例数(n)较大,(任意分布) u检验

例数(n)较小来自正态且方差齐 荿组设计的t 检验

或成组设计的t’检验、

或成组设计的中位数检验

例数(n)较小且非正态或方差不齐

(配对设计) 例数(n)较大,(任意分咘) 配对设计的u检验

例数(n)较小差值来自正态 配对设计的t 检验

例数(n)较小,差值为非正态 配对设计的秩和检验

(完全随机设计) 各組均数来自正态且方差齐 成组设计的方差分析

各组为非正态或方差不齐 成组设计的秩和检验

(配伍设计) 各组均数来自正态且方差齐 配伍設计的方差分析

各组为非正态或方差不齐 配伍设计的秩和检验

(2)计数资料的假设检验

表6 常用计数资料假设检验方法

比较目的 应用条件 统計方法

的比较 N较小时 二项分布的直接法

np>5且n(1-p)>5 二项分布的u检验

(完全随机设计) np>5且n(1-p)>5 二项分布的u检验

N≥40且T≥5 四格表的χ2检验

N≥40苴1≤T<5 校正四格表的χ2检验

N<40或T<1 四格表的确切概率法

(配对设计) B+c≥40 配对χ2检验

多个率或构成比资料的比较

(完全随机设计) 全部格子T≥5或少于1/5的格子1≤T<5 行×列表χ2检验

若有T<1或有多于1/5的格子1≤T<5 行×列表的确切概率法

注:n为例数;T为列联表中各格子的理论数;p为样本率

(3)等级资料的假设检验

表7 常用等级资料假设检验方法

两组比较(完全随机设计) 两组比较的秩和检验

多组比较(完全随机设计) 多组仳较的秩和检验

配对设计 符号秩和检验

配伍设计 配伍设计的秩和检验

数据资料的比较是同一指标的不同处理组间的比较。在临床研究工莋中常常涉及疾病危险因素的研究和疾病病因的探索,即分析某个因素与疾病间的关系如口服女性素避孕药是否是宫内膜癌的危险因素;高血脂症是否是冠心病心肌梗塞的危险因素。如果研究结果证明了它们是某种疾病的危险因素或与某种疾病有相关关系的话还不能肯定其是因果关系,只有当某个因素导致某个肯定的结果若该因素消除后,其相应的结果也不复存时候这时,因果关系才能被肯定

1.数值变量(计量资料)的关系分析

表6 常用数值资料的关系分析方法

比较目的 应用条件 统计方法

两变量间的依存关系 正态单变量资料* 直线囙归(Ⅰ型)

正态双变量资料** 直线回归(Ⅱ型)

两变量间的相互关系 正态双变量资料 直线相关

两变量都不服从正态 等级相关

注:*为两变量Φ有一个变量服从正态分布的资料;**为两变量都服从正态分布的资料。

2.无序分类变量(计数资料)的相关分析

相对危险度(RR)= 暴露于危險因素组的总体患病率 未暴露于危险因素组的总体患病率

归因危险度(AR)= 暴露于危险因素组的患病率 ? 未暴露于危险因素组的患病率 暴露於危险因素组的患病率

2×2表 : 列联系数和四格表的?2检验

行×列表 : 列联系数和行乘列表的?2检验

3.有序分类变量(等级资料) 等级相关

前两期蛋白质组学数据分析课程汾别为大家介绍了数据分析—标准化和缺失值的内容本期我们整理了第三讲“蛋白质组学数据分析—差异蛋白筛选方法简介的听课笔記,继续分享给各位想入门的小伙伴们~

随着高通量质谱技术的发展蛋白质的定性分析技术如序列标签和蛋白质测序等已基本成熟,人们哽重视蛋白质的定量分析在生命科学中的重大应用尤其是定量蛋白质组学的差异分析。从统计理论的角度看差异分析就是对蛋白质的質谱定量结果进行统计推断,以找出在不同状态或实验条件下表达水平存在显著差异的蛋白质比较经典的实例是通过分析癌和癌旁组织戓癌变和正常组织中相同蛋白质的表达差异情况来确定差异表达的蛋白质,加上进一步的GO ( gene ontology ) 和通路分析可确定候选生物标志物,对临床疾疒的早期诊断具有积极作用而差异分析技术的好坏在很大程度上影响着生物标志物的准确性(1)

总体来说定量蛋白质组学的数据分析存茬三大主要问题:数据的缺失值较多、实验的重复次数较少和结果的质量/可靠性参差不齐,这为差异蛋白质的筛选带来巨大挑战针对前兩个问题,研究人员已提出若干方法和工具但这些方法各有利弊,很少能同时考虑两方面

根据所属的统计学派别不同,具体可以将它們分为三大类:基于经典统计学派的策略;基于贝叶斯学派的统计检验策略和其它策略在理论发展的过程中,统计推断衍生出三个主要嘚学派(2)经典学派、贝叶斯学派和信念学派在很长的时间内,经典学派占据着主流地位它的研究重点是样本空间上的概率分布,并提絀了大量影响深远的统计方法而在实际应用中,人们逐渐应用贝叶斯学派的理念来处理问题,它的研究重点是总体分布所处的状态空间根据是否要求实验数据服从特定分布,可将经典学派的策略分为基于分布假设和基于传统非参数检验策略两类

(1)基于分布假设的统计筞略

基于分布假设策略的一般步骤可总结为1假设数据集服从某种特定的分布;2建立统计模型、构造统计量;3)计算 p 值、确定阈值,仳较得出结论

研究某蛋白质在两种状态下表达水平差异的显著性,相当于检验两组数据的均值是否存在差异而 t 检验是统计方法中发展較成熟的、用于分析两组样本间均值差异的方法,t 检验的前提是假设样本数据来自同一正态分布且要求每种样本至少进行三次重复实验。但是t 检验易受到样本量的限制。由于实验成本及时间等原因小样本的情况不可避免,这就严重低估了总体方差导致结果中假阳性仳例显著增加(3)

(2)基于传统的非参数统计检验策略

基于分布假设统计策略模型均有一个明显的不足:检验时需要假设数据服从某种分布形式虽然基于质谱的蛋白质组学产出的是大规模数据,在理论上会趋近一些常用分布但在实际应用中,总会有某种分布难以描述的情況存在而非参数检验方法是直接对统计量的分布进行估计,不要求数据满足特殊分布在这一点上优于上述策略,也能更好地分析蛋白質组学数据比如,Fisher精确检验(4)G检验(5)较早提出的非参数检验方法适合分析实验重复次数有限的数据,这也恰好满足蛋白质组学研究中“尐重复”的特点目前用的比较多的非参检验是Fisher test秩和检验。其中Fisher精确检验适用于离散数据比如谱图计数值。Rank sum test则适用于连续值比如蛋白嘚intensity定量值。当数据不满足正态性及方差齐性而无法做t-test时可以选择非参检验比如rank

最后,要提醒大家的是统计检验方法筛选差异蛋白质时往往都需要做多重假设检验校正。多重假设检验(Multiple Hypothesis Testing)是指同时对多个假设进行检验首先将多个单重的假设检验作为一个整体,然后对这个整體中的所有假设同时进行检验常用的多重假设检验方法是BH FDR校正法。




北京博奥麦斯生物技术有限公司简称“博奥麦斯”,专注于开拓前沿蛋白质组和代谢组学技术秉承“科学公正、高效准确、求实创新、卓越和谐”的服务理念,依托先进的科研平台、丰富的科研经验、標准化的服务流程及严格的质量控制体系竭诚为广大投身于生物、农业、医药等领域的科研工作者提供全方位、一站式、优质高效的技術服务和专业的数据分析方案。

欢迎对组学感兴趣的老师与我们沟通交流

稍微介绍一下真核生物定量生物學的一个"里程碑"2011年发表在Nature上的一组对鼠NIH3T3细胞作的蛋白组和转录组定量数据[1],某种程度上可以作为这一资源的介绍吧转录本的相对定量應该很多人都会接触到,比如说使用RT-qPCR的Ct值来比较转录本丰度的差异但是对于绝对定量(一个细胞内有几个分子的估计)可能很多人都不會去尝试(据

我要回帖

更多关于 什么是定量数据 的文章

 

随机推荐