1临床资料数据处理的几个基本概念
1.1总体与样本(Population and Sample)
总体是根据研究目的确定的同质事物中所有观察单位的全体。临床研究的对象是病人,如研究某两种中药对真中风病患者的急性期治疗效果,总体就是全部真中风病患者。当然我们在临床上无法研究全部的真中风病患者,既总体。而是用随机化的方法抽取其中一部分病例进行研究,这一部分病例称样本。样本的研究目的是了解总体,推论总体规律。要保证样本的可靠性,必须要求当总体确定后,样本中每一观察单位确属预先确定的同质总体。另外,还要保证样本具有代表性,能够充分反映总体的真实情况,还必须要求抽样遵守随机化原则,并有足够的样本含量。
1.2抽样误差(Sample error)
在抽样过程中,即使是从同一总体中随机抽取含量相等的若干样本,算得的样本指标也不一定相等,这种因抽样产生的样本与样本之间,样本与总体之间相应统计指标之间的差异,称抽样误差。由于个体差异,样本未包含总体的全部信息,即使以随机化原则抽样,样本与总体之间差异仍不可避免,因而抽样误差是无法避免的。临床研究不可能观察过多病例,而抽样误差的大小取决于观察个体间变异程度大小和样本含量多少,变异程度越小,样本含量越多,抽样误差越小,反之亦然。
1.3概率(Probability)
概率是度量某随机事件发生可能性大小的一个数量,常用符号P表示,临床观察结果有两种类型,一是必然事件,二是随机事件,在一定条件下必然发生的事件称必然事件,而可能发生也可能不发生的事件称随机事件,医学上许多事件是随机事件,如病人来医院就诊,其临床治疗效果的有效与无效、治愈与死亡,在治疗前是不能轻易作出肯定答复的,因此病人治疗效果是随机事件。
概率的取值范围在0~1之间,可用小数或百分数表示,即0≤P≤1,或0%≤P≤100%,某一事件必然不发生,则该事件发生的概率为0;某一事件必然发生,则该事件发生的概率为1。当P→0时,表示某一事件发生的可能性极小,小的几乎不可能发生。当P→1时,表示某事件发生的可能性极大,大得几乎必然要发生。临床上最常见的为P>0.05,P≤0.05,P≤0.01,如果出现P<0.05是说该事件出现的概率小于5%,当样本足够大时n≥30或n≥100例时,频率具有稳定性的随机事件,可将频率作为概率的估计值。
1.4显著性检验(Significance test)
从抽样误差的概念中可以理解,如果观察两种中药治疗真中风病的疗效有差别,可能有两种原因造成,一是单纯由抽样误差所致(即两个样本来自同一总体),二是除抽样误差外,两种中药的效果确实有所不同(即两个样本来自疗效不同的两个总体),如何判断差别是由何种原因引起的,可用显著性检验来鉴别。步骤是:首先对总体的参数作出某种假设,如两种中药总体有效率相等。在此假设的前提下,对样本数据进行处理,计算出两个样本的有效率,再利用概率分布原理,计算出χ2值,由此再计算出相应的概率(P),对原假设应该被拒绝还是接受作出推断。若差异由抽样误差引起的可能性很大,则P值大,如P>0.05,统计上称这种差异为“无显著性意义”。意思是这两种中药来自疗效相同的同一总体,只因抽样误差使表面上有些差别,实质上其疗效是差不多的;若差异超过了抽样误差所允许的范围,则P值很小,如P≤0.05或P≤0.01,统计上称为“有显著性意义”,这时才能认为这两种中药来自疗效不同的两个总体,其差别不能仅由抽样误差来解释。只有此种情况下,才能推断两种中药的疗效有优劣之分。
2临床资料的类型
正确区分临床资料的类型是正确选用统计分析方法的首要前提。中医临床随着越来越多的现代科学技术的应用,中医辨证逐步走向量化和规范化,因而临床数据日益增多,按其性质分两大类,计数资料和计量资料。
2.1计数资料
将观察单位按某种属性或类别分组计数,得到各组观察单位的个数称计数资料。又称以属性为标志的分组资料,或称记录每个观察单位的某一方面的特征和性质的资料。
计数资料又可细分为定类尺度(Nominalscale)和定序尺度(Ordinalscale)两种测量水平。
属于定类尺度的计数资料又称命名水平,或名又资料、分类资料、命名资料,它的取值通常是文字、字母或代号,即使是用数字表示,也只是一种分组的标志,并不代表数量的大小;其所获得的数据仅能归入不同的差别,而各类别之间没有任何内在的固有顺序或其他联系,如不同的性别,男、女;不同的血型,A型、B型、O型和AB型;不同的证候,气滞证、血瘀证、痰湿证等。由于只是按事物的某种属性计数,只能区分事物的属性或类别的不同、差异,不能反映事物的动态和程度的变化。故,它提供的信息少,若用它来表示疾病的程度及病情的轻重,提供诊断上的参考依据,评价疗效和判断预后等,其意义是有限的。如,分别表现为气滞、血瘀、痰湿证的不同病人,我们无法比较他们病情的轻重。而只能说,这三个患者的证候不同。此类数据仅仅为了命名和分类,此外,没有任何其他意义。
属于定序尺度的计数资料又称顺序水平、有序资料、等级资料或半定量资料,这类数据除了有命名和分类的意义以外,各类别之间具有内在的顺序联系,不同的取值之间有半定量的关系,可以按数量的相对大小或程度的高低排出顺序,可用来比较大小。如治疗效果分为(无效为0、有效为1、显效为2、治愈为3)4个等级;营养状况分(差为1、中等为2、良好为3)3个等级。
计数资料,无论其是属于定类尺度或是定序尺度,都是以观察单位截然不同的性质归类,所以较少发生归类错误。同时,由于组内变异小,因此较少发生误差。中医临床资料以计数资料居多。
2.2计量资料
对每个观察单位用计量方法测量某项指标数值的大小所获得的资料称计量资料。或称以数量为标志的分组资料。一般用度量衡测量,以不同单位表示。
计量资料也可细分为定距尺度(Intervalscale)及定比尺度(Ratioscale)两测量水平。
定距尺度又称等距水平,它测量的两个数据之间的距离是固定的,可是测量它的单位和零点水平却是人为规定的。典型的例子就是温度的测量,它的测量单位可以用华氏也可用摄氏,可根据不同的需要而定,且其零点水平是不一致的,即0℃≠0。由于定距尺度的这种特点,数据之间差异的关系只能用差值来描述,不能用倍数(比值)来描述。如三个物体A、B、C,其相应温度分别为10℃、20℃、30℃,我们只能说,B、A之间的差等于C、B之间的差,却不能表述为C、A之间差是B、A之间差的2倍。但是,任意两个距离的比却与用什么单位和选择什么水平为零点无关。如:0℃=32,50℃=122,100℃=212,可是(50-0)/(100-50)=(122-32)/(212-122)=1。
定比尺度又称等比水平,是四种测量水平中最高的一种。通过定比尺度测量的数据具有前三种尺度的全部性质。此外,它的测量零点不是人为规定的,而是绝对的,非任意和具有一定意义的。如身高的度量:我们可用英尺作单位,也可用厘米作单位,但不管其单位是英尺或厘米,其零点水平是绝对的,不能任意改变的,即0英尺=0cm。因为这两种单位具有绝对的零点水平,而任意的两个数据之间的差异,不仅可以用差值来表述,更可以用比值来表述。所以,这种测量尺度的任意两个数据之比是固定的,与测量选择的单位无关。临床资料如年龄、胆固醇、粘蛋白等这些数据均为定比尺度资料。
此外,高测量水平资料可向低测量水平资料转换,如血红蛋白测量,得到一组数据,这是定比尺度资料,若按数值大小分正常、轻度、中度、重度贫血4个等级,得到的这组资料为定序尺度资料;若按血红蛋白正常与异常分组,又可得到定类尺度资料。相反,低测量水平的资料无法转换为高测量水平的资料。如以160cm为界值划分为高个与矮个的定序尺度资料,无法转换为定距或定比尺度资料。在中医临床数据中,计量资料以实验室理化检查结果为主。
3临床资料的统计处理方法
当我们从临床上收集来数据后,首先看是计量资料还是计数资料,通常计量资料是连续的,如长度、时间、重量等,连续的<
