您的当前位置:首页差异量数

差异量数

2023-04-09 来源:飒榕旅游知识分享网
差异量数

对于一组数据资料,如果只通过求其集中量数,了解它的集中趋势,这并不能准确反映该群体的全貌。因为平均数相同的不同群体,在很多情况下,可能存在着较大的差异。例如,我们现在给出甲、乙、丙三组数据资料,每组都是5个数据,并且具有相同的平均值。

甲:56,66,76,86,96平均值为76 乙:70,72,76,80,82平均值为76 丙:66,71,76,81,86平均值为76

观察上面三组数据,我们可以发现,尽管三组的集中量数相同,但它们的离散程度明显存在着差异。乙组最集中,丙组居中,甲组最分散。如果用“全距”这一最简单的描述差异情况的量数来做比较,可以看出:

组别 甲 乙 丙 最大值——最小值 56——96 70——82 66——86 全距 40 12 20 甲组差异量数最大,说明各数据值分散范围广并且参差不齐。 乙组差异量数最小,说明各数据值最集中、整齐。 丙组差异量数居中。

由此可知,为了客观认识数据资料的全貌,做出科学的判断,在比较各组数据资料平均值的同时,还要考虑其差异情况,只有这样,才能更准确可靠地掌握数据资料的全貌。

差异量数是代表一组数据变异程度或离散程度的量数。它反映了数据分布的离中趋势,即分化的程度。差异量数大,表示各数值分散的范围甚广且参差不齐;差异量数小,表示各数值甚为集中、整齐,其变动的范围小。

要想了解集中量数的代表性如何,可通过差异量数来进行判断。差异量数愈大,则集中量数的代表性愈小;差异量数愈小,则集中量数的代表性愈大。集中量数在量尺上反映为一个点,差异量数在量尺上反映为一段距离。只有很好地发挥二者的功能,才能对数据分布的全貌有一个比较明晰的了解。

差异量数大致分为绝对差异量数、相对差异量数和相对位置量数三类。绝对差异量数是反映一组数据离中趋势并以数据单位为单位的统计量,具体包括全距、平均差和标准差等。相对差异量数是一个比率值,不以数据单位为单位,它通常被用于比较两种测量单位不同的数据资料的差

异情况,具体有差异系数等。相对位置量数主要反映一个量数在其总体中所处的位置,从而便于比较不同量数在不同总体中所处的位置,它包括百分等级和标准分等。现分别进行简要介绍。

一.对差异量数 (一)全距

在本章第一节有关次数分布表编制的内容中,已经提到了全距。不过在本节中应该对全距有一个更加全面的认识。

1. 全距的概念

全距又称两极差,代表符号为R.。全距是指全部数据中的最大值与最小值之差。从其概念中可看出,全距是以自身的长短来表明数据分散情况的,全距差大则说明数据分布得比较分散,它的意义很明确,是表示数据分布离散程度的十分简单和容易计算的一种差异量数。

2. 全距的计算方法 全距的计算公式为: R=max(X)—min(X)

式中:R为全距,max(X)、min(X)分别为数据中的最大值和最小值。

对于原始数据或已编成简单次数分布表的数据,可直接找出其最大值和最小值并相减,所得之差就是全距。如数距3,5,6,8,13,16,20的全距R=20—3=17。

当面对次数分布表求全距时,只需用最大一组的组中值减最小一组的组中值,所得之差即为全距。例如表10—10中,最大一组为90——100,组中值为95;最小一组为50——60,组中值为55。因此,全距R=95—55=40。

3. 关于全距

全距的意义简明,计算简单,但由于它是依据最大值和最小值计算得来,只能体现一组数据的两极端数据之间的离散程度,不能反映中间数据的差异,受两极端数据的影响很大。例如,数距44,57,59,67,67,68,74和数据44,72,72,72,72,72,74,虽然两组数据的全距都是30,但它们的离散程度却差异很大。因此,全距对数据分布的差异状况描述得很粗略,并没有提供多少数据分布内部变异情况的信息,只能作为差异量数的辅助指标。

(二)平均差

我们知道全距的计算不是利用所有的数据,所以不能说明全部数据的分散程度。而平均差就避免了这一缺陷。

1. 平均差的概念

所谓平均差,就是指一组数据中的各个数据与该组数据的平均数(或中位数)离差的绝对值

的算术平均数。如果用各数据与其平均数之差作为离差来计算平均差,就用AD表示平均差;如果用各数据与其中位数之差作为离差来计算平均差,则用MD表示平均差。即:

XXAD=

N(公式10—8a)

MDXMNd(公式10—8b)

式中:AD和MD为平均差,2. 平均差的计算方法

X为平均数,Md为中位数,X为数据,N为数据的总个数。

①原始数据计算平均差的方法

对于未经整理分组的原始数据,可利用(公式10—8a)或(公式10—8b)来计算平均差。

例1,设有学生8人参加某次竞赛,个人所得分数如表10—14所示,平均分X=80.25分,试求其平均差。

表10—14原始数据求平均差示例

分数(X) 87 90 68 77 83 92 61 84 离差6.75 9.75 12.25 3.25 2.75 11.75 19.25 3.75 XX 计算方法 N=8,平均分X=80.25 XX69.5,代入(公式10—8a): XXADN69.58.698②根据次数分布表计算平均差的方法

对于已分组的数据,可用组中值来代替各组的数据。计算公式为:

fADXcXN(公式10—9)

式中:Xc为组中值,f为次数。

例2,已知144名成人体重的次数分布表如下,求其平均差。 (1)求平均数X,XfXNc52.8

表10—15利用次数分布表求平均差示例 体重(公斤) 65——69 60——64 55——59 50——54 45——49 40——44 42 Xc 67 62 57 52 47 f 3 6 42 58 30 XcX 14.2 92. 4.2 0.8 5.8 10.8 fXcX 42.6 55.2 176.4 46.4 174 54  5  f144 548.6 (2)求各组组中值与平均数之差的绝对值,即(3)用各组次数f分别乘

XcX。

XcX,求出fXcX。fXcX=548.6

(4)代入(公式10—9),求出平均差。

fAD3.关于平均差

XcXN584.63.8144平均差是用离差的绝对值来进行运算的。因为从描述数据分布的离散程度这一观点来看,无论是正离差(数据高于平均数或中位数),还是负离差(数据低于平均数或中位数),都表示与集中量数(平均数或中位数)有差异,所以应取绝对值。因为如果不取绝对值,那么,由于平均数的一个性质是数据与平均数之差的代数和为零,我们将无法计算下去,也将无法描述数据之间的差异状态。

(三)标准差

由于平均差的计算必须依靠绝对值的存在,这导致平均差的用途大受限制。为克服平均差的缺点,统计学家们研究出了一种比较理想的差异量数——标准差。

1. 标准差的概念

所谓标准差是指各数据与其平均数离差的平方和之平均数的平方根。在统计学的书籍中,总体标准差用表示,样本标准差用s表示。标准差的基本公式为:

2(XX)SN(公式10—10)

由计算公式可知,计算标准差首先要将每一离差数加以平方,这是因为正负离差数经过平方后均为正数,不会出现相互抵制而等于零的现象,这样做就可以避免平均差的缺点。但离差数平方后的结果,其单位与原来数据的单位不一致,为了保证标准差的单位与原始数据的单位相一致,就必须要进行开方。这就是标准差是各数据与其平均数离差的平方和之平均数的平方根的原因。标准差不如全距和平均差那么容易理解,它表示的是各数据离开平均数的平均距离。

2. 标准差的计算方法 ①未分组数据计算标准差的方法 

用基本公式计算标准差

例3,某班12名学生的数学考试成绩如下表,试求其标准差。已知解:

表10—16未分组数据求标准差示例一

X=77分。

X 969390858378777567635958 1916138610–2–10–14–18–19 3612561698136104100196324361 XX (XX)2 (XX)S21916,X77,N=12,代入(公式10—10)得:

=

2(XX)N1916159.67 12即标准差为分。

例4,某班12名学生的英语成绩如下表,试求其标准差。已知解:

表10—17未分组数据求标准差示例二

X=77分。

X 1009896959292876056554944 23211918151510–17–21–22–28–33 5294413612432252251002894414847841089 XX (XX)2 (XX)S24306,X77,N=12,代入(公式10—10)得:

2(XX)N=

4306358.83 12从上面两个例子可以看到,虽然两组数据的平均数都是77分,但是例3中的数据的标准差为分,而例4中的数据的标准差却为分。这说明两组数据的差异程度很不相同。例3那组数据的差异程度较小,平均分数77分的代表性就大一些;而例4那组数据的差异程度较大、比较分散,因此其平均分数77分的代表性就小一些。

用原始数据计算标准差

由于使用标准差的基本公式求标准差时,必须首先求出平均数,然后再求出各个数据与平均数之差,不仅过程麻烦,而且当平均数是非整数时,离差也会含有小数,计算比较繁杂并且结果不易精确。所以,当原始数据的个数不是很多的时候,可以利用原始数据直接求出标准差,即精确,又方便。计算公式为:

S式中:数。

XN2X()N2(公式10—11)

X2表示原始数据的平方之和;(X)2表示原始数据总和的平方;N表示总次

(公式10—11)来源于(公式10—10)。现证明如下:

证明:因为S(XX)N22

2所以S2(XX)N(X22XXX2)N

X=

22XXNXN=

X22XXN(X)NNN2

=

X2(X)2N

N2X=

NX()N2

所以SXN2X()N2

例5,根据表10—18资料,求其标准差。 解:

表10—18未分组数据求标准差示例三

X 509290838075706255 250084648100688964005625490038443025 X2 N9,X657,X249747代入(公式10—11)得:

2XSN(X)N2=

497476572()=14.09 99②根据次数分布表计算标准差的方法

在根据次数分布表来求标准差时,各组的代表值是组中值。其计算公式为: (公式10—12)

S式中:Xc为各组组中值,

f(XcX)2NX为平均数,N为总次数,f为各组次数。

例6,请根据表10—19的资料,求其标准差。 解:

表10—19次数分布表计算标准差示例 组别 65——69 60——64 55——59 50——54 Xc 67 62 57 52 f 3 6 42 58 XcX 14.2 9.2 4.2 0.8 (XcX)2 201.64 84.64 17.64 0.64 f(XcX)2 604.92 507.84 740.88 37.12 45——49 40——44 47 42 30 5 144 -5.8 -10.8 33.64 116.64 1009.2 583.23 3483.16  2=144,X=52.8,f(XcX)3483.16,代入(公式10—12)得: N

Sf(XcX)2N3483.164.92144(四)三种绝对差异量数的比较

全距的优点是易于了解,计算简便。只要找出一组数据的最大值和最小值,就可容易地求出全距。全距可表明全部数据差异的距离范围,为进一步的研究提供参考。但因为它只是根据最大值和最小值而求得,没有考虑中间数据的差异,所以感应不灵敏,易受两极端数值的影响。如果两端出现了一个极大值或极小值,就会导致全距发生很大的变化,因此用全距作为差异量数不够稳定,这是其主要缺点,只能用作差异量数的辅助指标。

平均差是与平均数经常联系使用的差异量数。它的意义容易理解,感应灵敏,易于计算,能反映全部数据的差异情况。但平均差的最大缺点是计算中使用离差的绝对值,不适合进一步的代数运算,不利于进一步的统计分析,这使得平均差的应用受到限制。

标准差是最常用的差异量数,它是与平均数经常联系使用的差异量数,在分析学生成绩工作中与平均数处于同样重要的地位。由于计算标准差需要全部数据都参加运算,所以标准差能够反映数据分布中全部数据的差异情况。标准差数值稳定,适合代数方法运算,是最重要、最可靠的差异量数指标。正因为如此,在教育研究中度量离中趋势时多使用标准差为代表量数,而且在进行推断统计时也经常使用它。当然,我们也看到标准差的意义较难理解,计算方法也较复杂,受极端数据的影响也较平均差大。

二.相对差异量数——差异系数

前面介绍的全距、平均差和标准差都是具有与原数据相同单位的差异量数,即绝对差异量数。当两组数据的单位相同,并且平均数相差不大时,即可使用上述的绝对差异量数来比较两组数据的差异情况。但是,如果两组的测量单位不同,或者虽然测量单位相同但平均数相差很大时,就无法用绝对差异量数来直接比较其差异程度的大小。例如,某班学生身高的标准差为10厘米,体重的标准差为2千克,这两个单位不同的差异量数就无法进行比较。再比如,某班学生的语文考试平均分为92分,标准差为6分,而另一个班学生语文考试平均分为65分,标准差为5分,

尽管给出的数据单位相同,但由于平均分相差较大,也不能直接比较两班语文成绩分布的差异情况。面对这种情况,要想比较差异程度,就需要利用相对差异量数。

相对差异量数是绝对差异量数与集中量数之比所得的比率。由于绝对差异量数所具有的测量单位与集中量数的测量单位相同,所以两者相比后所得到的比值没有实际单位,也就是说相对差异量数是一个比率值,没有实际单位。

常用的相对差异量数有很多,这里只介绍一种最常用的相对差异量数——差异系数。 差异系数又称标准差系数,代表符号为CV,它是标准差与算术平均数的百分比,它不具有实际测量单位。其计算公式为:

CVS100%(公式10—13) X式中:CV为差异系数,S为标准差,

X为平均数。

从公式可看出,差异系数大,说明数据分布的离散程度大;差异系数小,说明数据分布的离散程度小。差异系数的大小与平均数的大小成反比关系。下面举例说明差异系数的计算与用途。

1.比较不同单位数据的差异程度

例7,在某校六年级学生100人中进行调查。平均身高为146厘米,标准差为20.5厘米;平均体重为36公斤,标准差为7.6公斤,问体重与身高的离散程度哪个大?

解:此题由于体重与身高的测量单位不同,不能直接用标准差比较其离散程度的大小,只有求出各自的差异系数才能比较。将上述各数据直接代入(公式10—13)得:

CV身高20.5100%14.04%1467.6100%21.13%36CV体重由此可见,体重数据分布的差异程度较身高数据分布的差异程度大。 2.比较单位相同但平均数相差较大的数据的差异程度

例8,已知有男大学生125人,平均体重为60。59公斤,标准差为4。26公斤;另有女大学生125人,平均体重为48。52公斤,标准差为3。91公斤。试比较男女大学生体重的差异程度。

解:两组数据的测量单位相同,如果直接用绝对差异量数进行比较,似乎男大学生的体重的离散程度大于女大学生体重的离散程度。但由于两组数据的平均数相差较大,这样直接用绝对差异量数相比较,显然是失去了实际意义。因此应该用差异系数来进行比较。将上述各数据直接代

入(公式10—13)得:

CV男4.26100%0.07%60.593.91100%0.08%48.52CV女实际上男大学生与女大学生的体重的差异程度大致相同。 三.相对位置量数

前面所介绍的差异量数都是通过描述一个数据与另一个数据或中心点相差的距离来反映总体中各数据之间的差异情况。而相对位置量数则是通过描述一个数据在其总体中所处位置的情况来反映其差异程度。比如,一个学生的英语成绩是88分,语文成绩是85分,怎样判断这个学生的哪一科成绩在班里更好一些?比他成绩好的占百分之几?比他成绩差的占百分之几?要想进行比较,就需要通过一个量数来测量其相对的位置,这就是相对位置量数。常用的相对位置量数有两种,即百分等级和标准分数。下面分别作简要说明。

(一)百分等级

百分等级的代表符号是PR,它是表示某个量数在其所属的团体中所超过的单位数占总单位数的百分数。以考试成绩为例,如果已知某学生成绩的百分等级为90,即表示其成绩超过参加考试的学生总数的90%,也就是说该学生所在集体中的90%的学生成绩低于这个学生的成绩。

百分等级是一种相对位置量数。学生考试成绩的原始数据,只能说明分数的多少,但无法描述其在总体中的位置。我们经常采取的排名次顺序的做法,也只能说明某学生成绩的高低次序,不能反映其在总体中的地位。但百分等级则不同,它是把参加考试的全体人数作为一百来计算,然后将某生的原始分数换算出其在全体中的地位,以此进一步给出分数比该生少的学生数占学生总数的百分比。

1. 原始数据求百分等级的方法 未分组数据求百分等级的计算公式为:

PR100100R50(公式10—14)

N式中:PR为某分数的百分等级,R为某学生的原始分数在总体中按高低排列的名次,N为总人数。

例9,某校高中一年级共有35名学生参加数学竞赛,按其成绩排列名次为第1名、第2名……直至第35名。试求第5名学生的87分的百分等级。

解:已知N=35,R=5,代入(公式10—14)得:

PR100100R5010055010010012.8687.14N35在35人中第5名的百分等级为87.14,可以解释为第四名学生的87分超过参加竞赛的全体学生的87.14%,或者说有87.14%的人成绩低于87分。

2. 次数分布表求百分等级的方法 根据次数分布表计算百分等级的公式为:

PRf(XL)100(公式10—15) FbiN式中:PR是百分等级,X是给定原始分数(量数),f是该分数所在组的次数,i是组距,L是该分数所在组的下限,Fb是小于L的累积次数,N是总次数。

例10,某班有50名学生,期终考试的成绩如下表,已知N=50,X=67。试求72分的百分等级。

解:

表10—20根据次数分布表求百分等级示例 组限 90——95 85——90 80——85 75——80 70——75 65——70 60——65 55——60 次数(f) 累积次数 1 2 4 5 8 10 8 7 50 49 47 43 38 30 20 12 = =(3.2+30)×2=66.4 算法 X=72,f=8,i=5,L=70,Fb=30 代入(公式10—15)得: PR f(XL)100 FbiN8(7270)100 3055050——55 45——50 总计 3 2 50 5 2 可以解释为在72分以下的人占总人数的66.4%,或者说72分超过全体学生成绩的66.4%。 (二)标准分数

标准分数也称Z分数,通常用符号Z来表示。标准分数是某一原始分数与平均数之差除以标准差所得之商。其计算公式为:

XXZS

(公式10—16)

式中:X为原始数据,S为原始数据所在数据集合的标准差,X为原始数据所在数据集合的平均数。

从公式中可看出,标准分数不以原始数据的单位为单位,它是用标准差为单位来衡量某一原始分数与其平均数之差的,由此体现原始分数在平均数以上或以下几个标准差的位置上,进而描述了该原始分数的相对位置。标准分数是一个抽象数值,没有实际测量单位。它可接受代数方法的处理,可以加减或平均,所以在教育研究中具有很大的实用价值。

1. 标准分数的性质 (1)

一组数据的标准分数的平均数为0,即Z=0。

证明:因为ZZi1NiN1Ni1NXiX1N()(XiX) SNSi1又因为

(XX)0(平均数性质)

i1N所以Z=0 (2)

一组数据的标准分数的标准差为1,即SZ1。

证明:因为S(XX)N2

所以SZ(ZZ)N2

又因为Z=0

所以SZZN22(XX2)S N=

(XX)NSNS21 2NS2. 标准分数的计算方法

标准分数的求法很简单,只要先求出数据组的平均数和标准差,并将其代入(公式10—16)便可求出。

例11,某班化学考试成绩的平均分为78分,标准差为9分。已知甲生成绩为87分,乙生成绩为60分,试求甲生和乙生成绩的标准分数。

解:直接将题中给出的各数据代入(公式10—16)得

ZXXS

Z甲877819Z乙6078293. 标准分数的主要用途

标准分数在教育研究中的用途非常广泛,概括起来,主要有以下三点: 第一,标准分数可以反映学生的成绩在班级成绩中的位置。

正态曲线与其底边所围成的面积称为正态曲线下的面积,代表分布的总次数。在正态分布图上,我们可以看到,自曲线横轴中心对称点即平均数向左右各量1个标准差的范围内,包括曲线下总面积的68.26%,在左右各量2个标准差的范围内,包括总面积的95.44%,而左右各量3个标准差的范围内大约包括曲线下总面积的99.74%。如图10—6所示。

图10—6正态曲线下S的距离及其所占面积的示意图

如果一个学生的标准分数等于1(即为与平均数向右量一个标准差的位置),则表明全班有84.13%(50%+34.13%)的学生的成绩在该学生成绩之下,有15.87%的学生成绩比该学生的成绩高;如某一学生的标准分数为–2(即位于平均数向左2个标准差的位置),就说明全班有2.28%(50%—47.72%)的学生的成绩比该学生低,有97.72%的学生成绩比其高。一个学生的成绩的标准分数是正值,表明这个学生的成绩是在班级的平均成绩之上;如果标准分数为负,说明其成绩低于全班的平均成绩;标准分数为0,则说明该学生成绩等于全班的平均成绩。标准分数越大,则代表其成绩在班级中的相对位置越高。

第二,标准分数可以将某个学生在两种或多种测验中所得分数进行比较。在研究中,如果数据之间由于种种原因在绝对比较上缺乏可比性,可以借助标准分数,通过相对位置的比较在一定程度上达到绝对比较的目的。比如,在某班期末考试中,数学测验成绩的平均数为82分,标准差为7分;外语测验成绩的平均分为68分,标准差为5分。某学生的数学考试成绩为84分,外语考试成绩为76分,试分析该学生哪一学科的成绩在班级里更好一些?

由上可知,某学生的外语成绩比数学成绩好。

Z数学Z外语84820.29776681.65第三,标准分数可以有助于解决不同阶段、不同学科测验考试成绩的可加性问题。 以往在计算学生考试的总成绩时,一般都是直接将原始分数相加得出总分。但因为各学科的命题标准不统一,试卷难度不一致,各科的原始分数不等值,并不具备可加性,这就好比不能把100元美元和100元人民币相加的“200元”一样。由于标准分数是以标准差为单位,以平均数为参照点的,具备一定的可加性,所以运用标准分数来计算分析学生的各科学习状况比较科学。

例12,甲、乙两个学生期末各科考试成绩如表10—21所示,试分析哪个学生的成绩根好一些。

表10—21标准分数在计算总成绩中的应用示例 考试 科目 个人分数 甲 乙 全体考生 平均分 标准差 个人标准分数 甲 乙 语文 数学 外语 政治 物理 化学 86 80 46 74 56 91 75 68 62 78 77 87 447 84 77 50 70 62 75 5 6 12 8 12 8 0. 0. -0。33 0. -0。50 2.00 50 50 40 -1。86 -1。50 1. 1. 00 00 1.25 1.50 433 2.57 1.45 由上表看,原始总分数乙比甲高14分,但标准分数甲却比乙高112分。因此,甲的成绩要比乙的成绩稍好一些,而不是乙比甲好。

因篇幅问题不能全部显示,请点此查看更多更全内容