1教育统计与评价_复习提纲-word资料(精)

2022-01-05 来源：飒榕旅游知识分享网

《教育统计与评价》复习提纲

《教育统计与评价》测试一填空１．描述性评价的主要特点是：计算综合指标。

２．标准分数的作用是把各类原始分数统一在高于或低于平均数多少的标准上衡量的。

３．显著性水平指的是显著时犯错误的可能性。

二、选择题１．对两个独立总体的比较即是何种比较？.横向

２．一般来说，复习次数与遗忘程度是何种相关情形？负相关

３．欲比较学生德、智、体、美四个方面是否均衡发展时，应使用何种综合指标？.标准差

４．欲研究辅导是否有效的问题，分别对学生辅导前后进行同一难度不同题目的测验，这时对测验分数的检验方法是哪种？t

检验５．欲研究考试结果能否反映学生的真实水平时，应作何种分析？信度

6．若统计检验结果在0.05的水平上显著，则在0.01水平上是否也是显著?.不一定

三、应用题１．某高三教师自编一套英语测试题，用来预测学生的高考英语成绩，问：据下列测验结果能否说明自编测验对

高考有预测效果？分析效标关联效度，应计算积差相关系数并且检验。

2.据某题数据资料计算难度并给予评价。按主观题难度系数公式计算，再判断属难易或适中

四、简述题１全面说明等级平均数的作用。根据等级平均数适用的数据及评价对象进行思考２应用哪些统计方法可以全面评

价教学实验后学生的学业成绩？独立总体和相关总体平均数差异分析结合。

《教育统计与评价》测验二一、填空题1定量评价的主要特点是从量的方面说明教育问题。

2标准差是反映现象内部差异的一个综合指标。3显著性水平愈小，叫推断结果犯错误的可能性愈小。

二、选择题1．设计调查问卷时，应尽可能采用何种问卷形式？限制式

2．欲全面评价个人或集体时，宣使用何种平均数？评分平均数

3．欲评价某事物的水平时，应使用何种综合指标？平均数

4欲研究某校干部和教师对该校某一改革方案的看法是否一致的问题，属何种检验情形A两个独立总体比例5欲研究性格与

性别的关系问题，应使用何种检验方法？检验6欲研究某班统计学考试成绩是否存在显著的性别差异，应使用何种表？t分

布表

三、应用题1．试比例下列两学生某科两次考试总绩哪个优？其中学生第二次考试是否退步？甲、乙生两次成绩分别转为

标准分数再相加或比较2.试对下列某校办二厂两个班组职工的月收入情况予以比较，并说明理由。（单位：元）甲组：672，

672，666，660，654，648，648乙组：690，684，672，660，648，636，630综合应用平均数和标准差比较

四、简答题１如何理解一个人的测量结果只是他的真实水平的估计值？据随机误差进行思考２应用哪些统计方法可以全面评

价教学实验后学生的学习兴趣情况？独立主体和相关总体比例差异分析结合

教育统计学：教育统计学是应用统计学的一个分支，是统计学与教育学的一门交叉科学。它是运用统计学的原理和方法，研究和把握教育现象数量方面的一门方法论科学。

教育评价：教育评价是按照一定的教育性质、教育目标，采用定量和定性等手段对教育客观事物进行测量、分析、价值判断以及提供决策有用信息的一个过程。

描述统计：对调查获得的数据资料进行整理、概括或计算出能够反映教育现象的综合指标。借助于这些综合指标，进行比较并作出结论。

推断统计：根据样本提供的数据资料特征并以一定的置信度推断或预测总体的有关情况。在教育研究以及教育实际工作中，往往所要调查的总体很大，不能或难以进行全面调查，这时往往运用推断统计的方法，由局部（样本）推论总体，由已知推论未知。

横向评价：是将评价对象与其他对象进行比较。它的特点是在评价时不考虑评价对象的背景情况和今后的发展趋势，只是考察评价对象在特定的时间和特定的空间中的现实状态，所以又称静态评价。

纵向评价：是对评价对象的过去和现在进行比较，即考察其历史情况，注意其发展的潜力和发展趋势，所以又称动态评价。绝对评价：是将病人对象与评价对象总体外的某一客观标准进行比较，又称目标参照性评价。

相对评价：是将评价对象与评价对象总体内的特定元素进行比较，或者对评价对象放在评价对象总体内排序。相对评价也称常模参照性评价。

定性评价：是对教育客观事物的性质进行分析，即从质的方面说明教育问题。

定量评价：是对教育客观事物的数量方面进行分析，即从量的方面说明教育问题，或者说对教育问题的说明提供数量的依据。安置性评价：是采用摸底测验的形式，了解学生已具备的知识基础与技能，以便决定教育教学的起点或者作出某种安排等。即为作出某种安排，一般在教育教学活动前进行。

诊断性评价：是采用诊断测验的形式，研究和发现学生学习中存在的问题和实际困难，以便采取恰当的补救措施。即为发现问题，一般在教育教学活动前或中进行。

：旨在改进和发展正在进行着的教育教学活动或方案，即为揭示存在的问题，及时反馈信息，及时进行调控管理。形成性评价
即为提供过程中的信息，一般在教育教学在活动中进行。

终结性评价：是在教育教学活动的终止时，对成果的核定、鉴定，或对评价对象作出某种资格证明。即为作出某种鉴定，一般教育教学在活动终进行。

限制式问卷：是对提出的问题，根据测评的需要以及实际情况，事先安排好答案，由对方从中选择适当的答案。即找出问题后安排答案，让对方从中选择。限制式问卷又分为单选、多选和排序三种。

开放式问卷：是对提出的问题不事先安排答案，而留出空位，让对方自由回答。即找出问题后不安排答案，让对方自由回答。半限制式问卷：找出问题后既安排答案，也有自由回答。

类别量表：表示事物的分类。(统计人数)
顺序量表：表示事物的顺序。(排名次)
等距量表：既可表示事物的分类、顺序，也有相等的计量单位和相对零点。

比率量表：既可表示事物分类、顺序，也有相等的计量单位和绝对零点。

一般来说，类别量表测量得到的数据库的类别数据；顺序量表测量得到的数据称为顺序数据，等距量表和比率量表测量得到的数据均称为测量数据。

描述性评价：是对数据资料计算综合指标值，然后根据综合指标值对教育客观事物给予评价。

综合指标：指的是从教学方面综合说为事物特征的指标。常用的综合指标有绝对数、相对数、平等数和标准差。

集中趋抛：指大多数数据比较趋近的水平。通常把集中趋势的量数称为集中量数，平均数是最常用的一种集中量数。离中趋势：指数据之间变异程度或离散程度。通常把描述离中趋势的量数称为差异量数，标准差是最常用的一种差异量数。标准分数的作用：把各种不同类型的分数统一在高于或低于集体平均分多少的标准上衡量。

标准分数的具体应用
1．正确评价同一学生科目的成绩，如前面例子。

2．正确评价同一学生同一科目不同阶段的成绩。如前面例子。

3．正确评价不同学生多科总成绩。例如p129表8-10。

高考标准化考试报告的分数是已经对z进行了线性变换，即y=500+100Z，这并不会改变原来z的排序，线性变换避免了负数的出现，且有利于选拔。

推断性评价：对数据资料进行统计检验，然后依据统计检验的结果并以一定的置信度对教育客观事物给予评价。

统计检验：数据资料进行统计检验
独立总体：两个总体的对象不同，对它们的差异评价，也可称为横向评价。

相关总体：两个总体的对象相同，对它们的差异评价，也可称为纵向评价。

t检验：独立总体和相关总体的检验都应用了t分布表，这种应用t分布表进行统计检验的方法，通常称为t检验。

显著性水平：
效度是考试的有效性。

内容效度：考试内容与预定要考内容一致性程度。

内容效度的分析方法：利用双向细目标进行分析。注意编制双向细目表的步骤和要求。

效标关联效度：考试结果与效标的一致性程度。

：主要是通过考察考试结果与效标之间的相关程度，即计算两者之间的相关系数并进行显著性检验。效标关联程度的分析方法
信度：考试的可靠性。

再测信度：用同一份试卷对同一组学生不同时进行前后两次考试，然后分析两次考试结果的一致性。

再测信度的分析方法：主要通过考察两次考试结果的相关程度，即计算两次考试成绩的相关系数并且进行显著性检验。再测信度的不足之处：前后两次考试的时间间隔不易把握。

分半信度：有意识的把试卷编制成等效的两个部分，然后分析这两部分考试结果的一致性程度。这相当于一份试卷对同一组学生同时进行两次考试，避免了再测信度两次时间间隔的问题。

需理解的问题
1、四种收集资料方法及各自所适用的情况观察法
(1)、观察法的主要特点是到现场观察，特别适用于行为表现方面的评价。

(2)、问卷法的主要特点是填答问题表格，主要适用于内隐的心理活动方面的评价，比如思想性、认识性比较强的问题。(3)、访问法的主要特点是直接交谈，特别适用于深入了解情况以及不具备填答问卷能力的对象。

(4)、测量法的主要特点是具体测试。

2、选用问卷种类的原则
(1)、能比较简明扼要表达答案意思的可用限制式问卷。

(2)、所比较简明扼要表达答案意思，但把握不到安排的答案能否包含所有的想法，可用来限制式问卷。

(3)、对于复杂的一些探讨性的问题。可采用开放式问卷
3、对测量结果的正确理解(重要)
鉴于测量误差是不可避免的，尤其是随机误差，所以对测量结果应给予正确的解释，可见p55第五段。我们不能把测试结果看作一个确定的点，而是具有一定分布范围的或带状的。一个人测试的结果只是他的真实结果的估计值。一个人测试的结果只是他的真实结果的估计值。认识到这一点，我们即可避免对两次测试结果之间小的差别作过分的解释，或不会将两位被测者之间分数不甚大的差别当作有意义的事情看待。

4、各种综合指标的作用
绝对数说明事物的规模。

相对数说明事物的程度或幅度。

平均数说明事物的水平。

标准差说明事物或现象内部差异情况的一个指标。

5、对标准差的解释
标准差的值愈大，则说明差异愈大，否则说明差异较小。但究竟标准差大好还是小好？这不能一概而论需要具体问题具体分析。

6、等级平均数：
是对总体中各个体根据一定的标准、条件赋予不同等级并按等级归类汇总以后再计算加权平均数的方法。

公式：
X为代表各等级编号，ｆ为代表各等级次数，N代表总次数。

等级平均既可用于总体的评价，也可用于对个体的评价。

标准分数：
标准分数的解释
1．Z>0时，该成绩高于集体平均水平。

2．Z<0时，该成绩低于集体平均水平。

3．Z=0时，该成绩就处于集体平均水平。

4．Z值愈大，该成绩愈好。

相关系数是反映两事物之间的联系方向和程度的一个量数。通常用表示，它的取值范围限于。

分半信度的分析方法：先计算两部分结果的相关系数，再代入分半信度计算公式，即客观题的应达到0.9以上，主观题的应达到0.8以上。

难度：试题的难易程度。

难度系数的计算
主观题：公式p=x/w。x为某题平均得分，W为该题满分值。难度系数的解析:1）P>0.7时较易
2）P<0.3时较难3）时较适中
客观题：公式p=k/N。K为某题答对人数，N考生总人数。一般来说，全卷的平均难度应在0.45-0.55之间。全卷的题目难度分配一般为易：中：难=3：5：2。当然结合考试目的灵活处理。

区分度：试题的鉴别能力。

区分度分析：
1．相关法：计算学生试题得分与试卷总分的相关系数并且进行显著性检验。

2．两端分组法
①两端分组法区分度（D）的计算公式；D=
其中分别为学生高分组和低分组中的难度。注意高分组和低分组各取27%的学生。

②两端分组法区分度D的解释
1）当D时区分度属好
2）当时区分度比较好
3）时区分度还可以
4）
计算公式及应用
一、独立总体差异检验规则
若
则认为两个比例差异不显著，否则认为差异显著。

可查正态分布（附表一）得到。

例1：某方案的态度：80教师70赞成，100学生74赞成
则P1=70/80=0.875P2=74/100=0.74 n1=80n2=100
计得Z=2.360
查得Z1-0.05/2=0.975=1.96
因l2.360﹤1.96故该方案的态度存在显著差异
例2：某市甲校参加课外活动的学生占64%，忆校占58%。

解：本题属于“独立总体比例的差异分析”情形。但本题缺少条件：假定甲120人，忆110人。

1、算也z值，将数据代入公式
算得Z=0.94
2、检验：因为Z=0.94﹤Z1-0.05/2=0.975=1.96
所以可以认为两校参加课外活动的人数比例没有差异。

二、相关总体差异检验规则
若
则认为两个比例差异不显著，否则认为差异显著。

公式中的b、c是看法不一致的两类人数。

例如100人对两个方案的表态有下面四种情况：
①a=55②b=5③c=15④d=25
其中第②、③两类人数即为b和c
以上关于比例的差异分析，无论是独立总体还是相关总体的检验都应用了正态分布表，这种应用正态分布表进行统计检验的方法，通常称为u检验。

例1解：1、算出Z值，将数据代入公式,计得Z=2.24
2、检查：因为Z=22.4﹤Z1-0.05/2=Z0.975=1.96
说明教师对两个方案的态度存在显著差异，方案2比方案1容易接受
例2100青年作两个实验。结果：两个都通过有45人，实1通过而实2未通过有23人，实1未通过而实2通过有5人，两个实验都不通过有27人。

解：本题属“相关总体比例的差异分析”情形
1、算出Z值，将数据代入公式,计得Z=3.4
2、检查：因为Z=3.4﹤Z1-0.01/2=Z0.9995=3.29
说明两个实验的成绩结果相差非常显著，方案1比方案2简单得多。

三、检验（两事物均为类别数据）
x21（0.05）=3.841x21（0.02）=5.412x21（0.01）=6.635x21（0.001）=10.8272×2的检验规则（均为二分型的类别数据）
若
则认为两事物关系不显著，否则关系显著
例1参加公益态度：积极：男20女30
消极：男25女16
解：本题属“检验”情形
1、算出x2值
将各数据代入公式x2==3.17
（2-1）=12、检验：df=(r–1)(k-1)=（2-1）
查表x21（0.05）=3.841
因为x2=3.17﹤x21（0.05）=3.841，所以学生参加公益活动与性别不存在显著关系（青年的地区来源对电影的评价态度没有差异）
作业1：数学成绩是否存在显著差异?

男:96-72-83-67-78-92-89-54-87-74-74-68-71-63
女:95-76-88-81-68-77-47-72-83-62-67-59-74-85-87-76

本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之

处，请联系网站或本人删除。

系统测试与验收方案

本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删

除。

系统测试与验收方案

.测试方案
.单元测试
.单元测试说明
在计算机编程中，单元测试（又称为模块测试）是针对程序模块(软件设计的最小单位)来进行正确性检验的测试工作。程序单元是应用的最小可测试部件。在过程化编程中，一个单元就是单个程序、函数、过程等；对于面向对象编程，最小单元就是方法，包括基类（超类）、抽象类、或者派生类（子类）中的方法。单元测试的目标是隔离程序部件并证明这些单个部件是正确的。一个单元测试提供了代码片断需要满足的严密的书面规约。因此，单元测试带来了一些益处。单元测试在软件开发过程的早期就能发现问题。

.单元测试方法与内容
用控制流覆盖和数据流覆盖等测试方法设计测单元测试主要采用白盒测试技术，
试用例；主要测试内容包括单元功能测试、单元性能测试和异常处理测试等。

.单元测试流程

图15-1单元测试流程图
从配置库获取源码文件，设计测试用例，执行测试用例，并利用相关测试工具对

本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删

除。

单元代码进行测试，将测试结论填写到单元测试报告和软件Bug清单中。把软件Bug清单和测试用例执行结果提交测试负责人，并进入纳入质量管理。对源码文件进行的测试，视程序存在缺陷的情况，可能要重复进行，直至问题解决。

单元测试的执行者，一般情况下可由程序的编码者进行，特殊情况可由独立于编码者的测试人员进行。

.单元测试用例
编程组组长组织、指导开发人员根据《系统设计说明书》，编写所负责代码设计 ，设计单元测试脚本。模块的《单元测试用例》

.代码评审
代码评审也称代码复查，是指通过阅读代码来检查源代码与编码标准的符合性以及代码质量的活动。

评审的内容:
1)编码规范问题:命名不规范、magicnumber、；
2)代码结构问题:重复代码、巨大的方法和类、分层不当、紧耦合等；
3)工具、框架使用不当:Spring、Hibernate、AJAX等；
4)实现问题:错误验证、异常处理、事务划分、线程、性能、安全、实现过于复杂、代码可读性不佳、扩展性不好等；5)测试问题:测试覆盖度不够、可测试性不好等。

评审的优点:
1)提高代码质量:在项目的早期发现缺陷，将损失降至最低

音乐组学期工作总结

音乐组学期工作总结1
〈一〉、九月份由教务处、教科室举办的关于“青年老师两笔一画，教学基本功”大练兵活动。三位老师成果良好。陈艳芳老师所排高一年兔子舞参与第31届校运会开幕式表演，阵容强大，动作多样、新奇，获得了好评。

〈二〉、本组老师打算的文明学校，一级达标验收复查材料完整。

〈三〉、梁丹明老师与大同中学赖景琼老师同一年段（高一年）公开教学观摩课打算充分、仔细，课堂效果甚佳，得到同行的好评。

〈四〉、在常规检查中，教案的几个环节老师们写得很具体、仔细，虚心学习，完成本学期的听课节数，并做点评。

〈五〉、郑思玲老师被集美区抽考课件制作，成果合格。

〈六〉、在初一、二年组织并训练合唱其次课堂，提高同学们的音乐素养，活跃了校内生活。

〈七〉、制作音乐组成果及活动状况展板，生动、真实、漂亮，得到老师们的赞扬。

〈八〉、陈艳芳老师参加集美区的“走进新课程的征文”活动，并主动投稿。

全组成员顺当的完成了本学期的教化教学及各项工作任务，今后我们

将更加努力，把各项任务做得更好。

音乐组学期工作总结2
时间过得飞速，转瞬间本学期的教学工作已经结束。回顾本学期的教学工作是极其繁忙而又琐碎的。这半年来，音乐教研组在校长室及教育处、教研处的正确领导下，
在每位音乐老师的大力协作下，顺当完成了学期制定的目标，取得了较为令人满足的成果。现将这学期的工作总结如下：基本状况
本教研组有9名老师，本学期XX老师下乡支教，8名老师在校担当教学工作。分别是：初一年级XX；初二年级XX;初三年级XX;高一年级XX;高二年级XX。

主要做法及成效
1、抓好常规教学活动，促进质量提高
并在开我组严格根据教化局、学校的教学支配制定教研组教学安排，学初对本学期的重点工作做了探讨和探讨，然后构成文字性的安排。在教学过程中我们严格地根据安排开展工作，刚好的检查安排落实的状况，反馈调控。专心参与学校组织的教化教研活动，组内公开课，教学方法多样敏捷，师生互动，学生爱好深厚，并且颇有创建性，能够体现新课程的教学理念。

2、开展其次课堂活动，培育艺术队伍
我组在培育学生爱好的基础上，进一步加大工作力度，每周定时定点

定人进行培优活动。每个老师依据自己的特长，带好自己的艺术队伍。陈小慧老师抓电子琴的训练;陈妹老师抓舞蹈队的训练;王莉、王春燕老师抓合唱班的训练;张琳老师抓艺考班的钢琴;每个老师工作目标明确，各司其职。让有音乐特长的学生施展才华，相互学习，取长补短，不断提高他们对音乐的表现潜力。

培训学习状况
校内培训：本学期我们组的老师主动参与教研处组织的“骨干老师引领示范课”的教研活动
校外培训：1、陈妹老师4月15—20日到苏州参与全国第六届中小学生文艺展演
2、陈妹、王春燕、王莉7月5日参与海南省文联新文艺群体(音乐)素养培训班讲座
4、完成的任务和获得的成果
本学期在全体组员的努力下，完成了学校布置的任务，并取得了一些成果。

1、陈妹、王莉老师顺当完满的完成了20xx年国家质量监测抽查(音乐)测试任务。

2、在20xx年XX县美育赛事活动中，我校取得了优异的成果。声乐类：高三5班吴慧同学获得了一等奖，谢小雨同学获得二等奖，高二5班王倪萱、唐淑仪、初二9班吴美媚获得三等奖。舞蹈类：高三5班王梦茹

P63的（4.2）计算公式为:

式中为各组中值,f为各组次数。例如据表4-1（某校教师年龄次数分布表）可算得平均年龄为：

以此可反映出该校教师的年龄水平。

表4-1 某校83名教师年龄次数分布表

年龄组	组中值	次数f
50–55	52.5	5
45–50	47.5	13
40 - 45	42.5	17
35 - 40	37.5	20
30 - 35	32.5	16
25 - 30	27.5	9
20 - 25	22.5	3
总计		83

附注：各组不包括上限值（即终点值）

*为了减少计算的麻烦，在此介绍计算器统计功能的使用：

A、操作步骤

计算器的统计功能的计算只能得到如下六个统计结果：n（数据个数）、（数据和）、（数据平方和）、

（平均数）、（总体标准差）和S（样本标准差）。操作步骤如下：

1）显示统计状态：2ndF STAT(或SD)<按2ndFSTAT 或SD,然后银屏上显示STAT或SD>

2）输入数据：每输入一个数据按DATA键

3）取出统计结果：这时六个统计结果均处于待取状态，可根据需要取出其中的结果。

B、注意事项

1）若需继续进行第二组数据的统计运算时，需取消统计状态，再按上述步骤操作。按2ndFSTAT 即可取消统计的状态。

2）若不需要计算、、、、和S时（即进行其他一般运算时），也应取消统计状态）。

3）加权平均数输入数据时每输入一类即按DATA，例如对P63表4-1的输入如下：52.5×5 DATA,47.5×13

DATA，……，22.5×3DATA。

② 总平均数（已知各个平均数）

例如P66表4-4的资料。

计算方法见P66的（4.5）公式及对表4.4的计算。同样可用计算器操作。

计算公式为：

式中代表总平均数，代表各平均数，代表各平均数所对应的次数，K代表平均数的个数。

例如，根据公式（4.5）我们可以算得表4-4全年级数学成绩平均分为：

表4-4 某年级各班学生人数与数学平均成绩

班次	一	二	三	四
人数（）	40	38	43	41
平均成绩（）	75.5	80	78	81.5

③等级平均数（对个体赋不同等级并按等级归类汇总）

计算方法见P63的（4.3）公式及对表4-2的计算，同样也可以用计算器操作。注意编号可以倒数编，如表4-2的优、

良、中、及、不及按5、4、3、2、1的顺序编号，计算的等级平均数是3.95，但最终的价值判断是一样的，即都是处于良好

的水平。

P63的（4.3）计算公式：

式中X代表各等级编号，f代表各等级次数，N代表总次数。例如，对表4-2我们可根据公式（4.3）算得等级平均数

为：

由此可知，该班学生的品德是处于良好的水平。

表4-2 某班学生品德考核情况

等级	编号	次数
优秀	1	13
良好	2	16
中等	3	6
及格	4	3
不及格	5	1
总计		39

等级平均数适用于类别数据的计算，如品德、兴趣、情感等非学业成绩方面的分析评价，常常需要用到等级平均数，

它既可以用于对集体的评价，也可以用于个体的评价。

④评分平均数（对各个方面赋不同比重并评分）

例如p65表4-3的资料，计算方法见p65的（4．4）公式及对表4-3的计算，同样也可以用计算器操作。

P65的（4．4）计算公式：

式中X代表各方面的分数，P代表各方面的比重。

例如，表4-3是对甲、乙两名学生按德、智、体、美四个方面以五分制分别评分，两人的总分是相同的，均为15分。但

如果根据所给的比重以及公式（4.3），我们则可算得：

甲平均分数

乙平均分数

由此可知，综合评判这两名学生，甲生稍强于乙生。

表4-3 甲、乙两学生的考察评分情况

项目	评分 ( X )		重 ( P )
项目	甲	乙	重 ( P )
德	5	4	30
智	4	4	40
体	3	4	20
美	3	3	10
总计	15	15	100

根据评分平均数的特点可知，它是一种全面性的分析评价，因此，常常用于评比、选拔等。而且可按如下程序进行：①

设计指标；②确定指标权重；③制定评选标准；④评分；⑤计算评分平均数；⑥确定人选。

3）平均发展速度

指事物在某一时期内的平均发展情况.

计算方法见p66的(4.6)公式,由于根据公式往往需要开高次方,不容易做到，所以把(4.6)公式转换为对数的形式计算,

即(4.7)公式,但仍然比较麻烦.因此,可以利用计算器非统计功能中的开高次方,使用直接取得结果,但必须取消统

计状态。

P66（4.6）计算公式<即用几何平均数计算平均发展速度>:

式中代表平均发展速度, 为初期的数值，为末期的数值，N为初期至末期的时间间隔数。

有时N往往大于2，需要开高次方，所以计算时可用对数法计算，即公式（4.6）可改为下面的公式：

然后求反对数即得平均发展速度。

例如，根据我国普通高等学校在校学生1980年为114万人，1985年为170万人，我们可应用公式（4.6）算得：

再求0.0346的反对数可得“六五”时期高等学校在校学生的平均发展速度或108.3%，即“六五”时期高等

学校在校生的平均每年发展水平是108.3%，每年平均增长速度为0.083或8.3%.

平均发展速度是一个相对数,例如p67算得表示平均每年在校生都是上一年的1.083倍。平均发展速度的

作用有两点：①分析评价事物在一定时期内的平均发展速度。②可以用于预测未来的情况，预测公式为：，可用计

算器中的乘高次方取得结果。

（四）标准差（差异）通常用符号（总体标准差）或S（样本标准差）表示。

1.标准差的计算方法

① 未经分类汇总的资料：见P68(4.7)公式以及对甲、乙两组成绩的计算。可用计算器中的统计功能，按照算术平均数的方

法输入数据，即可同时得的结果。

P68(4.7)计算公式： S=

式中为每个数据，为平均数，N为数据个数。

例如甲、乙两个小组某科成绩如下：

甲组：55，58，63，75，80，88，93，95，100，100

乙组：68，70，72，75，80，83，85，89，90，95

可算得： =80.7， =80.7（平均数），因此可算得：

S甲=

S乙=

以上甲、乙两个小组的平均成绩虽然是相同的，但据S 甲的成绩比甲组的整齐.

>S乙可知,乙组学生成绩的差异比甲组小,也即是说,乙组学生

②已经分类汇总的资料：见p68 的（4.8）公式以及83 名教师年龄的标准差计算。同样可用计算器中的统计功能，按照加权

平均数的方法输入数据，即可得的结果。对于前面所举的加权平均数的例子，计算器操作时均可同时算得平均数和

标准差。

P68 的（4.8）计算公式:

式中X 为分类汇总后各类的数值,f 为各类的次数。例如就前面的表4-1（某校83 名教师的年龄次数分布表）可算得该

校83 名教师年龄的标准差为：

S =

注意，此例各类的数值即是各组的组中值。

二、需理解的问题:

1．各种综合指标的作用：（要通过例子理解）

1）绝对数：说明规模。

2）相对数：说明程度。

3）平均数：说明水平。

4）标准差：说明差异。

2．对标准差的解释：（要会操作，如一道计算题，要求算标准差，并解释）

标准差的值愈大，则说明差异愈大，否则说明差异较小。但究竟标准差大好还是小好？这不能一概而论需要具体问题具体分

析。

3. 总体标准差与样本标准差的区别：

1）分母不一样。（总体标准差）的分母是n,而S（样本标准差）的分母是n-1;

2)总体标准差是根据总体的数据计算的，而样本标准差是根据样本的数据计算的。

第六讲描述性统计分析评价方法——平均数与标准差的综合应用

一、需记忆的问题

1．集中趋势：指大多数数据比较趋近的水平。通常把描述集中趋势的量数称为集中量数，平均数是最常用的一种集中

量数。

2.离中趋势：指数据之间的变异程度或离散程度。通常把描述离中趋势的量数称为差异量数，标准差是最常用的一种差

异量数。

3．标准分数的计算方法：

正确评价学生的学习成绩<标准分数=（考试成绩-集体平均分）/集体标准差>

1）．Z>0时，该成绩高于集体平均水平。

2）．Z<0时，该成绩低于集体平均水平。

3）．Z=0时，该成绩就处于集体平均水平。

4）．Z值愈大，该成绩愈好。

二、需理解的问题

1．如何全面评价比较总体？为什么？

1)作为全面评价比较总体的方法，必须抓住数据的两个主要特征进行综合分析，既要分析集中趋势，也要分析离中趋势。

也即是说，必须综合应用平均数和标准差对总体予以评价比较。

例如P68甲、乙两班成绩的比较；(既要算平均数和标准差,还要比较)

例如甲、乙两个小组某科成绩如下：

甲组：55，58，63，75，80，88，93，95，100，100

乙组：68，70，72，75，80，83，85，89，90，95

可算得：甲平均数 =80.7，乙平均数 =80.7（平均数），因此可算得：

S甲(甲组标准差)= 16.36

S乙（乙组标准差）=8.76

以上甲、乙两个小组的平均成绩虽然是相同的，但据S 甲的成绩比较整齐，甲组的成绩比较参差不齐。

又如思考与练习的第6 题。P385

>S乙可知,乙组学生成绩的差异比甲组小,也即是说,乙组学生

（除了算平均数外，还要算标准差。标准差小的，说明大家对他的任职情况的看法比较一致。标准差大的，说明干部

职工对他的任职情况不那么一致。）

2) 因为数据既有集中趋势的特征,也有离中趋势的特征，要把两种特征都反映出来，就既要有平均数，也要有标准差。而

传统的评价比较总体方法只以平均数对总体进行评价比较，只顾及了平均数，而忽略了标准差, 这是片面的。

2．标准分数的解释（要学会操作。如算出某个学生的成绩并解释。）

1）．Z>0 时，该成绩高于集体平均水平。

2)．Z<0 时，该成绩低于集体平均水平。

3)．Z=0 时，该成绩就处于集体平均水平。

4)．Z 值愈大，该成绩愈好。

3. 标准分数的作用及应用

标准分数的作用：把各种不同类型的分数统一在高于或低于集体平均分多少的标准上衡量。

标准分数的具体应用：

1）．正确评价同一学生不同科目的成绩，如前面例子。

2）．正确评价同一学生同一科目不同阶段的成绩。如前面例子。

3）．正确评价不同学生多科总成绩。例如p136 表8-10。

表8-10 甲、乙两生成绩表

科目	全班		考试分数		标准分数
科目	平均分	标准差	甲	乙	甲	乙
语文	70	14.0	80	85	0.71	1.07
数学	85	3.5	90	88	1.43	0.86
地理	55	4.0	57	51	0.50	- 1.00
历史	42	5.0	45	40	0.60	- 0.40
政治	70	8.0	70	90	0.00	2.50
总计			342	354	3.24	3.03

高考标准化考试报告的分数是已经对Z 进行了线性变换，即y=500+100Z，这并不会改变原来z 的排序，线性变换避免了

负数的出现，且有利于选拔。

第七讲推断性统计分析评价方法——平均数差异分析

一、需记忆的问题

1．推断性评价：对数据资料进行统计检验，然后依据统计检验的结果并以一定的置信度对教育客观事物给予评价。（置

信度，即把握性）

2．统计检验：就是检验事物之间的差异或者联系是否显著问题。

3．独立总体：两个总体的对象不同，对它们的差异评价，也可称为横向评价。例如某班男、女学生某科成绩的比较。

实验班与控制班的实验比较，老师与学生对某个问题的态度比较等均为独立总体。

4．相关总体：两个总体的对象相同，对它们的差异评价，也可称为纵向评价。例如，某班学生某，某科中段成绩与期

末成绩的比较、实验班实验前与实验后的情况比较、老师们对两个方案的态度比较等均为相关总体。

5．显著性水平：称为显著性水平，指的是显著时犯错误的可能性，一般取。5%也即犯错可能是小概率，

认为是高度不可能发生的，愈小，认为犯错误的可能性愈小，即认为显著的程度愈高。

6．T检验：关于平均数的差异分析，无论是独立总体还是相关总体的检验都应用了t分布表，这种应用t分布表进行统

计检验的方法，通常称为t检验。

二、需理解的问题

1．平均数差异分析所适用的数据：更多的是适用测量数据，即有计量单位的数据。（如：身高、体重、考试成绩、年

龄、人民币）

2．独立总体平均数差异检验规则：

则认为两个平均数差异不显著，否则认为差异显著。

（注：S为样本标准差，可查计算器获得。如果计算值<=查表值，则两个平均数差异不显著；如果计算值>查表值，则差异显

著。）

*注意：①可查t分布表（附表二）（即P379）得到，其中称为显著性水平，指的是显著时犯错误的可能性，

一般取。5%也即犯错可能是小概率，认为是高度不可能发生的，愈小，认为犯错误的可能性愈小，即认为显著

的程度愈高。

②查表时，如何确定取值？可按照的顺序进行。先从开始查，若不显著则

停止查表，若结果显著，则可以继续按顺序往下查表；尽可能取显著的取值，而且取显著水平最小的取值。除非

就是不显著的，则只能取这一结果。（可参考P71的例子。）

3．相关总体平均数差异检验规则：

则认为差异不显著，否则认为差异显著。

例如p72表4-5的资料并得，而且选取的查表值，这说明时都是显著

的，而则不显著，所以根据前面说的原则选取查表值，即是说，实验前后成绩显著这一结论犯错误

的可能性有1%，一般认为是高度不可能发生的。

4．统计检验查表时显著性水平的选取：

查表时，如何确定显著性水平（）的取值？可按照的顺序进行。先从开始

查，若不显著则停止查表，若结果显著，则可以继续按顺序往下查表；尽可能取显著的取值，而且取显著水平最小的

取值。除非就是不显著的，则只能取这一结果。

第八讲推断性统计分析评价方法——比例差异分析

一、需记忆的问题

1．独立总体比例差异检验的计算方法（P734.12 计算公式，不需要统计功能。）

若

则认为两个比例差异不显著，否则认为差异显著。

（式中P1和P2，n1和n2分别为两个的比例及人数。若算得Z值的绝对值大于正态分布表（附表一）中的值，则认为

两个总体比例存在显著差异，否则认为两个总体比例不存在显著差异。）

(怎样查表？如：Z1-0.05/2 = Z 0.975，先从(P373)正态分布表（附表一）里面找到0.97500的值，这样，其左边Z下面

列的值是1.9，Z右边行对着的值是0.06，这样就得出Z= 1.96 。)

2．相关总体比例差异检验的计算方法

若

则认为两个比例差异不显著，否则认为差异显著。

公式中的b、c是看法不一致的两类人数。

3.正态分布表在分别在显著性水平α=0.05；0.02；0.01的Z值

可查正态分布（附表一）(P373- 378)得到。

4．u检验:关于比例的差异分析，无论是独立总体还是相关总体的检验都应用了正态分布表，这种应用正态分布表进行统

计检验的方法，通常称为u检验。

二、需理解的问题

1.比例差异分析所适用的数据:适用类别数据，即各类的总人数或百分比。(不仅要记住，还要会操作，会判断。)

2.独立总体比例差异检验规则

若

则认为两个比例差异不显著，否则认为差异显著。

可查正态分布（附表一）得到。

3.相关总体比例差异检验规则

若

则认为两个比例差异不显著，否则认为差异显著。

公式中的b、c是看法不一致的两类人数。

例如100人对两个方案的表态有下面四种情况：（某校100名教师）

其中第②、③两类人数即为b和c。

将b=5,c=15代入以上公式（P734.13 公式）可算得z= - 2.24, 又查正态分布表，由=

2.24> 1.96 说明，教师对两个方案的态度存在显著的差异。从以上例子赞成方案Ⅱ的人数多于赞成方案Ⅰ的人数，所以可

以认为在该校教师中，方案Ⅱ比方案Ⅰ更受欢迎些，据此学校可作出相应的决策。

第九讲推断性统计分析评价方法——相关分析

一、需记忆的问题：

1．相关系数：是反映两事物之间的联系方向和程度的一个量数。通常用表示，它的取值范围限于。

2．2×2的检验计算公式

若

则认为两事物关系不显著，否则关系显著。

式中，n表示总人数，a、b、c、d是两现象都对个体分成两部分后所得四类的人数，如表4-9。

3.积差相关系数的计算方法：<见P75的（4.14）公式。>

式中和分别是两现象数值的标准差，是每对数值之差的标准差，若算得r值的绝对值大于相关系数 =0 的临界值

表（附表三）中的值，则认为两现象之间存在显著的关系；否则，认为它们之间不存在显著的关系，即关系不密切。

中的df = n-2, 是小概率，一般取

0.05。若在0.05 > 0.01 时是显著的，则认为属一般显著情形；若在

0.01 时是显著的，则认为属极显著情形。

4. 分布表在df=1 时，α=0．05；0．02；0．01；0．001 的值（见P383，记数值。）

df=1 时，α=0．05 的值是3.841；α=0．02 的值是5.412；α=0．01 的值是6.635；α=0．001 的

值是10.827 。

二、需理解的问题

1．相关系数的范围及其解释：

通常用表示，它的取值范围限于。

1）．的正、负号可以反映相关的方向，当>0 时表示正相关；当<0 时表示负相关。

2）．的大小可以反映相关的程度，但需要进行显著性检验。=0 表示毫无关系。

3）．=+0.8 与=-0.8 表示相关程度是相等的，而相关方向是不同的。

4）．值仅说明两事物是否存在联系，但并不能说明它们是否存在因果关系，两者不可混为一谈。

2．各种相关分析法所适用的条件：(不仅要记住，还要会操作，会判断。如：给一个计算题，要判断数据属于什么数据，

再考虑用什么方法。)

1）积差相关法（两事物均为测量数据）

2）等级相关法（两事物均为顺序数据）

3）点双列相关法（一事物为测量数据，另一事物为二分型的类别数据）

4）检验（两事物均为类别数据）

3．各种相关分析法检验规则

1）积差相关系数的显著性检验规则

若

则认为两事物关系不显著，否则认为关系显著

可查附表三(P381)得到。

例如表4-7（P75）是随机抽取10名学生的语文与政治成绩，我们可算得S= 4.572，=4.695，S

=4.748，据公式（4.14）得r=

又查相关系数 =0 的临界值表得r = r = 0.6819,因为0.476< 0.6819,所以可以认为，学生的语文成绩与政治

成绩之间不存在显著的关系，即它们两者之间关系不密切。

表4-7十名学生的语文与政治成绩

学生编号	1	2	3	4	5	6	7	8	9	10
语文成绩 x	82	75	81	89	82	89	88	84	80	87
政治成绩 y	74	71	80	85	76	77	77	68	74	74
x - y	8	4	1	4	6	12	11	16	6	13

2）等级相关系数的显著性检验规则

P76(4.15)计算公式：

式中D是每对顺序的差，是顺序差的平方和，n是顺序总数，若算得值的绝对值大于等级相关系数临界值表（附表

四）中的值，则认为两现象间存在显著的关系，否则，认为它们之间不存在显著的关系。

则认为两事物关系不显著，否则认为关系显著。

可查附表四（P382）得到。

例如表4-8是某校男生和女生对八种职业的选择顺序（选择人数最多的职业排第一，以此类推），我们可知 =8, n =

8,据公式（4.15）算得：

又查等级相关系数临界值表得 =0.833, 所以可以认为，该校男生和女生对八种职业的选择顺序存在极显著的关系，或

者说男、女生对八种职业的选择顺序比较一致。

表4-8 某校学生对职业的选择顺序

职业编号	1	2	3	4	5	6	7	8
男生顺序	3	1	5	2	7	4	8	6
女生顺序	3	1	7	2	5	4	8	6
D	0	0	- 2	0	2	0	0	0
	0	0	4	0	4	0	0	0	= 8

3）点双列相关系数的显著性检验规则

P77的（4.16）公式：

式中x表示有具体数值的现象，q、p是另一现象的个体分成两部分后各自所占的比例，、分别为p、q两部分所对

应的X数值平均数，是全部X数值的标准差。

若算得值的绝对值大于相关系数 =0 的临界值表中的值，则认为两现象之间存在显著的关系，否则，认为

它们之间不存在显著的关系。

若

则认为两事物关系不显著，否则认为关系显著。

可查附表三（P381）得到。

例如欲研究外语成绩是否与学习兴趣有关系的问题，随机抽取16名学生作外语兴趣的调查，结果是7人对外语感兴趣，

成绩分别为90,93,82,89,73,79,88;9 人不感兴趣，成绩分别为60，71，85，80，64，62，74，77，65。这时的外语成绩即

为X，p是感兴趣学生的比例，q是不感兴趣的学生的比例，是感兴趣学生的外语平均成绩，是不感兴趣学生的外语平均

成绩，是16名学生成绩的标准差。因此有p= 0.438, q = 0.562, = 84.857, =70.889, =10.583,由公式（4.16）可算得

又查相关系数 =0 的临界值表得 = = 0.623,因为0.655> 0.623，所以可以认为外语成绩与学习兴趣

存在极显著的关系。因此，外语教学应据此信息采取有效的措施，以提高教学效果。

4）检验（读：卡方检验）

①．2×2的检验规则（均为二分型的类别数据）<以下为P78(4.17) 公式>

若

则认为两事物关系不显著，否则关系显著。

式中，n表示总人数，a、b、c、d是两现象都对个体分成两部分后所得四类的人数，如表4-9。

若算得的值大于分布表中的值，则认为两现象之间存在显著的关系，否则，认为它们之间不存在显著的

关系。

例如表4-9列举的91名学生参加公益活动的态度情况，据此代入公式（4.17）可得：

又查分布表(P383附表五)得 =3.841,因为3.170< 3.841，所以可以认为，学生参加公益活动与性别不存在

显著的关系。

表4-9学生参加公益活动的态度调查

性别

男生

女生

总计

态度

积极	20 (a)	30 (b)	50 (a + b)
消极	25 (c)	16 (d)	41 (c + d)
总计	45 (a + c)	46 (b + d)	91 (n)
②．检验规则（为两事物的分类数）		46 (b + d)	91 (n)

若

则认为两事物关系不显著，否则关系显著。

*注意计算值时，应先对应每一个计算相对应的，然后代入公式计算。

式中，为第i行第j列的数据，为第i行的总计，为第j列的总计，n..为全部总数。

查分布表时df= ( r – 1 ) ( k – 1 ), r、k分别为两现象的分类数。

表4-10学生性格与气质的统计调查

气质

多血质

粘液质

胆汁质

抑郁质

综合

总计

性格

外向	20	3	10	2	35
内向	5	17	12	3	37
综合	2	0	2	0	4
总计	27	20	24	5	73

如下表的计算，这是对法律常识成绩与所属阶层的相关分析。

各阶层人员法律常识考试成绩表

可算得

∴认为法律常识成绩与所属阶层之间没有显著关系。

由检验所针对的类别数据以及所举的例子可知，它特别适用于非学业方面的相关分析。

第十讲考试质量的评价

一、需记忆的问题：
1．效度:考试的有效性。

2．内容效度:考试内容与预定要考内容一致性程度。

3．效标关联效度:考试结果与效标的一致性程度。效标是检验考试效果的参照标准。4．信度:考试的可靠性。

:用同一份试卷对同一组学生不同时进行前后两次考试，然后分析两次考试结果的一致性。

6．分半信度及其计算方法:

①分半信度的含义：有意识的把试卷编制成等效的两个部分，然后分析这两部分考试结果的一致性程度。这相当于一

份试卷对同一组学生同时进行两次考试，避免了再测信度两次时间间隔的问题。

② 分半信度的计算方法：先计算两部分结果的相关系数，再代入分半信度计算公式，即p58的(3.1)公式。

式中，为分半信度，r为相关系数。

7．难度:试题的难易程度。

8．区分度:试题的鉴别能力。

二、需理解的问题：
1．内容效度和效标关联效度的分析方法

①内容效度的分析方法：利用双向细目表进行分析。注意编制双向细目表的步骤和要求。(编拟试题所应遵循的步骤：

（1）列出课程的主要教学内容和教学目标。（2）根据各部分教学内容和教学目标的相对重要性，确定它们在测试内容上所占

的比例。编制命题双向细目表，如表12-1，和表12-2（P337– 338）。（4）依据命题细目表中的具体规定编拟试题。)

②效标关联效度的分析方法：主要是通过考察考试结果与效标之间的相关程度，即计算两者之间的相关系数并进行显

著性检验。（如P339的例子）

2.再测信度和分半信度的分析方法

①再测信度的分析方法：主要通过考察两次考试结果的相关程度，即计算两次考试成绩的相关系数并且进行显著性检

验。

② 分半信度的计算方法：先计算两部分结果的相关系数，再代入分半信度计算公式，即p58的(3.1)公式。

式中，为分半信度，r为相关系数。

分半信度的解释：客观题的应达到0.9以上，主观题的应达到0.8以上。

3.难度系数的计算及解释（熟记难度的计算公式。）

1)．难度系数的计算

① 主观题：见p343的（12.2）公式

式中，P表示难度系数，表示某题考生的平均得分，W表示该题的满分值。显然,0 P 1。如果在W中的比重大，

则表示该题目较易，反之，则较难。一般认为，P值应在0.3- 0.7 之间,以0.45–0.65之间为最佳。

例如某道论文题考生平均得分12分，而该道题的满分值是20分，即 =12，W= 20，则该题的难度系数P=12/20 = 0.6，

可见该题的难度很适中。

② 客观题：见P344的（12.3）公式

式中，k表示某道题答对的人数，N为考生总人数。

例如，60名考生在某道选择题中答对的有15人，即k= 15, N = 60,则该题的难度系数P= 15/60 = 0.25，可见该道题偏

难。

（一般来说，全卷的平均难度应在0.45- 0.55 之间。全卷题目的难度分配一般为易：中：难 =3 : 5 : 2 . 即P> 0.7

的有30%，的有50%，而P<0.3的有20%。当然要结合考试题目的灵活处理。）

2)．难度系数的解释

① P>0.7时较易

② P<0.3时较难

③ 时较适中。

4．两种区分度的分析方法

1)．相关法：计算学生试题得分与试卷总分的相关系数并且进行显著性检验。

若检验结果为显著相关，则认为区分度较好，否则，区分度较差。一般来说，对于主观题（如简答题或论文题）的区分度

可算积差相关系数，对于客观题（如选择题和判断题）的区分度可算点双列相关系数。

例如根据表12-5（P341- 342）列举的八名考生在某道题目（论文题）的得分（x）以及他们的总分（y）,可算得

=2.121， =4.892， =3.464，并代入（4.14）公式，得积差相关系数r=

又查相关系数 =0的临界值表 =0.707. 由0.792> 0.707，可知考生该题得分与总分存在显著相关，即该题的区

分度较好。

表12-5 八名考生某道题得分

学生编号	1	2	3	4	5	6	7	8
题目得分 x	10	9	7	8	9	5	4	6
总分 y	34	36	35	37	42	30	27	29

又如根据表12-6列举的十名学生在某道题（选择题）的测验结果以及他们的总分x，可算得该题答对的比例P= 0.80，答

错的比较q= 0.20, = 5.25， =1， =2.577，并代入（4.16）公式，得点双列相关系数

又查相关系数 =0 的临界值表得 =0.682, 由0.66< 0.682 可知该题测验结果与总分不存在显著相关，即区分度不

大好。

表12- 6 十名学生某道题测验结果

学生编号	1	2	3	4	5	6	7	8	9	10
某题结果	错	错	对	对	对	对	对	对	对	对
总分 x	2	0	7	3	1	8	5	6	6	6

2)．两端分组法：全班找高分段的27%的人数，低分段的找27%的学生来进行计算。

① 两端分组法区分度（D）的计算公式：见p343的(12.1)公式。D=

其中分别为学生高分组和低分组中的难度。注意高分组和低分组各取27%的学生。

②两端分组法区分度D的解释

1）当D时区分度属好 2）当时区分度比较好

3）时区分度还可以4）

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

1教育统计与评价_复习提纲-word资料(精)