您的当前位置:首页首都经济贸易大学统计学院应用统计硕士复试历年真题及详解专业课考试试题

首都经济贸易大学统计学院应用统计硕士复试历年真题及详解专业课考试试题

2021-11-02 来源:飒榕旅游知识分享网
目 录

2012年首都经济贸易大学统计学院应用统计硕士复试真题

2012年首都经济贸易大学统计学院应用统计硕士复试真题及详解2013年首都经济贸易大学统计学院应用统计硕士复试真题

2013年首都经济贸易大学统计学院应用统计硕士复试真题及详解2014年首都经济贸易大学统计学院应用统计硕士复试真题

2014年首都经济贸易大学统计学院应用统计硕士复试真题及详解2015年首都经济贸易大学统计学院应用统计硕士复试真题

2015年首都经济贸易大学统计学院应用统计硕士复试真题及详解2016年首都经济贸易大学统计学院应用统计硕士复试真题

2016年首都经济贸易大学统计学院应用统计硕士复试真题及详解

2012年首都经济贸易大学统计学院应用统计硕士复试真题

2012年首都经济贸易大学统计学院应用统计硕士复试真题及详解1.(20分)为分析受教育程度与收入之间是否有关系,某人计算了受教育年限与月收入之间的相关系数,发现相关系数很低,只有0.25,请问能否得出两者之间无关的结论,为什么?

答:相关系数r仅仅是自变量x与因变量y之间线性关系的一个度量,它不能用于描述非线性关系。r=0.25说明两个变量之间的线性相关程度极弱,可视为不相关。此处只能得出两者之间无线性相关关系,不能得出两者之间无关的结论。

2.(20分)某企业计划分析产品销售额是否受到促销方式、售后服务、产品价格、对销售员的售货的奖金提成、卖场的地理位置等因素的影响。请你为该企业提出建议,可以采取什么方法进行分析。答:多元线性回归分析。把产品销售额作为因变量,促销方式、售后服务、产品价格、对销售员售货的奖金或提成、卖场的地理位置等因素作为自变量,建立多元线性回归方程。然后对回归系数进行检验,若系数显著不为零,则认为该系数对应的自变量对因变量的影响显著,否则不显著。

3.(20分)请简要说明利用回归分析与时间数列分析两种方法进行预测的应用条件。若对未来半年内的CPI进行预测,你建议采用什么方法?为什么?

答:利用回归分析进行估计或预测时,需要进行以下假定:(1)因变量y与自变量x之间具有线性关系。

(2)在重复抽样中,自变量x的取值是固定的,即假定x是非随机的。(3)误差项ε是一个期望值为0的随机变量。(4)对于所有的x值,ε的方差σ2都相同。

(5)误差项ε是一个服从正态分布的随机变量,且独立。

不能用样本数据之外的x值去预测相对应的y值。因为在一元线性回归分

析中,总是假定因变量y与自变量x之间的关系用线性模型表达是正确的。利用时间序列法进行预测时,时间序列应为非平稳时间序列,即时间序列含有不同的成分,如趋势、季节性、周期性和随机成分等。若对未来半年内的CPI进行预测,建议采用时间序列预测法,因为对于CPI数据,它带有明显的时间属性,随着时间的变化,CPI数据也在不停的变化,采用时间序列预测法可以更好的考虑它的时间效应,如果采用回归分析,就不能很好的表达出时间因素对CPI数据的影响。4.(20分)为了研究小麦品种和施肥方式对产量的影响,针对三种品种和两种施肥方式进行实验,得方差分析数据如下:方差分析表

要求:根据上述数据回答以下问题:

(1)试写出与该检验对应的原假设与备择假设。

(2)说明品种、施肥方式及其交叉作用对小麦产量的影响是否显著。解:(1)设不同品种的小麦种子的平均产量分别为提出假设:H0:μ1=μ2=μ3,H1:μ1,μ2,μ3不全相等设不同施肥方式的小麦平均产量分别为提出假设:

(2)由于P-value=0.0000<α=0.05,拒绝原假设。表明不同品种的种子对小麦产量的影响有显著差异。

P-value=0.0000<α=0.05,拒绝原假设。表明不同施肥方案对小麦产量的影响有显著差异。

P-value=0.3793>α=0.05,不拒绝原假设。没有证据表明不同的品种和不同的施肥方式对小麦产量有交互影响。5.(20分)案例分析:

某汽车经销商委托某高校统计学院调查研究某城市对家用轿车的需求分析,希望从家庭收入、家庭人口、家庭所在地、住房面积、家庭成员所从事职业等方面分析这些因素对家用轿车需求量的影响,并要求进行定量分析,建立统计模型,该模型能够用于统计预测。该学院研究人员经多次与经销商沟通,设计出调查问卷,准备进行抽样调查。初步提出以下两种抽样调查方案:

方案一:充分利用学校学生众多的优势,展开调查。具体做法是:根据学校学籍登记表得到学生学号,从中随机抽取一定量的学生,针对这些被抽中学生的家庭进行问卷调查;

方案二:安排该校学生进行街头拦截访问,随机拦访一定量的行人。根据以上资料,回答以下问题:

(1)请说明该抽样调查中调查总体是什么?理想的抽样框和抽样单位是什么?

(2)请说明上述三种抽样方案各是什么抽样方法,并评价其优劣;(3)请根据上述资料提出你认为比较合理的抽样方案。答:(1)该调研中调查对象总体是该市的所有家庭户。

理想的抽样框应当包括该市所有家庭户的信息。抽样单位是该市的每一家庭户。

(2)方法一:分层抽样

分层抽样保证了样本中包含有各种特征的抽样单位,样本的结构与总体的结构比较相近,从而可以有效地提高估计的精度;分层抽样在一定条件下为组织实施调查提供了方便,不仅可以对总体参数进行估计,还可以对各层的目标量进行估计。方法二:整群抽样

此处采用这种方法抽样框可能没有包括该市所有的家庭户。方法三:方便抽样

由于方便抽样的抽样单位带有随意性,因此,方便抽样无法代表有明确定义的总体,将方便抽样的调查结果推广到总体是没有任何意义的。因此,采用方便抽样得到的调查结果不能用来对该市所有家庭户对家用轿车需求量的统计预测。

(3)认为比较合理的抽样方案应为方案一。

2013年首都经济贸易大学统计学院应用统计硕士复试真题

2013年首都经济贸易大学统计学院应用统计硕士复试真题及详解一、名称解释(每题3分,共15分)1.标准分数

答:变量值与其平均数的离差除以标准差后的值称为标准分数,标准分数能够消除量纲影响,真实反映一个分数与平均数之间的相对标准距离。

2.显著性水平

答:显著性水平的含义是当原假设正确时却被拒绝的概率或风险,即假设检验中犯弃真错误的概率,是由人们根据检验的要求确定的。3.相关系数

答:相关系数是根据样本数据计算的度量两个变量之间线性关系强度的统计量,其取值一般在-1<r<1之间,|r|→1说明两个变量之间的线性关系越强;|r|→0说明两个变量之间的线性关系越弱。4.统计量

答:统计量是由样本构造的量,是关于样本的一个函数,不依赖任何未知参数,是统计中用来对数据进行分析、检验的变量。5.国内生产总值

答:国内生产总值是指在一定时期内(一个季度或一年),一个国家或地区的经济中所生产出的全部最终产品和劳务的价值。二、简答题(本题共25分)

1.请给出总体分布、样本分布和抽样分布的含义,并说明它们的区别和联系。(本题5分)

答:(1)总体分布、样本分布和抽样分布的含义:①总体实际上就是一个随机变量X,随机变量的分布就称为总体分布;②样本分布就是样

本中所有个体关于某个变量(标志)的取值所形成的分布;③样本统计量是由样本构造的。由于样本的随机性,样本统计量是一个随机变量,它的分布称为抽样分布。

(2)总体分布、样本分布和抽样分布的区别和联系:

①联系:抽样分布是研究样本分布与总体分布之间关系的桥梁,由于总体的分布一般未知,常用样本分布来估计总体分布;

②区别:抽样分布是关于样本统计量的分布,它由样本统计量的所有可能取值和与之对应的概率所组成;样本分布是关于样本观测值的分布;总体分布就是随机变量的分布。

2.假定两个班学生水平类似,由于任课老师的评分标准不同,使得两个班成绩的均值和标准差都不一样。一班分数的均值和标准差分别为78.53和9.43,而二班的均值和标准差分别为70.19和7.00。那么一班得分为90分的A同学是不是比二班得分为82分的B同学成绩要更好呢?怎么比较才能合理?(本题10分)

答:一班得分为90的A同学不比二班得分82的B同学学习好。应该使用标准分数对一班得分为90的A同学与二班得分为82分的B同学的成绩进行比较。

变量值与其平均数的离差除以标准差后的值称为标准分数,在对多个具有不同量纲的变量进行处理时,常常需要对变量进行标准化处理,标准分数可以测量每个数据在该组中的相对位置,并可以用它来判断一组数据是否有离群数据。实际上标准分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组中的位置,也没有改变该组数据分布的形状。在该题中两个班学生水平相似,只是老师评卷标准不同,因此,只需比较这两个学生的成绩在各自班级的相对位置就可知这A、B两个学生谁的成绩好。

A、B两同学的标准分数为:

由计算结果可知,,所以,不能认为一班得分为90分的A同学比二班得分为82分的B同学成绩要更好。

3.在对一些实际问题进行显著性检验时,如何理解原假设H0和备择假设H1之间的地位不对等性,试举例说明。(本题10分)答:假设检验中一般按照下面几个原则建立原假设:

(1)通常把有把握的、不能轻易被否定的命题作为原假设H0,而把无把握的、不能轻易被肯定的命题作为备择假设H1。

(2)当检验的目的是希望得到对某一陈述强有力的支持时,把这一陈述的对立面作为原假设H0。

(3)尽量使后果严重的错误成为第一类错误。

如考虑新工艺是否能提高效益,只有真正能提高效益的新工艺才能被采用,这是因为采用新工艺必然要购进新设备、调整生产线、培训人员等进行人力、物力、财力的投入,作为企业的主管部门,作出采用新工艺的决策应持慎重态度,若以u代表采用新工艺的平均效益,则原假设和备择假设必须设为:

这样当在显著性水平α下拒绝原假设H0时,才可认为新工艺确实提高效益,因为这样可以保证这个结论错误的概率不超过α。三、计算分析题(每题15分,共45分)

1.某单位有400架电话分机,每个分机有5%的时间需要外线通话,假定每个电话分机用不用外线是独立的。试问总机约备多少条外线才能有95%的把握保证每个分机用外线不必等候?

()

答:记每个电话分机是否需要外线电话为随机变量Xi,Xi服从0-1分布,所以

为二项分布,由于n=400取值较大,则由中心极限定理得

则总机至少备有n条电话线才能有95%的把握保证每个分机用外线不必等候可表述为:

解得n=27.17

则总机至少备28条外线才能有95%的把握保证每个分机用外线不必等

候。2.方差分析

(1)方差分析的三个基本假定是什么?(2)方差分析和回归分析的区别和联系是什么?

(3)已知某方差分析表如下,请在表中横线处填入合适的值,将其补充完整。

答:(1)方差分析中有三个基本假定:

①每个总体都应服从正态分布。也就是说,对于因素的每一个水平,其观测值是来自正态分布总体的简单随机样本;

②各个总体的方差σ2必须相同。也就是说,各组观察数据是从具有相同方差的正态总体中抽取的;③观测值是相互独立的。

(2)方差分析和回归分析的联系:

①在概念上具有相似性。回归分析是为了分析一个变量如何依赖其他变量而提出的统计分析方法;方差分析是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响;②在假设条件上具有相似性;③总变差分解的形式上具有相似性;④在确定影响因素的基本思路上具有相似性;

⑤在统计显著性检验上具有相似性。方差分析和回归分析的区别:

①回归分析主要是为了得到自变量与因变量之间的定量关系——回归方程;方差分析则是用于区分因素对试验指标的影响度,从而找出“最佳”的试验水平。

②回归分析要求因素变量是定量的,而方差分析则不要求因素变量是定量的。

③回归分析要求对所有试验水平都进行相应试验,而方差分析则只需要有选择的对某些试验水平进行试验,例如正交设计。(3)

3.为了研究初中成绩与高中成绩的关系,随机抽查50名高一学生,登记其初三成绩与高一成绩,并利用SPSS统计软件进行一元线性回归分析,结果输出如下:判定系数

方差分析

回归系数

试根据以上结果回答以下问题:

(1)说明学生初三成绩与高一成绩之间的相关关系的形态;(2)写出估计的回归方程并解释回归系数的实际含义;(3)对上述拟合的回归方程进行评价。

答:(1)由SPSS回归结果可知,初三成绩与高一成绩的相关系数为0.795,说明初三成绩与高一成绩之间存在着高度的正相关关系。(2)由回归结果可知,设高一成绩为y,初三成绩为x,则初三成绩与高一成绩之间的回归方程为:y=26.444+0.651x

回归结果表明,初三成绩每变动一单位,高一成绩同向平均变动0.651个单位。

(3)由回归结果可知,判定系数为0.632,调整后的判定系数为0.625,表明初三成绩解释了高一成绩变动的63.2%,说明回归方程拟合的较好。对回归方程进行检验的F值和进行回归系数检验的t值的显著性概率都为零,均通过检验,说明初三成绩确实对高一成绩有显著性影响。四、论述题(本题15分)

中国互联网络中心(CINIC)为了解全国互联网络发展状况,决定在全国范围内抽取2000名在校大学生进行调查,以了解当前在校大学生互联网络的使用状况、对互联网络的评价及满意程度等。你认为该项调查应采取哪种抽样方法比较合适?请设计出一份简要的抽样方案。答:因为调查的目的是了解当前在校大学生互联网的使用情况、对互联网的评价及满意程度,因此,采用多阶段抽样与简单随机抽样的抽签法

相结合的方法比较合适。互联网发展状况抽样调查方案一、调查目的、范围和对象

1.调查目的:了解当前在校大学生互联网的使用情况、对互联网的评价及满意程度

近年来,随着互联网在校园里的普及,越来越多的网络经销商把目光投向了校园这一潜在的巨大市场,为了了解当前在校大学生互联网的使用情况、对互联网的评价及满意程度,中国互联网络中心决定在全国范围内抽取2000名在校大学生进行调查。2.调查范围:全国范围内的在校大学生。

3.调查内容:被调查人的性别和年级、是否使用互联网、对互联网的评价及满意程度等。

二、抽样方案设计的原则和特点

抽样设计按照科学、效率、便利的原则。首先,作为一项全国性的抽样调查,整体方案必须是严格的概率抽样,要求样本对全国有代表性;其次,抽样方案必须保证有较高的效率,即在相同样本量的条件下,方案设计应使调查的精度尽可能高;再次,方案需有较强的可操作性,不仅便于具体抽样的实施,也要求便于后期的数据处理。三、抽样调查设计第一步:确定调查方法

本调查决定采用多阶段抽样与简单随机抽样的抽签法相结合的抽样方法进行方案设计,调查的最小单元为全国各个高校的在校大学生。决定调查的各个阶段为学校、学院、学生。在学院采取简单随机抽样的方法抽取学生。

第二步:确定样本量及各阶段样本量的配置我们在全国抽取2000名大学生进行调查。

第三步:具体的抽样过程

以全国在校大学生为总体,采用多阶段抽样方法抽取样本。(1)第一阶段:以全国各高校作为初级单元。

将全国所有高校依次进行编号,然后将序号写到签上,用抽签法进行抽选学校。抽选到的学校作为样本学校。

(2)第二阶段:以抽到高校的各个学院作为二级单元。

在每一个被抽中的高校,将其所有的学院依次进行编号,然后将序号写到签上,用抽签法抽取专业,则抽到的学院为样本学院。(3)第三阶段:以抽到的样本学院的学生作为三级单位。四、时间安排(略)

2014年首都经济贸易大学统计学院应用统计硕士复试真题

2014年首都经济贸易大学统计学院应用统计硕士复试真题及详解一、名称解释(每题5分,共20分)1.分层抽样

答:分层抽样是将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。分层抽样既可以将各层的样本结合起来对总体的目标量进行估计,也可以对各层的目标量进行估计。2.显著性水平

答:显著性水平是估计总体参数落在某一区间内,可能犯错误的概率,用α表示。显著性是对差异的程度而言的,程度不同说明引起变动的原因也有不同:一类是条件差异,一类是随机差异。它是在进行假设检验时事先确定一个可允许作为判断界限的小概率标准。3.最小二乘法

答:最小二乘法是使因变量的观察值与估计值之间的离差平方和达到最小来估计参数β0和β1的方法,利用最小二乘法可以简便地求得未知的数据。最小二乘法还可用于曲线拟合。4.快速聚类法

答:快速聚类法是以迭代思想为理论基础,先对样本观测粗略分类,然后按某种最优准则逐步修改分类至最优为止的一种聚类分析方法。二、(本题20分)下列资料为1980年美国总统大选中,各候选人(里根:共和党人,卡特:民主党人,安德森:独立候选人)获得各党派投票支持数据如表1。

表1 党派认同与候选人支持情况

要求:请根据上述资料回答以下问题:

(1)不同党派成员对候选人的支持是否受到所属党派的影响?(2)民主党成员的表现是否不同于共和党成员?

(3)若要对上述问题进行统计检验,最合适的方法是什么?选用的统计量是什么?

答:(1)是。从表1可以看出,支持里根的独立共和党、共和党、坚定的共和党较多,明显“右倾”;支持卡特的独立民主党、民主党、坚定的民主党较多,明显“左倾”;支持安德森的人则居中分布。

(2)是。如表1所示,除独立派之外,坚定民主党、民主党、独立民主党共506人,坚定共和党、共和党、独立共和党共377人。民主党派支持民主党的人数为337人,占总人数的66.6%,而共和党派支持共和党的人数为319人,占总人数的84.6%。可见,民主党成员尽管大部分支持所属党派,但仍有一部分成员支持其他党派;而共和党成员只有很少部分支持除共和党以外的其他党派。

(3)最合适的方法是双侧检验。因为样本为大样本,所以可以把样本统计量视为服从正态分布,故可选用统计量。

三、(本题15分)为了研究小麦品种和施肥方式对产量的影响,针对三种品种和两种施肥方式进行实验,得方差分析数据如表2:表2 方差分析表

要求:根据上述数据回答以下问题:

(1)试写出方差分析的原假设和备择假设,并解释其含义;(2)分析品种、施肥方式及其交叉作用对小麦产量的影响;答:(1)原假设

备择假设中至少有一个不等于0

即原假设为小麦品种和施肥方式及其交叉作用对产量的影响不显著,备择假设为这些影响因素中至少有一个是显著的。

(2)由检验统计量F的P值可知,当显著性水平α=0.05时,其品种、施肥方式的P值均小于α,表明品种、施肥方式对小麦产量的影响是显著的,但是二者的交互作用对应的p值为0.379>0.05,所以二者的交互作用对小麦产量的影响是不显著的。

四、(本题15分)一家电话公司制订出一个广告计划,以增加客户长途电话的通话时间。为了解该计划的优点,公司对其进行小规模推广试验,他们从推广目标客户中随机抽取100位客户作为样本,并记录这100位客户在过去一个月长途电话的通话时间,然后公司在接下来的一个月里,在给用户的声明中加上一份特殊的广告传单,然后再记下这些客户该月的通话时间,数据如下表所示(分钟)。

运用Excel对以上样本数据进行分析,分析结果如下:描述统计结果

推广后—推广前均值差的检验结果

注:

为推广前后样本数据之差di均值

试根据上述结果回答以下问题

(1)公司是否可以认为,给用户的声明中加上一份特殊的广告传单对于提高用户长途电话的通话时间是有帮助的?请写出对应的原假设、备择假设及其含义,并给出检验结果及理由。

(2)给出广告传单推广后比推广前其用户长途电话的平均通话时间之差的95%的置信区间,并简要说明其含义。

答:(1)是。原假设,备择假设,即原假设为推广前与推广后在客户长途电话的通话时间上没有显著差别,备择假设为有显著差别。检验结果中检验统计量的P值小于显著性水平α的任何非

零值,因此拒绝原假设H0,即推广前后对用户长途通话是有显著差别的,给用户的声明中加上一份特殊的广告传单对于提高用户长途电话的通话时间是有帮助的。

(2)由推广后—推广前均值差的检验结果表可知,均值之差的95%的置信区间为(17.22,44.36),表明推广后对于提高用户长途电话的通话时间的95%的置信区间为17.22 ~44.36分钟。即推广后与推广前相比,有95%的概率使得,推广后比推广前用户长途电话增加17.22分钟到44.36分钟。

五、(本题15分)设总体X的密度函数为

这里θ>0为未知参数,设X1,X2,…,Xn是来自总体X的一组样本,求参数θ的矩估计量。答:由题知

令,即

则参数的矩估计量为

六、(本题15分)设X1X2…Xn是来自总体X的一组样本,且E(X)=μ,D(X)=σ2,试确定常数C,使得

为σ2的无偏估计。答:

由于X1,X2…Xn是来自总体X的一组样本,因此同,且相互独立,故

因此

均值与方差和总体相故

欲使

为σ2的无偏估计,则

2015年首都经济贸易大学统计学院应用统计硕士复试真题

2015年首都经济贸易大学统计学院应用统计硕士复试真题及详解一、名词解释(本题共4小题,每小题5分,共20分)1.抽样分布

答:统计量的分布称为抽样分布。统计量是样本的函数,由于样本是随机抽取的,而对于每一个样本,统计量都有一个相应的值,因此统计量也是一个随机变量。从样本计算出统计量所有可能值的分布,则得到一个抽样分布。2.定类数据

答:定类数据也称为分类数据,是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表述的。例如,人口按照性别分为男、女两类;企业按行业属性分为医药企业、家电企业、纺织品企业等。3.季节变动

答:季节变动也称季节性,是时间序列在一年内重复出现的周期性波动。季节性中的“季节”一词是广义的,它不仅仅是指一年中的四季,其实是指任何一种周期性的变化。在现实生活中,季节变动是一种极为普遍的现象,是诸如气候条件、生产条件、节假日或人们的风俗习惯等各种因素作用的结果。4.置信水平

答:在区间估计中,由样本统计量所构造的总体参数的估计区间称为置信区间。置信区间是一个随机区间,它会因样本的不同而不同。一般地,如果将构造置信区间的步骤重复多次,所有可能的置信区间中包含总体参数真值的置信区间所占的比例称为置信水平,也称为置信度或置信系数。

二、简答题(本题共2小题,每小题l0分,共20分)1.简述算术平均数、中位数和众数之间的关系。

答:(1)算术平均数、中位数、众数的定义

众数是一组数据中出现次数最多的数,中位数是处于一组数据中间位置上的值,而平均数则是全部数据的算术平均值。(2)算术平均数、中位数和众数之间的关系

对于具有单峰分布的大多数数据而言,众数、中位数和平均数之间具有以下关系:如果数据的分布是对称的,众数(Mo)、中位数(Me)和平均数()必定相等,即

如果数据是左偏分布,说明数据存在极小值,必然拉动平均数向极小值一方靠,而众数和中位数由于是位置代表值,不受极值的影响,因此三者之间的关系表现为:

如果数据是右偏分布,说明数据存在极大值,必然拉动平均数向极大值一方靠,则

2.如何理解区间估计中的精度和可靠性?答:(1)区间估计中的精度

在对一个未知量进行估计时,常不以得到近似值为满足,还需估计误差,即要求知道近似值的精确程度(亦即所求真值所在的范围),也即精度。区间估计形成的置信区间有一个置信下限和置信上限,如果置信上限和置信下限相差越小,则说明区间估计的误差越小,因此精度越高。

(2)区间估计中的可靠性

进行区间估计时,根据样本统计量的抽样分布可以对样本统计量与总体

参数的接近程度给出一个概率度量,该概率度量反映了有多大的把握可以肯定置信区间包含了总体参数真值,即置信区间的可靠程度。(3)精度与可靠性的关系

当精度提高时,置信区间变小,该区间包含总体参数真值的可能性就变小,这导致参数区间估计的可靠性变低。因此在区间估计中,如果精度提高,则可靠性降低;如果可靠性提高,则估计精度变低。想要缩小置信区间,又不降低可靠程度,就需要增加样本量。三、计算分析题(本题共2小题,每小题20分,共40分)

1.某食品企业为了了解居民收入对其产品销售量的影响,收集了过去18年的有关数据。通过计算得到下面两个表的相关结果:方差分析表

回归系数表

(1)填出上述方差分析表中空白栏的数值;

(2)销售量的总变差中,有多少是出于居民收入的变动引起的?(3)计算估计标准误差;

(4)写出估计的回归方程并解释回归系数的实际含义;

(5)检验回归方程线性关系的显著性,写出对应的原假设和备择假

设,并解释检验结果。

解:(1)回归平方和=总离差平方和—残差平方和=1642886.67-40158.07=1602728.6其自由度为1;

残差平方和的自由度=17-1=16;

回归均方误差=回归平方和÷回归自由度=1602728.6;

残差均方误差=残差平方和÷残差自由度=40158.07÷16=2509.88;F=回归均方误差÷残差均方误差=1602728.6÷2509.88=638.57。根据计算结果补全表格即可。(2)起的。

,即有97.56%的变差是由居民收入变动引

(3)估计标准误差的计算公式为

由(1)中计算结果可知估计标准误差为(4)估计的回归方程为

回归系数表示收入每增加1个单位,销售量平均增加1.2682个单位。(5)原假设为

,备择假设为

由于F检验的P值几乎为0,因此拒绝原假设,即回归方程的线性关系显

著性检验通过。

2.为了研究公立大学与私立大学学生费用支出情况,随机抽取了15名公立大学学生和10名私立大学学生,统计了他们每年的花费金额(单位:万元),比较其差异情况。计算结果如下:描述统计量

双总体等方差均值之差检验

要求:

(1)请计算两者的合并方差;

(2)数据能否支持公立大学费用确实低于私立大学?请写出原假设和备择假设,并说明显著性水平为0.05的检验结果;(3)请给出二者均值之差的95%的置信区间。解:(1)合并方差为5.86+5.34=11.2;(2)设表示公立大学的费用,

表示私立大学的费用。则

由于t检验统计量的值为负,故此处左侧检验的p值=双边检验的p值/2,该值显著为0小于显著性水平0.05,因此拒绝原假设,即数据能支持公立大学费用确实低于私立大学;

(3)从第二个表格可看出,二者均值之差的95%置信区间为[-10.96,-6.94]。

四、论述题(本题共1小题,共20分)在一般的线性回归分析中,对回归模型:

有哪些基本假设?请加以解释和说明。

答:对于一般的线性回归模型,有以下几个主要假定:(1)因变量y与自变量x之间具有线性关系。

(2)在重复抽样中,自变量x的取值是固定的,即假定x是非随机的。在上述两个假定下,对于任何一个给定的x值,y的取值都对应着一个分布,因此,E(y)=α+βx代表一条直线。但由于单个的数据点是从y的分布中抽出来的,可能不在这条直线上,因此,必须包含一个误差项μt来描述模型的数据点。

(3)误差项μt是一个期望值为0的随机变量,即E(μt)=0。这意味着在模型中,由于α和β都是常数,所以有E(α)=α,E(β)=β。因此对于一个给定的x值,y的期望值为E(y)=α+βx。这实际上等于假定模型的形式为一条直线。

(4)对于所有的x值,μt的方差σ2都相同。这意味着对于一个特定的x值,y的方差也都等于σ2。

(5)误差项μt是一个服从正态分布的随机变量,且独立,即μt~

N(0,σ2)。独立性意味着对于一个特定的x值,它所对应的μt与其他x值所对应的μt不相关。因此,对于一个特定的x值,它所对应的y值与其

他x所对应的y值也不相关。这表明,在x取某个确定值的情况下,y的变化由误差项μt的方差σ2来决定。当σ2较小时,y的观测值非常靠近直线;当σ2较大时,y的观测值将偏离直线。由于σ2是常数,所以y的取值不受x取值的影响。由于自变量x在数据收集前假设是固定的,因此,对于任何一个给定的x值,y都服从期望值为α+βx、方差为σ2的正态分布,且对于不同的x具有相同的方差。

2016年首都经济贸易大学统计学院应用统计硕士复试真题

2016年首都经济贸易大学统计学院应用统计硕士复试真题及详解一、名词解释(本题共4小题,每小题5分,共20分)1.样本方差答:样本方差

它是总体方差的无偏估计,可用来反映样本观测值的离散程度。2.循环变动

答:循环变动又称周期性,是时间序列中呈现出来的围绕长期趋势的一种波浪形或振荡式变动。周期性通常是由商业和经济活动引起的,它是一种涨落相间的交替波动,且波动没有固定规律,变动周期多在一年以上,且周期长短不一。3.定比尺度

答:定比尺度,也可以称为比例尺度,它与定距尺度属于同一层次,它与定距尺度的区别在于是否有绝对零点。在定距尺度中,“0”表示某一个数值,而定比尺度中,“0”表示“没有”或“无”。4.拟合优度

答:拟合优度衡量的是拟合值与实际观测值之间差异的大小,例如在回归分析中,如果各个观测点都几乎在拟合直线上,那说明回归模型拟合的较好,拟合优度较高;如果很多点都严重偏离直线,则说明拟合效果不好,拟合优度较低。

二、简答题(本题共2小题,每小题10分,共20分)1.假设检验中的两类错误分别指什么?它们之间有何关系?

答:(1)两类错误的定义

第一类错误是原假设H0为真却被拒绝了,犯这种错误的概率用α表示,所以也称α错误或弃真错误;第二类错误是原假设为伪却没有被拒绝,犯这种错误的概率用β表示,所以也称β错误或取伪错误。(2)两类错误的关系

在假设检验中犯两类错误的概率呈现出此消彼长的关系。对于一定的样本量n,不能同时做到犯这两类错误的概率都很小。若减小犯α错误的概率,就会增大犯β错误的机会;若减小犯β错误的概率,就会增大犯α错误的机会。一般来说,哪一类错误所带来的后果越严重,危害越大,在假设检验中就应当把哪一类错误作为首要的控制目标。但在假设检验中,通常是控制第一类错误的概率不能超过某一值,然后使犯第二类错误的概率尽可能小。

2.简述最小二乘估计的基本原理。

答:最小二乘法估计的基本原理是使拟合值与观测值的差距达到最小,为了避免因为正负相互抵消带来的问题,在实际操作中是使得拟合值与观测值的离差平方和达到最小,求出最小值对应参数值,即为最小二乘估计值。在线性回归模型中,当满足模型假定条件时最小二乘估计具有最佳线性无偏估计的优良特性。

三、计算分析题(本题共2小题,第1小题15分,第2小题25分,共40分)

1.某城市对5个地区每天发生交通事故的次数进行调查,抽取的样本数据如表1所示,方差分析结果如表2和表3:表1 五个地区每天发生的交通事故次数

表2 方差齐性检验结果

表3 方差分析结果

要求:

(1)写出方差分析的原假设和备择假设;(2)完成方差分析表(见表3);

(3)以α=0.01的显著水平检验各地区平均每天交通事故次数是否相等。

解:(1)设每个地区每天发生交通事故的次数的均值分别为

,则方差分析的原假设和备择假设为

(2)组内离差平方和=总离差平方和-组间离差平方和=200.654-82.637=118.017;

组间的均方误差=82.637÷4=20.66组内的均方误差=118.017÷21=5.62

F=组间均方误差÷组内均方误差=20.66÷5.62=3.68根据上述计算结果补全方差分析表即可。

(3)由表3可以看出,检验的P值=0.02>α=0.01,因此无法拒绝原假

设,即在0.01的显著性水平下认为五个地区平均每天发生交通事故的次数相等。

2.某大学对20名同学进行了为期3个月的立定跳远训练,记录他们训练前后的测试成绩,并对数据进行整理分析,得到以下结果:表4 训练前后所测成绩的基本描述统计量

表5 Paired Samples Test

请回答以下问题:

(1)该分析中所用的检验方法;

(2)写出检验的原假设和备择假设,并说明含义;(3)填充空缺的数字;

(4)写出训练前与训练后成绩差的95%的置信区间;(5)说明检验结果及理由。

解:(1)该分析所用的方法为配对样本t检验;

(2)设训练前后的跳远成绩的均值分别为μ1和μ2,则原假设为:

表示训练后的跳远成绩没有更优;备择假设为

表示训练后的跳远成绩优于训练前的。

(3)训练前与训练后的均值差为:213.75-229.15=-15.4;均值差的95%置信上限为:-15.4+(-15.4+21.86078)=-8.93922。根据计算结果完成表格即可。

(4)从表5及(3)中计算结果可知,均值差的95%置信区间为[-21.86078,-8.93922]。

(5)方法一:由于t检验统计量的值为负,故此处左侧检验的p值=双边检验的p值/2,该值显著为0,则应该拒绝原假设,认为训练后的跳远成绩显著高于训练前的跳远成绩。

方法二:μ1-μ2的95%置信区间为(-21.86078,-8.93922),整个置信区间都位于负半轴上,故在0.05的显著性水平下认为:训练后的跳远成绩显著高于训练前的跳远成绩。四、论述题(本题共1小题,20分)

阐述常用的几种概率抽样方法的具体做法,特点以及应用条件。答:调查的实践中经常采用的概率抽样方式有以下几种:(1)简单随机抽样

①具体做法:首先编制合适的抽样框,然后从包括总体N个单位的抽样

框中随机地、逐个地抽取n个单位作为样本,保证每个单位的入样概率相等。通过实施随机化程序保证抽样的随机性,可以使用随机数字表,或能产生符合要求的随机数序列的计算机程序。

②特点:简单随机抽样的突出特点是简单、直观,在抽样框完整时,可以直接从中抽取样本,由于抽选的概率相同,用样本统计量对目标量进行估计及计算估计量误差都比较方便。③应用条件:一般应用于规模较小的调查中。(2)分层抽样

①具体做法:分层抽样是将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。将各层的样本结合起来,对总体的目标量进行估计。

②特点:这种抽样方法保证了样本中包含有各种特征的抽样单位,样本的结构与总体的结构比较相近,从而可以有效地提高估计的精度;分层抽样既可以对总体参数进行估计,也可以对各层的目标量进行估计。③应用条件:一般应用于总体较大,且总体中存在明显的层次区分,而这种区分又会影响到抽样结果时。尤其当层是按行业或行政区划进行划分时,这种方法很方便。(3)整群抽样

①具体做法:将总体中若干个单位合并为组,这样的组称为子群。抽样时随机抽取一个群,然后对中选群中的所有单位全部实施调查。②特点:整群抽样在抽取样本时只需要被抽中群的抽样框,不必要求包括所有单位的抽样框,简化了编制抽样框的工作量。其次,由于子群通常是由那些地理位置邻近的或隶属于同一系统的单位所构成,因此调查的地点相对集中,从而节省了调查费用,方便了调查的实施。它的主要弱点是估计的精度较差,因为同一子群内的单位或多或少有些相似,在样本量相同的条件下,整群抽样的抽样误差通常比较大。

③应用条件:整群抽样适用于由若干个有着自然界限和区分的子群组成,且不同子群之间差别不大、而每个子群内部的异质性比较大的总

体。

(4)系统抽样

①具体做法:将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位。

②特点:系统抽样的主要优点是操作简便,如果有辅助信息,对总体内的单位进行有组织的排列,可以有效地提高估计的精度。系统抽样的缺点是对估计量方差的估计比较困难。

③应用条件:系统抽样适用于大规模抽样调查的场合,如:城乡居民住户抽样调查、产品质量抽样检查等。(5)多阶段抽样。

①具体做法:采用类似整群抽样的方法,首先抽取群,再进一步抽样,从选中的群中抽取出若干个单位进行调查。将这种方法推广,使抽样的段数增多,就是多阶段抽样。

②特点:多阶段抽样保证了样本相对集中,节约了调查费用;不需要包含所有低阶段抽样单位的抽样框;同时由于实行了再抽样,使调查单位在更广的范围内展开。

③应用条件:在较大规模的抽样调查中,多阶段抽样是经常采用的方法。

因篇幅问题不能全部显示,请点此查看更多更全内容