|
线性回归分析
指导老师:***
组长:** A01014011
组员:
***A01014023
**A01014037
**A01014103
**A01014126
***A01014143
***A01014163
实验日期:2013年1月5日
关于居民消费价格指数与货币流通量之间关系的探讨
数据如下述各表:
Yea r | 1978 | 1979 | 1980 | 1981 | 1982 | 1983 | 1984 | 1985 | 1986 | 1987 |
X | 46.2 | 47.1 | 50.6 | 51.9 | 52.9 | 54.0 | 55.5 | 60.6 | 64.6 | 69.3 |
Y | 212. 0 | 267. 7 | 346. 2 | 396. 3 | 439. 1 | 529. 8 | 729. 1 | 987. 8 | 1218. 4 | 1454. 5 |
Year | 1988 | 1989 | 1990 | 1991 | 1992 | 1993 | 1994 | 1995 |
X | 82.3 | 97.0 | 100.0 | 103.4 | 110.0 | 126.2 | 156.7 | 183.4 |
Y | 2134.0 | 2344.0 | 2644.4 | 3177.8 | 4336.0 | 5864.7 | 7288.6 | 7885.3 |
Year | 1996 | 1997 | 1998 | 1999 | 2000 | 2001 | 2002 |
X | 198.7 | 204.2 | 202.6 | 199.7 | 200.6 | 201.9 | 200.3 |
Y | 8802.0 | 10177.6 | 11204.2 | 13455.5 | 14652.7 | 15688.8 | 17278.0 |
Year | 2003 | 2004 | 2005 | 2006 | 2007 |
X | 202.7 | 210.6 | 214.4 | 217.7 | 228.1 |
Y | 19746.0 | 21468.3 | 24031.7 | 27072.6 | 30375.2 |
1.作出(X,Y)的散点图;
2.以Y为因变量,以X为解释变量,作回归分析,得到回归方程Y=a+bX;
3.在显著性水平为0.05下,对回归效果作假设检验;
4.结合实际意义,对回归结果作出具体的实际意义解释;
[一元线性回归模型]
1. 基本概念
回归模型是一种正规工具,它表示统计关系中两个基本的内容:①用系统的形式表示因变量Y随一个或几个自变量X变化的趋势;②表现观察值围绕统计关系曲线的散布情况。这两个特点是由下列假设决定的:
在与抽样过程相联系的观察值总体中,对应于每一个X值,存在Y的一个概率分布;这些概率分布的均值以一些系统的方式随X变化。
<图1>线性回归模型的图示
图1是用透视的方法来显示回归曲线。Y对给定X具有概率分布这一概念总是与统计关系中的经验分布形式上相对应;同样,描述概率分布的均值与X之间关系的回归曲线,与统计关系中Y系统地随X变化的一般趋势相对应。
在回归模型中,X称为“自变量”,Y称为“因变量”;这只是传统的称法,并不表明在给定的情况下Y因果地依赖于X,无论统计关系多么密切,回归模型不一定是因果关系,在某些应用中,比如我们由温度表水银柱高度(自变量)来估计温度(因变量)时,自变量实际上依赖于因变量。此外,回归模型的自变量可以多于一个。
2.回归模型的构造
1)自变量的选择。
构造回归模型时必须考虑到易处理性,所以在有关的任何问题中,回归模型只能(或只应该)包括有限个自变量或预测变量。
2)回归方程的函数形式。
选择回归方程函数形式与选择自变量紧密相关。有时有关理论可能指出适当
的函数形式。然而,通常我们预先并不能知道回归方程的函数形式,要在收集和
分析数据后,才能确定函数形式。我们经常使用线性和二次回归函数来作为未知
性质回归方程的最初近似值。
3.回归模型分析
在进行回归分析时,我们必需知道或假定在两个随机之间存在着一定的关系。
这种关系可以用Y的函数的形式表示出来,即Y是所谓的因变量,它仅仅依赖于
自变量X,它们之间的关系可以用方程式表示。在最简单的情况下,Y与X之间
的关系是线性关系。用线性函数a+bX来估计Y的数学期望的问题称为一元线性
回归问题。即,上述估计问题相当于对x的每一个值,假设E(y)abx,而且,
y~N(abx,2),其中a,b, σ2都是未知参数,并且不依赖于x。对y作这样的
正态假设,相当于设:
其中 | | ~ | N | ( | 0 ,2 | ) | y | | a | | bx | | …………………… | (1) |
,为随机误差,a, b, σ2都是未知参数。 |
这种线性关系的确定常常可以通过两类方法,一类是根据实际题所对
应的理论分析,如各种经济理论常常会揭示一些基本的数量关系;另
一种直观的方法是通过Y与X的散点图来初步确认。
对于公式(3)中的系数a、b,需要由观察值(xiyi)来进行估计。如果由样
本得到了a,b的估计值为aˆ,则对于给定的x,a+bx的估计为aˆbˆx,记作
y,它也就是我们对y的估计。方程
yabˆx…………………………… (2)
称为y对x的线性回归方程,或回归方程,其图形称为回归直线。
1)、a、b的估计
公式:
Sx = | ∑30 i = 1xi | Sy = | ∑30 i = 1yi | Sx2 = | ∑30 i = 1x2 | Sy2 = | ∑30 i = 1y2 | |||||||||||
Sxy = | ∑30 i = 1xiyi - | 1 | ||||||||||||||||
Sxx = | ∑30 i = 1x2 - | 1 2 30 ( ∑30 i = 1xi ) | Syy = | ∑30 i = 1y2 - | 1 2 30 ( ∑30 i = 1yi ) | |||||||||||||
bˆ | = | Sxy | 1 ∑30 i = 1xiyi-30( ∑30 i = 1xi )(∑30 i = 1yi) 1 2 = ∑30 i = 1x2 i-30 ( ∑30 i = 1xi ) | 30 ∑30 i = 1xiyi- ( ∑30 i = 1xi )(∑30 i = 1yi) | ||||||||||||||
2 | ||||||||||||||||||
a | = | 1 | 1 | bˆ | ||||||||||||||
Qe = | Syy - | bˆ Sxy | ||||||||||||||||
= | ∑30 i = 1y2 - | 1 2 30( ∑30 i = 1yi ) - | bˆ[∑30 i = 1xiyi- | 30( ∑30 i = 1xi )(∑30 i = 1yi)] 1 | ||||||||||||||
| = | Qe (n - 2) = | Qe 28 |
2)、显著性假设检验
现在来检验 | y | | a | | bx | | , | | ~ | N | ( | 0 ,2 | ) | 这一线性假设是否合适,这也就是检 |
验假设:
设 | X | ~ N | ( | H | 0 | : | b | | 0 | H | 1 | : | b | | 0 | ||||||||||||||||
0 , 1 ) | , | Y | ~ | 2 n | ) | ,并且X 与Y 相互独立,则随机变量 | |||||||||||||||||||||||||
t | | X | 服从自由度为n 的t(student)分布,记为 | t | ~ | t | ( | n | ) | 。 | |||||||||||||||||||||
Y | / | n |
因此从上面的结果可以得知统计量,
-b
𝐒𝐱𝐱~t (𝐧‒𝟐)…………………………(3)
当H0为真时b= 0 , 此时
t= Sxx~ t (n‒ 2)
且E() = b = 0 , 即得H0的拒绝域为
||
|t|= Sxx≥tα2(n‒ 2)
则在显著水平α下拒绝假设H0:b0,认为回归效果是显著的,也就是说y与x
之间存在着线性关系yabx;若上述不等式反号,就认为回归效果是不显
著的。
[分析过程]
1、做散点图
利用Matlab软件,键入以下程序
>>X=[46.2,47.1,50.6,51.9,52.9,54.0,55.5,60.6,64.6,69.3,82.3,97.0,100.0,103.4,110.0,126.2,156.7,183.4,198.7,204.2,202.6,199.7,200.6,201.9,200.3,202.7,210.6,214.4,217.7,228.1];
>>Y=[212.0,267.7,346.2,396.3,439.1,529.8,729.1,987.8,1218.4,1454.5,2134.0,2344.0,2644.4,3177.8,4336.0,5864.7,7288.6,7885.3,8802.0,10177.6,11204.2,13455.5,14652.
7,15688.8,17278.0,19746.0,21468.3,24031.7,27072.6,30375.2];>> plot(X,Y,'.’)
得到(X,Y)的散点图,如图2:
<图2>
2、回归分析以及假设检验
在原来程序的基础上键入下面的程序:
>>b=[30*sum(X.*Y)-sum(X)*sum(Y)]/[30*sum(X.*X)-sum(X)^2]
>>b=116.6302(显示结果)
>>a=mean(Y)-b*mean(X)
>>a=-6.9840e+003(显示结果)
>>plot(X,Y,'.',X,a+X*b);
>>xlabel('X = 居民消费价格指数');ylabel('Y= 货币流通量(亿元)');
>>text(200,22000,'回归方程Y=a+b*X');
得到回归曲线,如图3:
<图3>
下面是利用Excel表格制作的图像,如图4
<图4>
接着继续键入下面的程序代码:
>>Syy=sum(Y.*Y)-sum(Y)^2/30;
>>Sxy=sum(X.*Y)-[sum(X)*sum(Y)]/30;
>>Sxx=sum(X.*X)-sum(X)^2/30;
>>c=[Syy-b*Sxy]/28;
>>t=abs(b)/sqrt(c)*sqrt(Sxx)
>>if t>=2.0484
input('在显著性水平为0.05下,回归效果是显著的');else
input('在显著性水平为0.05下,回归效果是不显著的'); end;
得到图5:
<图5>
窗口中立即显示“在显著性水平为0.05下,回归效果是显著的”,见图5。
∎ | 注:程序中:a = | a | , b = |
| 2 | , |
b , d = |
由于回归方程的形式为:Y=a+ bX;
根据Matlab的知识我们可以得到:
a,b的估计分别为:
a= 1.0e+003*(-6.9840) = -6984.0
bˆ= 1.0e+003*0.1166302 = 116.6302
于是得到Y关于X的回归方程为:
Y= -6984.0 + 116.6302 .
3、总结
下面我们利用Excel对上述数据作回归分析,以验证我们结果的正确性:
重新打开Excel工作表,将数据输入单元格A1:B30.依次单击“工具”,“数据
分析”,“回归”和“确定”。弹出对话框。在“Y值输入区”框键入“B1:B30”,在“X
值输入区”键入“A1:A30”,单击“标志”,认定置信水平为95%,“输入选项”选定“新
工作表组”,单击“确定”,即得计算结果表格(见附表)。我们截得最后一张表格:
图表1所示
| Coefficients | 标准误差 | t Stat | P-value |
Intercept | -6983.982558 | 1680.509398 | -4.155872359 | 0.000276292 |
X Variable 1 | 116.6302155 | 11.26025469 | 10.35768894 | 4.41E-11 |
| | | | |
Lower 95% | Upper 95% | 下限 95.0% | 上限 95.0% | |
-10426.34997 | -3541.61515 | -10426.34997 | -3541.61515 | |
93.56462972 | 139.6958014 | 93.56462972 | 139.6958014 | |
<表1>
根据数理统的相关知识我们可以得到以下结果:
回归方程的形式为:Y=a+ bX;
表中Coefficient一栏中载有Intercept:-6983.98256,XVariable 1:116.630115。
他们分别是a,b的估计,即=- 6983.98256 , bˆ= 116.630115.于是得到Y关于X
的回归方程为:
a = - 6983.98256 | ≈ |
Y = - 6983.98256 + 116.630115 |
X . | |||
| ||||||
- 6984.0 , | b = 116.630115 | ≈ | 116.6302 . |
显然:用此方法得到的a,b的估计和上述用Matlab软件得到的结果几乎相
等,再者,由于在显著性水平 α= 0.05下回归效果是显著的,所以我们就可以
得出结论:此回归曲线近似是线性的。
凯恩斯在《货币通论》中提出了绝对收入假说,其主要理论观点是认为,人们
的消费支出是由其当期的可支配收入决定的。当人们的可支配收入增加时,其中用于消费的数额也会增加,但是消费增量在收入增量中的比重是下降的,因此随收入的增加,人们的消费在收入中的比重是下降的,而储蓄在收入中所占的比重则是上升的。
凯恩斯的消费函数,假定了消费是人们收入水平的函数,也称为绝对收入消费函数。当人们的可支配收入增加时,其中用于消费的数额也会增加,但是消费增量在收入增量中的比重是下降的,因此随收入的增加,人们的消费在收入中的比重是下降的,而储蓄在收入中所占的比重则是上升的。凯恩斯的绝对收入理论:强调实际消费支出是实际收入的稳定函数,这里所说实际收入是指现期、绝对、实际的收入水平,即指本期收入、收入的绝对水平和按货币购买力计算的收入。
因此,扩大消费需提高居民的实际收入,如城市居民每隔一年一次的加薪,但如何提高农民的实际收入却始终没有切实的措施,这是我国总消费始终没有得到很好的提高的一个重要原因。
居民消费价格指数(CPI)是衡量通货膨胀水平的重要指标之一,其变化趋势既是中央银行制定货币政策的主要参数,也是商业机构进行债券等利率敏感性资产投资决策的重要依据,特别是在国内货币政策缺乏透明度的情况下,CPI在一定程度上成为债券市场走势的风向标。CPI反映了最终消费品的价格总体水平,而价格与货币供应量变化密不可分。
由图与表中的信息我们可以近似得到在一定的条件下居民消费价格指数与国家货币的流通量呈线性关系。进一步我们可以看到两者呈正相关关系,因此居民的消费水平可能会导致国家出现通货膨胀现象。
[其他数据见附页]
附[程序代码]
>>X=[46.2,47.1,50.6,51.9,52.9,54.0,55.5,60.6,64.6,69.3,82.3,97.0,100.0,103.4,110.0,126.2,156.7,183.4,198.7,204.2,202.6,199.7,200.6,201.9,200.3,202.7,210.6,214.4,217.7,228.1];
>>Y=[212.0,267.7,346.2,396.3,439.1,529.8,729.1,987.8,1218.4,1454.5,2134.0,2344.0,2644.4,3177.8,4336.0,5864.7,7288.6,7885.3,8802.0,10177.6,11204.2,13455.5,14652.
7,15688.8,17278.0,19746.0,21468.3,24031.7,27072.6,30375.2];
>>plot(X,Y,'.')
>>b=[30*sum(X.*Y)-sum(X)*sum(Y)]/[30*sum(X.*X)-sum(X)^2];
>>a=mean(Y)-b*mean(X);
>>plot(X,Y,'.',X,a+X*b);
>>xlabel('X = 居民消费价格指数');ylabel('Y= 货币流通量(亿元)');>> text(200,22000,'回归方程Y=a+b*X');
>>Syy=sum(Y.*Y)-sum(Y)^2/30;
>>Sxy=sum(X.*Y)-[sum(X)*sum(Y)]/30;
>>Sxx=sum(X.*X)-sum(X)^2/30;
>>c=[Syy-b*Sxy]/28;
>>t=abs(b)/sqrt(c)*sqrt(Sxx)
>>if t>=2.0484
input('在显著性水平为0.05下,回归效果是显著的');
else
input('在显著性水平为0.05下,回归效果是不显著的');
end;
显示结果:
在显著性水平为0.05下,回归效果是显著的
附表1—[源数据表]
年度 | 货币流通量Y | 居民消费价格指数P |
1978 | (亿元) | (1990 年=100) |
212.0 | 46.2 | |
1979 | 267.7 | 47.1 |
1980 | 346.2 | 50.6 |
1981 | 396.3 | 51.9 |
1982 | 439.1 | 52.9 |
1983 | 529.8 | 54.0 |
1984 | 729.1 | 55.5 |
1985 | 987.8 | 60.6 |
1986 | 1218.4 | 64.6 |
1987 | 1454.5 | 69.3 |
1988 | 2134.0 | 82.3 |
1989 | 2344.0 | 97.0 |
1990 | 2644.4 | 100.0 |
1991 | 3177.8 | 103.4 |
1992 | 4336.0 | 110.0 |
1993 | 5864.7 | 126.2 |
1994 | 7288.6 | 156.7 |
1995 | 7885.3 | 183.4 |
1996 | 8802.0 | 198.7 |
1997 | 10177.6 | 204.2 |
1998 | 11204.2 | 202.6 |
1999 | 13455.5 | 199.7 |
2000 | 14652.7 | 200.6 |
2001 | 15688.8 | 201.9 |
2002 | 17278.0 | 200.3 |
2003 | 19746.0 | 202.7 |
2004 | 21468.3 | 210.6 |
2005 | 24031.7 | 214.4 |
2006 | 27072.6 | 217.7 |
2007 | 30375.2 | 228.1 |
因篇幅问题不能全部显示,请点此查看更多更全内容