Login
升级VIP 登录 注册 安全退出
当前位置: 首页 > word文档 > 其他文档 > 拟合优度检验的基本思想,拟合优度检验的基本思想是什么

拟合优度检验的基本思想,拟合优度检验的基本思想是什么

收藏

本作品内容为拟合优度检验的基本思想,格式为 doc ,大小 133246 KB ,页数为 5页

拟合优度检验的基本思想


('拟合优度的基本思想(一)基本思想在OLS根据残差平方和最小的拟合准则提供了一个回归直线与数据拟合程度的度量,但是可以很容易的证明,只要把所有的数据Y乘以一个相同的尺度,那么残差平方和就可以扩大任意倍数。所以残差平方和作为衡量尺度有缺陷。于是推想:由于回归方程的拟合值依赖数据X,则我们关心的问题是,是否可以将X中的变差(即样本的方差,是每个样本观测值与样本均值的偏差)作为数据Y中的一个推断因子?由于拟合优度衡量的是,我们所建立的线性模型利用(或解释)了样本中多少信息,利用的信息越多越好。信息如何衡量呢?通常用变差(方差),如样本原始数据中含有的信息(波动性)用相依变量的离差平方和表示。至少从残差平方和为最小这一意义上来说是所有相依变量的变差可以利用数据的实际观测值与均值之间的偏离来度量,即(Yi−Y¯),总变差(totalvariation)可以利用离差的平方和表示,即SST=∑(Yi−Y¯)2利用回归方程表示,可以将所有样本之间的关系表示为式(1):(1)Y=Xb+e=Y^+e如果利用单个样本表示,则有式(2):(2)yi=yi^+ei=X′ib+ei如果回归方程中包含常数,,则有:∑i=1nei=0;Y¯=X¯b;Y^¯=Y¯=X¯b利用以上条件,得到式(3):(3)Yi−Y¯=Y^i+ei−Y¯=Y^i−Y¯+ei=(Xi′−X¯)b+ei这说明,样本与均值的偏离等于拟合值与均值的偏离加上残差,进一步等于X与均值的偏离和残差的和。这说明样本与均值的偏离大部分可以由X与均值的偏离来加以解释。注意到方程:Yi−Y¯=(Xi′−X¯)b+ei两端都是与均值的偏离,因此可以将其表示成为式(4):(4)M0Y=M0Xb+M0e其中M0为中心化矩阵(也是对称幂等矩阵),其作用是将样本观测值转变成为与均值的偏离,即中心化矩阵。M0=In−1nJn=In−1nii′,其中i=(1,1,…1)′。定义总体(离差)平方和、回归平方和以及残差平方和:SST∑(Yi−Y¯)2≜为总体平方和(TotalSumofSquares),反映样本观测值总体离差的大小;有常数项时SSE∑(Y^i−Y^¯)2=≜有常数项时∑(Y^i−Y¯)2为回归平方和(ExplainedSumofSquares),反映由模型中解释变量所解释的那部分离差的大小;SSR∑(ei−e^i)2=e¯i=0∑(Yi−Y^i)2≜为残差平方和(ResidualSumofSquares),反映样本观测值与估计值偏离的大小,也是模型中解释变量未解释的那部分离差的大小;(二)残差平方与拟合优度根据总体(离差)平方和、回归平方和以及残差平方和的定义可知,对于包含常数项的线性回归模型而言,下述平方和分解公式成立:SST=SSR+SSE。这说明整个“总体(离差)平方和”等于“回归平方和”加上“残差平方和”。证明:根据矩阵M0的定义,则有:(5)SST=∑(Yi−Y¯)2=(M0Y)′(M0Y)=Y′M0Y=(Xb+e)′M0(Xb+e)=b′X′M0Xb+b′X′M0e+e′M0Xb+e′M0e由于注意到是数据矩阵X的各列与残差向量e的正交性[1],所以X′e=0。可将SST写为式(6):(6)SST=b′X′M0Xb+e′M0e其中:b′X′M0Xb=Y^i′M0Y^i=∑(Y^i−Y^¯l)2=SSEe′M0e=∑(Yi−Y^i)2=SSR所以:SST=SSR+SSE该平方和分解公式表示原始数据所包含的信息被“回归”和“残差”所解释的比重。离差分解图利用上述平方和分解公式,我们可以获得一种度量回归直线拟合数据程度的指标即拟合优度,即线性回归模型的确定系数(coefficientofdetermination)能够解释的比例,见式(7):(7)R2==ΔSSESST==(1)b′X′M0XbY′M0Y==(2)1−SSRSST=1−e′eY′M0Y显然,系数R2是界于0和1之间的常数,表示数据Y的整体变差中能够被回归Y^变差所解释的比例,即线性回归模型能够解释原数据信息的比例。例如R2=99,则说明该模型能够解释原数据信息的99%。一般而言,决定系数R2越高越好。但什么是高呢?要根据具体的情境来考虑。到目前为止,还没有一个绝对的标准。一般地,如果使用的是累积时间序列数据,则模型的R2比较高。如果使用的是截面数据,则0.5左右的R2则是比较高的了。有时候截面数据中得到的R2等于0.2,也是很有价值的。所以,通常来讲,做宏观问题的R2较高,因数据较为累积。做微观数据的R2较低,因其数据不稳定。下面是我们可能遇到的关于R2的几种特殊情形:(1)Y与X无关,最小二乘估计中,即除了常数项系数以外,其余系数都为零,这时回归直线是一条“水平线”,即Y^i=Y¯(因为数据的中心落在回归直线上)。这是数据X与其均值的偏离无法转移到对Y的推断当中,这时X没有解释能力,因此R2=0。(2)如果所有的X和Y都落在一个超平面上(线性相关,如果只有两个变量回归,则Y与X在一条直线上),即所有的残差都为零,这时对应的极端情形为R2=1,即模型与样本观测值完全拟合。(3)另外一种极端是所有的Yi都相等(常数),这时由于数据的离差平方和为零,这时确定系数没有意义,也无法计算。',)


  • 编号:1700760354
  • 分类:其他文档
  • 软件: wps,office word
  • 大小:5页
  • 格式:docx
  • 风格:商务
  • PPT页数:133246 KB
  • 标签:

广告位推荐

相关其他文档更多>