面板数据模型,面板数据模型的三种基本形式
本作品内容为面板数据模型,格式为 doc ,大小 540712 KB ,页数为 50页
('第十讲经典面板数据模型一、面板数据(paneldata)一维数据:时间序列数据(crosssectiondata):变量在时间维度上的数据截面数据(timeseriesdata):变量在截面空间维度上的数据)。二维数据:面板数据(同时在时间和截面空间上取得的,也称时间序列截面数据(timeseriesandcrosssectiondata)或混合数据(pooldata)。面板数据=截面数据+时间序列数据。面板数据用双下标变量表示。例如yit,i=1,2,…,N;t=1,2,…,TN表示面板数据中含有N个个体。T表示时间序列的最大长度若固定t不变,yi.,(i=1,2,…,N)是随机变量在横截面上的N个数据;若固定i不变,y.t,(t=1,2,…,T)是纵剖面上的一个时间序列(个体)。平衡面板数据(balancedpaneldata)。非平衡面板数据(unbalancedpaneldata)。例1998-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费(不变价格)和人均收入数据见表1。人均消费和收入两个面板数据都是平衡面板数据,各有15个个体。表1.中国部分省级地区的居民数据(不变价格,元)居民家庭人均消费(y)居民家庭人均收入(x)地区1998199920002001200219981999200020012002AH(安徽)3777399042044495478447705179525756416093BJ(北京)68077454820686541047382739128100001123012692FJ(福建)5197531555236094666565056922727984239236HB(河北)3897410443624457512051675469567859556747HLJ(黑龙江)3290359738914159449442514747499853836144JL(吉林)3478373640784282499942414571487852726292JS(江苏)4919507753185489609160546624679373178244JX(江西)3234353236133914454542094788508855346329LN(辽宁)3918404743604654540246504968536357976597NMG(内蒙古)3128347638774171485043844780506355036039SD(山东)4169454750125160563654135850647769767668SH(上海)686681268652933610412877310770114321288313184SX(山西)3314350737944131478841574360454754026336TJ(天津)5499591761466904722171467735817388529375ZJ(浙江)623766016951796887927860853091871048611822二、面板数据模型及其作用1.经典面板数据模型建立在古典假定基础上的线性面板数据模型.2.非经典面板数据模型(1)非平稳时间序列问题的面板数据模型(面板数据协整模型)(2)非线性面板数据模型(如面板数据logit模型,面板数据计数模型模型)(3)其他模型(如面板数据分位数回归模型)3.面板数据模型作用(1)描述个体行为差异。(2)PanelData能够提供更多信息、更多变化性、更少共线性、更多自由度和更高效率。反观时间序列经常受多重共线性的困扰。(3)PanelData能够更好地研究动态调节,横截面分布看上去相对稳定但却隐藏了许多变化,PanelData由于包含较长时间,能够弄清诸如经济政策变化对经济状况的影响等问题。(4)PanelData能更好地识别和度量纯时间序列和纯横截面数据所不能发现的影响因素。(5)相对于纯横截面和纯时间序列数据而言,PanelData能够构造和检验更复杂的行为模型。(6)通常,PanelData可以收集到更准确的微观单位(个人、企业、家庭)的情况。由此得到的总体数据可以消去测量误差的影响。尽管PanelData研究的理论和应用发展很快,但目前仍然存在一些问题需要解决。例如,变量设计和收集数据困难;存在测量误差;存在选择性困难;时间序列较短;等等。4.目前有关PanelData的学术专著主要有:1.Analysisofpaneldata/ChengHsiao.1986.2.Econometricanalysisofpaneldata/BadiH.Baltagi.1995.3.TheEconometricsofpaneldata:ahandbookofthetheorywithapplications/Matyas&Sevestre.1996.应用程序软件:stata、EViews。三、经典面板数据模型的参数估计不变系数模型:yit=α+βxit+uit变截距模型:yit=αi+βxit+uit(时间变截距模型?双变模型?)变系数模型:yit=αi+βixit+uit(时间变截距模型?双变模型?)(一)不变系数模型(混合估计模型)如果从时间上看,不同个体之间不存在显著性差异;从截面上看,不同截面之间也不存在显著性差异,即各回归系数不随个体或截面的变化而变化,那么就可以直接把面板数据混合在一起用普通最小二乘法(OLS)估计参数,建立不变系数模型(混合估计模型)。yit=\uf061+\uf062xit+uit,i=1,2,…,N;t=1,2,…,T\uf061和\uf062不随i,t变化。称模型为混合估计模型。数据形式变为:地区年份YX安徽省199847703777199951793990200052574204200156414495200260934784…………………浙江省19987860623719998530660120009187695120011048679682002118228792例以表1中15个地区1996和2002年数据建立关于消费的混合估计模型,得结果如下:输出结果1DependentVariable:Y?Method:PooledLeastSquaresIncludedobservations:5Numberofcross-sectionsused:15Totalpanel(balanced)observations:75VariableCoefficientStd.Errort-StatisticProb.C73.8196084.483510.8737750.3851X?0.7614650.01171065.028950.0000R-squared0.983030Meandependentvar5291.773AdjustedR-squared0.982798S.D.dependentvar1745.640S.E.ofregression228.9535Sumsquaredresid3826637.F-statistic4228.764Durbin-Watsonstat0.864366Prob(F-statistic)0.00000015个省级地区的人均支出平均约占收入的76%,自发消费为73.82。(二)变截距模型(variableinterceptmodel)即自变量对因变量的效应(斜率)随个体或时间的变化而变化,而截距项却在不同的个体或时间上有所不同,此时可以建立变截距模型。按照样本数据性质的不同,具体分为固定效应模型和随机效应模型。1.固定效应模型(fixedeffectsregressionmodel)在面板数据散点图中,如果对于不同的截面或不同的时间序列,模型的截距是不同的,则可以采用在模型中加虚拟变量的方法估计回归参数,称此种模型为固定效应模型。3种类型:1.个体固定效应模型2.时刻固定效应模型3.时刻个体固定效应模型下面只以个体固定效应模型为例进行介绍。个体固定效应模型就是对于不同的个体有不同截距的模型。如果对于不同的时间序列(个体)截距是不同的,但是对于不同的横截面,模型的截距没有显著性变化,那么就应该建立个体固定效应模型。其中,Zi是不随时间变化的潜在变量,不可观察,但与x相联系。上式可以变化为:由于与每一个个体中一个确实存在(但不可观测)的变量有关,所以称为个体固定效应模型。等价于每一个个体有一个方程:y1t=α1+\uf062x1t+u1t,i=1(对于第1个个体,或时间序列),y2t=α2+\uf062x2t+u2t,i=2(对于第2个个体,或时间序列),…yNt=αN+\uf062xNt+uNt,i=N(对于第N个个体,或时间序列),t=1,2,…,T其中\uf065it,i=1,2,…,N;t=1,2,…,T,表示随机误差项。yit,xit,i=1,2,…,N;t=1,2,…,T分别表示被解释变量和解释变量。引入虚拟变量Wi=写为:yit=\uf0621xit+α1W1+α2W2+…+αNWN+uit,(t=1,2,…,T)如果满足如下4个假定条件,上述面板数据模型可以用OLS方法估计:(1)E(uitxi1,xi2,…,xiT,\uf061i)=0。以xi1,xi2,…,xiT,\uf061i为条件的uit的期望等于零。(2)xit,和uit不相关。(3)不同解释变量之间不存在完全共线性。(4)Cov(uit,uisxit,xis,\uf061i)=0,t\uf0b9s。在固定效应模型中随机误差项uit在时间上是非自相关的。数据结构:地区年份YXDAH…DZJ安徽省199847703777100199951793990100200052574204100200156414495100200260934784100…………………000浙江省19987860623700119998530660100120009187695100120011048679680012002118228792001对模型进行OLS估计,全部参数估计量都是无偏的和一致的。模型的自由度是NT–N–K(k是解释变量个数)例:表1的固定效应模型EViews估计结果:输出结果2DependentVariable:Y?Method:PooledLeastSquaresDate:02/14/06Time:17:18Sample:19982002Includedobservations:5Numberofcross-sectionsused:15Totalpanel(balanced)observations:75VariableCoefficientStd.Errort-StatisticProb.X?0.7041200.01959835.928060.0000FixedEffectsAH--C456.2010BJ--C1091.289FJ--C356.0866HB--C301.8503HLJ--C291.9486JL--C558.2303JS--C445.4530JX--C113.4984LN--C621.1425NMG--C271.5059SD--C344.3550SH--C645.5164SX--C414.0827TJ--C524.0437ZJ--C566.4419R-squared0.993390Meandependentvar5291.773AdjustedR-squared0.991709S.D.dependentvar1745.640S.E.ofregression158.9451Sumsquaredresid1490550.Durbin-Watsonstat2.100731=安徽+x1t=456.2+0.704x1t=北京+x2t=1091.3+0.704x2t……=浙江+x15t=566.4+0.704x15t北京、上海、浙江是消费函数截距(自发消费)最大的3个地区相对于既定的面板数据样本来说,是否有必要建立个体固定效应模型可以通过约束条件的F检验完成。…………………………………………………………约束条件的F检验在同一样本数据下,记无约束样本回归方程为记无约束样本回归方程的残差平方和为RSS无记有约束样本回归方程为有约束样本回归方程残差平方和为RSS约,可以证明RSS约RSS无。这意味着,通常情况下,对模型施加约束条件会降低模型的解释能力。但是,如果约束条件为真,则受约束回归模型与无约束回归模型具有相同的解释能力,RSS约与RSS无的差异变小。于是我们可以构造如下统计量:其中,df约、df无分别为受约束回归模型与无约束回归模型的残差自由度(即样本容量减去待估计参数个数)。根据数理统计学知识,当约束条件为真时,可以利用这个统计量检验约束条件是否成立。不变系数模型和变截距模型哪一个是受约束模型?……………………………………………………………………………………………………………原假设H0:不同个体的模型截距项相同(建立混合估计模型)。备择假设H1:不同个体的模型截距项不同(建立个体固定效应模型)。F统计量定义为:F==其中RSS混,RSS固分别表示约束模型(混合估计模型)和非约束模型(个体固定效应模型)的残差平方和。非约束模型比约束模型多了N-1个被估参数。在原假设H0下,F服从自由度为(N-1,NT-N-k)的F分布。接上例,已知RSS混=3866659,RSS固=1490550,k=1F==6.718F0.05(14,59)=1.899因为F=6.718>F0.05(14,59)=1.899,所以,拒绝原假设。结论是应该建立个体固定效应模型。注:如果确知对于不同的时间截面,模型的截距显著不同,但是对于不同的时间序列(个体)截距是相同的,那么应该建立时刻固定效应模型;如果确知对于不同的截面、不同的时间序列(个体)模型的截距都显著地不相同,那么应该建立时刻个体效应模型,时刻个体固定效应模型就是对于不同的时间截面(时刻点)、不同个体的时间序列都有不同截距的模型。2.随机效应模型(randomeffectsmodel)在固定效应模型中采用虚拟变量的原因是解释变量的信息不够完整(无法观测)。也可以通过对误差项的分解来描述这种信息的缺失。yit=\uf061+\uf062xit+uit其中误差项在时间上和截面上都是相关的,用3个分量表示如下:uit=ui+vt+wit其中ui\uf07eN(0,\uf073u2)表示截面随机误差分量;vt\uf07eN(0,\uf073v2)表示时间随机误差分量;wit\uf07eN(0,\uf073w2)表示混和随机误差分量。同时还假定ui,vt,wit之间互不相关,各自分别不存在截面自相关、时间自相关和混和自相关。上述模型称为随机效应模型。为了容易理解,假定模型中只存在个体随机误差项ui,不存在时间随机误差分量(vt),即yit=\uf061+\uf062xit+(ui+wit)=\uf061+\uf062xit+uit=(\uf061+ui)+\uf062xit+wit=\uf061i+\uf062xit+wit(\uf061为均值截距,ui为个体截距与均值截距的差异)这种随机效应模型又称为误差分量模型(errorcomponentmodel)。截面随机误差项ui是属于第i个体的随机波动分量,与时间变化无关。随机误差项ui,wit与X无关,且满足如下条件:E(ui)=E(wit)=0,E(wit2)=\uf073w2,E(ui2)=\uf073u2,E(wituj)=0(包括所有的i,t,j),E(witwjs)=0(i\uf0b9j,t\uf0b9s),E(uiuj)=0,i\uf0b9j如果不考虑其他因素,uj也可以用OLS进行估计。方法如下:地区年份YXeui的估计安徽省199847703777199951793990200052574204200156414495200260934784…………………浙江省19987860623719998530660120009187695120011048679682002118228792但由于cov(uit,uis)=E(uituis)=E〔(ui+wit)·(ui+wis)〕=var(ui)0,即存在误差项的系列相关,所以随机效应模型一般采用广义最小二乘法(GLS)估计参数,如果随机误差分量服从已知分布(如正态分布),模型的参数还可以用极大似然法估计。仍以表1为例,随机效应模型估计结果如下:=+安徽+x1t=(261.565-28.01)+0.734x1t=+北京+x2t=(261.565+439.65)+0.734x2t……=+浙江+x15t=(261.565+15.21)+0.734x15t(注意:随机效应模型中应该含有公共截距项)检验个体随机效应的原假设与检验统计量是H0:var(ui)=\uf073u2=0。(混合估计模型,即不存在个体效应ui)H1:var(ui)\uf073u2\uf0b90。(个体随机效应模型,即存在效应ui)LM=其中RSS随表示由个体随机效应模型计算的残差平方和。RSS混表示由混合估计模型计算的残差平方和。统计量LM服从1个自由度的\uf0632分布。以例1为例,用个体随机效应模型和混合模型计算的统计量的值是LM==847.21F0.05(1)=3.84因为F=847.21>F0.05(1)=3.84,所以拒绝原假设,结论是应该建立个体随机效应模型。3.随机效应的检验:Wu-HausmanTest随机效应模型和固定效应模型都是变截距的模型,究竟哪一个更好些?不好一概而论,因为各有优缺点。至于在实际应用中具体采用哪一种,需要通过检验。最常用的是Wu-Hausman检验。WU-Hausman检验原理:如果cov(αi,xi)=0,随机效应模型(GLS)产生斜率系数的一致有效估计量,而固定效应模型(OLS)产生一致但无效估计量,所以应该采用随机效应模型;如果cov(αi,xi)≠0,随机效应模型斜率系数的估计量非一致,而固定效应模型产生一致有效估计量,所以应该采用固定效应模型。H0:cov(αi,xi)=0(采用随机效应模型);H1:cov(αi,xi)0(采用固定效应模型)Wald统计量:在H0下,WH~在为一个标量时,Wald统计量退化为:本例中,显著性水平0.05下,自由度为1的卡方临界值=7.88,所以,不拒绝H0;应用随机效应模型。(EV5.1以上版本给出了hausmantest程序)(三)变系数模型当认为对于不同个体(或时间),解释变量的回归系数存在显著性差异时,还可以建立回归系数(包括截距系数和斜率系数)不同的面板数据模型。如果各个体(或时间)的误差项不相关,可以直接将某一个个体(或时间)作为一个独立的样本,利用OLS分别估计N个(或T个)方程。方法如下:地区年份YXOLS安徽省199847703777199951793990200052574204200156414495200260934784…………………浙江省19987860623719998530660120009187695120011048679682002118228792若如果各个体(或时间)的误差项相关,需要似无相关回归(SeeminglyUnrelatedRegression,SUR)估计参数。……………………………………………………………似无相关回归(SUR)的基本思想:假定研究山东省、河南省的人均收入x与消费支出y的关系年份河南省山东省XYXY2001440035006976516020025200435476685636…………..…2009120208940142001240201013200953515421354如果我们确认二者的自发消费(截距项)与边际消费倾向(斜率)均不同,即:u鲁和u豫满足所有古典假定,分别对两个方程做OLS是不是一个最好的选择呢?否!因为有一个条件我们没有用到:COV(u鲁t,u豫t)0!所以最好的办法是联合估计:省年XYDui河南省2001440035001u12002520043541u2…………1…20091202089401u920101320095351u10山东省2001697651600u10+12002766856360u10+2……..…0…20091420012400u10+92010154213540u10+10由于方程中的随机项违背无序列相关假定,即COV(ut,ut+10)≠0所以参数估计应该使用GLS:1.用OLS法分别估计2个省份方程,计算和保存回归中得到的残差eit;(2×10)2.用这些残差来估计不同回归方程扰动项之间的协方差矩阵中的各元素:如(本例中,是一个2×2的正定对称方阵,且。非主对角线上的元素不为0,说明两个省份方程随机项存在相关性,即存在SeeminglyUnrelated问题。)3.使用求参数的可行广义最小二乘估计值(FGLS)。4.重复2~3,直到扰动项之间的协方差矩阵收敛为止。得到的估计量称为似无相关回归估计量(SURE)。SURE是一致的,并可以增加估计量的有效性(对比OLS)。尤其是在个体较少、时间较长的面板数据模型中。在下面两种情况下,SUR与分别运行OLS回归的结果相同:(1)若各方程的扰动项之间的协方差都等于0;(2)若各方程的自变量都相同,并且每个自变量的每个观测值亦相同。…………………………………………………………例利用表1,参数估计结果如下:输出结果3DependentVariable:Y?Method:PooledLeastSquaresCross-sectionSUR(PCSE)standarderrors&covariance(d.f.corrected)VariableCoefficientStd.Errort-StatisticProb.AH--C3.501315382.86000.0091450.9927BJ--C230.1863864.51820.2662600.7913FJ--C1612.139246.44976.5414500.0000HB--C-74.53229250.1053-0.2980040.7671HLJ--C561.1775319.54891.7561550.0859JL--C408.6956198.25452.0614690.0451JS--C1571.233350.25114.4860180.0000JX--C572.9500290.93421.9693460.0551LN--C245.5651273.64910.8973720.3743NMG--C-1392.275297.3780-4.6818360.0000SD--C836.5258305.71432.7362990.0089SH--C422.75071163.3840.3633800.7180SX--C754.8215290.89092.5948610.0127TJ--C-261.5625439.7527-0.5947950.5550ZJ--C980.8890234.00454.1917520.0001AH--XAH0.7881400.07081311.129800.0000BJ--XBJ0.7880110.0832689.4635100.0000FJ--XFJ0.5404220.03184516.970400.0000HB--XHB0.7689780.04291417.919060.0000HLJ--XHLJ0.6513780.06211910.485940.0000JL--XJL0.7337260.03887218.875340.0000JS--XJS0.5434410.04971510.931190.0000JX--XJX0.6155870.05553811.084140.0000LN--XLN0.7727190.04960015.578900.0000NMG--XNMG1.0269460.05734617.907760.0000SD--XSD0.6281300.04684613.408340.0000SH--XSH0.7236470.1009977.1650410.0000SX--XSX0.6354280.05788010.978410.0000TJ--XTJ0.7992740.05302115.074560.0000ZJ--XZJ0.6608450.02417027.341220.0000R-squared0.996057Meandependentvar5291.773AdjustedR-squared0.993516S.D.dependentvar1745.640S.E.ofregression140.5613Akaikeinfocriterion13.01834Sumsquaredresid889086.4Schwarzcriterion13.94533Loglikelihood-458.1877F-statistic392.0088Durbin-Watsonstat3.075291Prob(F-statistic)0.000000=安徽+x1t=3.501+0.788x1t=北京+x2t=230.186+0.788x2t……=浙江+x15t=980.889+0.661x15t如何确定需要使用变系数模型?在已经拒绝不变系数模型假定的前提下,检验方法是:原假设H0:不同个体的模型截距项不同,斜率系数相同(建立变截距模型)备择假设H1:不同个体的模型截距项不同,斜率系数不同(建立变系数模型)。F统计量定义为:其中RSS固,RSS变分别表示约束模型(变截距模型中的固定效应模型)和无约束模型(变系数模型)的残差平方和。用上例计算,已知RSS固=1490550,RSS变=889086.4,n=15,T=5,k=1F==2.174453查表知,F0.01(14,45)=2.563因为F=2.174453<F0.01(14,45)=2.563,所以,在0.01的显著性水平线,不拒绝原假设。结论是应该建立变截距(个体固定效应)模型,变系数模型不适合于本例。四、非经典面板数据模型我们以上研究都是在经典计量经济学框架下进行的线性均值模型。潜在的不足是:第一,没有考虑到由于数据非平稳性造成的虚假回归问题;第二,没有考虑到非线性模型问题;第三,没有考虑其他分布特征建模问题。目前,在PanelData理论和应用研究中,围绕上述问题形成了主要有三个热点领域,最近10年理论发展均产生这三个领域:1.面板数据单位根检验和协整模型该领域开创性研究工作可以追溯到Levin和Lin(1992,1993)及Quah(1994)。PanelData的单位根和协整理论是对时间序列的单位根和协整理论研究的继续和发展,由于面板数据中的时间序列数据在回归过程中容易发生伪回归问题所以又发展出面板数据单位根检验和面板数据协整模型。PanelData的单位根和协整综合了时间序列和横截面的特性,通过加入横截面能够更加直接、更加精确地推断单位根和协整的存在,尤其是在时间序列不长、可能获得类似国家、地区、企业等单位截面数据的情况下,PanelData单位根和协整的应用更有价值。这些方法本质上是时间序列分析方法在面板数据模型中的应用。2.非线性面板数据模型即将微观计量经济学方法引入到面板数据分析。如面板数据Logit(Probit)模型、面板数据计数模型等。3.非均值面板数据模型如面板数据分位数回归模型、面板数据ARCH族模型。',)
提供面板数据模型,面板数据模型的三种基本形式会员下载,编号:1700784981,格式为 docx,文件大小为50页,请使用软件:wps,office word 进行编辑,PPT模板中文字,图片,动画效果均可修改,PPT模板下载后图片无水印,更多精品PPT素材下载尽在某某PPT网。所有作品均是用户自行上传分享并拥有版权或使用权,仅供网友学习交流,未经上传用户书面授权,请勿作他用。若您的权利被侵害,请联系963098962@qq.com进行删除处理。