Login
升级VIP 登录 注册 安全退出
当前位置: 首页 > word文档 > 其他文档 > 拟合优度检验及其应用 (1),拟合优度检验的应用

拟合优度检验及其应用 (1),拟合优度检验的应用

收藏

本作品内容为拟合优度检验及其应用 (1),格式为 doc ,大小 695547 KB ,页数为 12页

拟合优度检验及其应用 (1)


('拟合优度检验及其应用辅修专业:经济学12级法学1班201210141419刘金锋摘要:数理统计的两个主要形式就是参数估计和假设检验,在这里,我们只介绍后者——假设检验,其中又只对假设检验中的拟合优度检验假设作介绍。假设检验根据样本分布族的数学形式已知与否,可分为参数假设检验和非参数假设检验,作为非参数假设检验之一的拟合优度检验,又是检验理论分布假设的重要方法。为了帮助我们更好了解拟合优度检验,本文将首先给我们介绍拟合优度检验的数学定义。其次,重点介绍时下讨论最多的两种拟合优度方法——检验和检验,并穿插具体实例解答来给我们直观的印象,帮助理解。最后,考虑到检验过程会很复杂,本文在最后一节讲述了这两种检验的软件实现,结合实例,编写运行程序。关键词:假设检验;非参数假设检验;拟合优度;检验;检验内容安排1.拟合优度检验的提出2.几种常用拟合优度检验介绍2.1.检验2.1.1.理论分布完全已知情况1.随机变量是离散型2.理论分布为确定分布2.1.2.理论分布带有未知参数2.2.检验2.3.检验与检验的比较3.拟合优度检验实例分析4.拟合优度检验的软件实现4.1.检验的软件实现4.2.检验的软件实现5.参考文献1.拟合优度检验的提出[1]假设检验问题就是通过从有关总体中抽取一定容量的样本,利用样本去检验总体分布是否具有某种特性。假设检验问题大致分为两大类:(1)参数型假设检验:即总体的分布形式已知(如正态、指数、二项分布等),总体分布依赖于未知参数(或参数向量),要检验的是有关未知参数的假设。例如,总体~(,),未知,检验或.(2)非参数型假设检验:如果总体分布形式未知,此时就需要有一种与总体分布族的具体数学形式无关的统计方法,称为非参数方法。例如,检验一批数据是否来自某个已知的总体,就属于这类问题。正如摘要所说,我们在本节只讨论非参数型假设检验问题,常用的非参数假设检验方法有:符号检验、符号秩和检验、秩和检验及Fisher置换检验和拟合优度检验。本文又只对拟合优度检验做深入介绍。拟合优度检验问题的提法如下:设有一个一维或多维随机变量,令为总体中抽取的简单样本,是一已知的分布函数。要利用样本检验假设的分布为,(1.1.1)其中常称为理论分布。导出这种假设检验的想法大致如下:设法提出一个反映实际数据与理论分布偏差的量。如果较大,如,则认为理论分布与数据不符,因而否定。然而这种“非此即彼”的提法常显得有点牵强。因为一般来说,理论和实际没有截然的符合或不符合。更恰当的提法是实际数据与理论分布符合的程度如何?因此通常对的检验不是以“是”或“否”来回答,而是提供一个介于0和1之间的数字作为回答,即用此数作为符合程度的度量刻画。就具体样本算出之值,记为。称下列的条件概率:为在选定的偏离指标之下,样本与理论分布的拟合优度。越接近1,表示样本与理论分布拟合的越好,因而原假设越可信。反之,它越接近0,则原假设越不可信。如果它低到指定的水平之下,则就要否定了。因此,在给定检验水平后,根据拟合优度可以给出检验问题的一个检验如下:当<时否定,当时接受这种类型的检验称为拟合优度检验。2.几种常用拟合优度检验介绍2.1.检验[1]2.1.1.理论分布完全已知情况1.随机变量是离散型设为从总体中抽取的简单样本,理论分布为其中已知,且,那么根据拟合优度检验的提法,我们所需检验的问题就是设样本中等于的个数记为。则称为的观察频数,显然有,相应的就称为的理论频数(因为为中取值为的频率,频率的极限是,故当充分大时有,因此极限情形的理论频数为)。由此可见,我们可以用作为样本与理论分布偏差的一种度量。在这里,告诉我们,若取,则在成立条件下,的极限分布(当时)为。因此有了如下定理:定理2.1.1设,则在成立条件下,当样本容量时有即的分布收敛于自由度为的分布。按照这一定理,我们可以提出如下检验方法:当充分大时,统计量的分布就是。于是所需的检验就是当时否定,否则就接受正如第一节中所说,对检验问题只给出一个“是”或“否”的结论,有显牵强,常给出一个拟合优度,方法如下:记是用一组具体的样本算出的值,计算概率。其中是自由度为的变量。就称为拟合优度,它是度量样本与理论分布偏离程度的量。若较大,表明在成立的前提条件下,出现统计量大于等于是有很大可能的,故可以认为样本数据与理论分布拟合较好。反之,若较小,表明在成立的前提条件下,产生或大于的偏差的可能性是很小的,这是个小概率时间,而我们一般认为在一次抽样中,小概率事件不应该发生,故可以认为样本与理论分布不一致,拟合不好。2.理论分布为确定分布这一情形包括两种情形:理论分布为离散型随机变量但取可列个值,以及理论分布为连续分布。设是从总体中抽取的简单样本,要检验的分布为其中是一已知分布,思路是这样的:将实数轴分成个子区间。那么的取值就只能在这个区间中取得。故又可计算落入不同区间的观察频数。则,而就是频率。这又类似于随机变量是离散型且取有限个不同值的情形,具体做法如下:第一步,取个常数(的选取必须不能依赖于样本,即必须事先定好),满足,将实轴分成(选取多大才合适呢,取决于大小,一种经验法则认为的选择应使理论频数和观察频数都不小于5)个子区间。。第二步,计算个事件在成立下的概率,显然,则我们需要检验的问题转化为。第三步,求出落入,各个区间的观察频数。计算检验统计量之后的做法与离散型随机变量相同。2.1.2.检验:理论分布带有未知参数的情况此时要检验的假设是:的分布属于一个确定的分布族,令为从总体中抽取的简单样本,要检验假设存在,使的分布为当然,这一假设的检验方法可以由前面一段所讨论的理论分布完全已知情形推广得到。在这里唯一不同的就是所表示出来的理论频数是关于的未知量故不能作为检验统计量。因此,要按某种方法将用样本估计出来,如是的估计值,用代替中的,则可得检验统计量认为,在成立条件下,则当时,的分布依然收敛于。但后来指出的极限分布的自由度不是所认为的,而应是(其中是未知参数个数,这里就是)。2.2.经验分布的检验[2]如2.1节所述,不管总体分布是什么类型,检验都可以用,不过对于理论分布是连续型分布时,本小节介绍的检验效果将更好些,这是因为检验需要按某种方式分组,因此统计量之值依赖于把分成个子区间的具体划分方法,包括的选择和区间的位置。设的分布函数未知,为从中抽取的简单随机样本,为给定的某个分布函数,来研究下列检验问题:首先,从样本出发求出的经验分布函数如下:其中是样本的次序统计量,令检验统计量为常称为与之间的柯氏距离。我们易知如果成立,则。换而言之,如果成立,又较大,倾向于小值。如果值较大,则倾向于否定。其拟合优度的计算公式如下:有了具体样本之后,计算出的具体值,则概率就是在柯氏距离下,样本与理论分布的拟合优度。2.3.检验与检验的比较[1]大体上可以这样说:在总体为一维且理论分布为完全已知的连续分布时,检验优于检验。这是因为:1.统计量之值依赖于把分成个区间的具体方法,包括的选择和区间的位置,柯氏距离则没有这个依赖性。2.一般来说方法鉴别力强,也就是说,在不是总体的分布时,用方法较容易发现。另一方面,检验也有它的优点:1.当总体是多维时,处理方法与一维一样,极限分布的形式也与维数无关;2.尤其重要的是:对于理论分布包含未知参数时,检验容易处理,而方法处理起来很难。3.拟合优度检验实例分析有一组随机数数据①,但现在不清楚服从哪种分布,现在要求利用拟合优度检验判断这组数据是否服从分布(),数据如下表:2610893773396823656244522275166554557636764285617752383331041344676242544423364734413534644410113527526105设这组数据是,根据题目要求,我们所需要检验的假设为:分布(1)将上表数据整理得出各个数据出现的频数,列出下表:123456789101113313151814151042411(2)计算出,用作为的估计①通过R软件的随机数功能生成,但不清楚是不是服从分布了则,当参数,我们可以分别计算出所有观察数对应的概率,利用公式(3)至此,我们可以计算出检验统计量根据的观点:查分布表①得即所以接受,即认为这组随机数服从分布。4.拟合优度检验的软件实现②4.1.检验的软件实现同样以上一节的数据为例123456789101112133131518141510424101现在我们运用流行的统计软件—R软件来实现检验。(1)输入数据X<-1:13;Y<-c(3,13,15,18,14,15,10,4,2,4,1,0,1)(2)计算理论分布q<-ppois(X,mean(rep(X,Y)));n<-length(Y)p<-c()p[1]<-q[1];p[n]<-1-q[n-1]for(iin2:(n-1))p[i]<-q[i]-q[i-1](3)作检验Chisq.test(Y,p=p)运行结果如下:Chi-squaredtestforgivenprobabilitiesdata:YX-squared=12.1884,df=12,p-value=0.4307Warningmessage:Inchisq.test(Y,p=p):Chi-squared近似算法有可能不准p-value=0.4307>0.1,因此,能够认为这组随机数服从分布。①参见文献[3]孙山泽.非参数统计讲义.北京大学出版社,2000.203页②具体涉及到的函数及程序使用,参见文献[2]薛毅陈立萍.统计建模与R软件.清华大学出版社,2007.226页4.2.检验的软件实现考虑到检验分单样本和双样本检验两种,这里,我们仅仅介绍单样本检验的软件实现现有一台设备无故障工作时间(单位:小时)记录数据,如下表:4205009201380151016501760210023002350试用检验方法检验此设备无故障工作时间的分布是否服从λ=1/1500的指数分布?输入数据,调用ks.test()函数X<-c(420,500,920,1380,1510,1650,1760,2100,2300,2350)ks.test(X,"pexp",1/1500)运行结果如下:One-sampleKolmogorov-Smirnovtestdata:XD=0.3015,p-value=0.2654alternativehypothesis:two-sidedp-value=0.2654>0.05,无法拒绝原假设,因此认为此设备无故障工作时间的分布服从λ=1/1500的指数分布。限于篇幅的原因,只就检验和单样本的检验的软件实现作了简单举例说明,更多拟合优度检验方法的软件实现请参考文献[2]。至此,本文内容基本结束。5.参考文献:[1]韦来生.数理统计.科学出版社,2008.[2]薛毅陈立萍.统计建模与R软件.清华大学出版社,2007.[3]孙山泽.非参数统计讲义.北京大学出版社2000',)


  • 编号:1700760353
  • 分类:其他文档
  • 软件: wps,office word
  • 大小:12页
  • 格式:docx
  • 风格:商务
  • PPT页数:695547 KB
  • 标签:

广告位推荐

相关其他文档更多>