单位文秘网 2021-07-18 08:14:43 点击: 次
摘 要:本文主要研究抽样调查中的无回答问题,将具体分析无回答问题的产生原因以及后果,这对了解和研究无回答问题有一定的意义。
关键词:无回答 缺失数据 估计
【中图分类号】 G644.5 【文献标识码】 A 【文章编号】1671-8437(2010)03-00123-03
随着社会主义市场经济在中国的发展,一种“卖”与“买”的矛盾,逐渐突出。这种矛盾的出现源于市场信息的不完全,不完全的市场信息导致生产与消费的独立性加大,生产的盲目性也因此而提高,最终在生产者与消费者之间形成了一条不可逾越的信息鸿沟。应运而生的市场调研,为其架设了一座坚实的桥梁,其通过对消费者的科学调研,为生产者提供及时有用的生产信息,从而降低了生产的盲目性。
任何一个市场调研案都离不开资料搜集这一环节,因而总要牵涉到一个问题——资料能否最终得到?当有些资料最终未能得到时,就出现了通常所述的无回答(Corchran,Kish等),有些学者也称为不完全数据(Medow等)或者缺失数据(Ford, Alton等)。无回答几乎在每一次的市场调研中都会出现,那么这会对市场调研的实用性产生怎样的影响?本文将在介绍无回答产生原因的基础上,对这一问题进行一定的的分析。
一 无回答的产生原因
无回答是指在实地调查中由于各种原因导致某些样品部分或者所有调查资料未能得到的情况。按照无回答的产生原因,一般将无回答分为有意识无回答以及无意识无回答;按照无回答的损失内容,分为单元无回答以及项目无回答两种。无回答产生后,要通过调查得到资料中有部分缺失,这对整个调查资料的应用来说,将产生多大的影响,这是几乎所有调研人员共同关注的问题,本节将主要介绍无回答产生的背景。
在以人为对象的调查中,无回答是很普遍的,即使是为连续性调查服务的“真固定样本” 也避免不了。有时,甚至是非人对象的调查,也会因为调查人员的不慎而造成某些样本单位数据的缺失。为研究无回答后果,对无回答的产生背景的叙述是有必要。对无回答产生原因有所介绍的文献 很多,其大体包含内容也很相近,现就整个调查过程来将无回答的种种产生原因归纳如下:
1.设计阶段:这一阶段工作的不到位是产生无回答的间接原因。包括方案设计以及问卷设计两个子阶段。在方案设计阶段,如果没有对目标总体进行深入地研究,将会导致实地调研阶段无回答的出现。例如,如果我们的目标总体包括很多农民,我们没有注意到总体的这一特征,在实地调研时采用邮寄问卷的调查方式,显然,样本的回答率是不会高的。在问卷设计阶段,如果没有把问题描述清楚,也会导致实地调研阶段无回答的出现,这一点是很显然的。
2.调查阶段:绝大多数直接导致无回答的原因都在这一阶段出现。主要有找不到被调查者,被调查者拒绝合作,被调查者遗漏部分项目,调查人员工作不到位等。
3.整理分析阶段:这一阶段主要是由于工作人员粗心,遗漏被调查者资料所导致。
由上面对无回答产生的分析可以看出,无回答的“种子”埋藏在调查的各个阶段,因此,对无回答进行预防以及处理应该贯穿调查始终。同时,由上面的分析也可以看出,某一样品的值能否得到是随机因素与一些确定因素共同作用的结果。这里的确定因素是被调查者的配合欲望,其一般与调查的内容很有关系,也就是与被调查者的值有很大关系,在个体之间通常具有较大的波动性。随机因素是指突然生病、不在家以及无意识遗漏等情况,这导致个体无回答可能性大小,在个体之间没有明显的不同。
二 无回答带来的后果
一般来说,无回答的后果主要有三点,有效样品数量的减少、估计量方差增大以及有偏估计的产生。对于有效样品的减少,是毋庸置疑的,本文不再熬述。而对于后两点本文不想简单叙述了事,笔者希望用抽样理论知识来加以论证。一般说来,对无回答产生后,统计量有偏性的论证,几乎所有的文献都是从分层的角度来做的,也就是将总体分为回答层以及无回答层,然后再通过计算理论均值(期望)来对有偏性加以论证,而对方差的增加基本上是默认的。这些文献中论证有偏性的具体做法是:将总体分为“回答”以及“无回答”两层,采用二重抽样的统计量估计原理,无回答的后果主要与回答层和无回答层的区别联系在一起,当他们之间没有显著区别时,即当无回答者没有显著的群体特征时,此时无回答是可以忽略的,反之,则会产生很大的偏差。
本文认为总体中每一个体都有无回答的可能性,抽样后并不能将总体划分为两层,因为此时每一个个体是否回答是不确定的,而对样本采访一次得到的每一个样品回答情况只是“回答”的一次实现,也就是说再进行一次采访,回答者可能会不回答。为了研究无回答的后果,这里假设:总体的均值为 表示总体第i单位的值,总体单位总量为N,采用简单随机抽样的方式从中抽取一个容量为n的样本,样本中每个样品一旦回答,则认为其回答值为真值,若不回答则认为其回答值为0,用 表示第j个样品的值、总体第 单位的值,j=1,2,……,n。另外,总体每个单位都有无回答的可能性,这里设第i个单位回答的概率为pi,任意两个个体的回答情况相互独立,并且个体的入样情况与回答情况也独立。再引进两个随机变量如下:
D=0,总体第i单位未入样1,总体第i单位入样 H=0,总体第i单位不回答1,总体第i单位回答显然,D以及H(1≤i≤N)的分布律如下:
在 P=1,1≤i≤N时,也就是没有无回答产生的可能性的情况下,用样本均值 来对总体均值进行估计,其估计的效果很好,而且此时由于每一个个体都没有无回答的可能性,因而采访阶段的“回答” 实现问题就没有体现出来。若存在i,1≤i≤N,使P≠1,即在有可能产生无回答的情况下,如仍用上式进行估计,此时=HX,在均值中加上因子H。因为在有可能产生无回答的情况下,基于上述假设,回答有两种实现——X、0,不难看出此时的个体的期望回答值、回答偏差以及回答方差分别为=PX、Bθ=(P-1)X、σ=P(1-P)X,1≤j≤n。下面对在假定有无回答产生可能性的情况下,统计量=HX的估计性质加以简单的论述:
定理1 在上述假定下=HX 对总体均值估计是有偏的,偏差大小与个体的回答偏差大小有关。
证明: E()=E(HX)=E(DiHiXi)=PiXi=PiXi
由上面的期望式可以看出,在每一个个体回答率为1时,期望为总体均值,也就是没有无回答的情况下上式是无偏的。当有无回答的可能性时,也即存在i,Pi≠1时,上式有偏,偏差为:B=E()-=(Pi-1)Xi=-QiXi=Bi,
其中Qi=(1-Pi),Bi表示第i个体的回答偏差,从上式不难看出定理的结论。
定理2 在上述假定下, =HX 的方差为:
Var()=σ+S (1)
其中S=(PiXi-PX)。该方差大小与平均回答方差σ以及回答期望值的离散程度S有关,当Pi=1 ,1≤i≤N 时,为一般抽样理论教材中的无放回简单随机抽样下样本均值的理论方差。
证明:采用条件期望公式如下:
Var()=E1[Var2()]+Var1[E2()]
=E1[Var2(DiHiXi|Di)]+Var1[E2DiHiXi|Di]
=E1[Pi(1-Pi)DX]+Var1[PiDiXi]
=Pi(1-Pi)X+PXVar(Di)+PiPjXiXjCov(Di,Dj)
=Pi(1-Pi)X+PX+[-]PiPjXiXj
=Pi(1-Pi)X+PX-PiPjXiXj
=σ+S
在上式中,如果 Pi=1,1≤i≤N,则回答的期望值就为真值,回答的方差为0,即上式中的第一项为0,第二项变为S,为一般抽样理论教材中无放回简单随机抽样下样本均值的理论方差,其中 S=(X-)。
定理3 定理2中的方差式(1)可以分解为
Var()=σ+(S+S -2ρ(X,σX)SxSQX) (2)
其中S=(QiX-QiX)表示回答偏差的离散程度ρ(X,σX)=, 表示回答偏差和个体真实值之间的相关系数,其中Cov(X,QX)=(X-)(QiX-QiX) 表示个体真实值与回答偏差之间的协方差。
证明:在定理2方差公式中作如下变换
(PiX-PiX)2=[(X-)+(Pi-1)X-(Pi-1)X]2
=(X-)2+(QiX-QiX)2-2(X-)(QiX-QiX)
再加上求和符号求和即得结论。
综合以上三个定理,在有无回答产生可能性的情况下,由于个体回答的随机性导致个体回答偏差产生,进一步形成了样本统计量的偏差。由定理2中(1)式知,个体期望回答值的离散程度、个体回答方差是样本统计量方差的来源。而由定理3中(2)式知,个体期望回答值的离散程度源于回答偏差的离散程度、回答偏差与真实值的相关系数、真实值的离散程度。不难看出,样本统计量的方差最终来源于回答真实值的概率、真实值的离散程度以及真实值与其回答概率之间的关系。而相对于没有无回答的情况下,方差的变化主要取决于个体回答概率以及回答概率和真实值之间的相关程度:当回答概率和真实值之间没有关系时,个体的回答情况没有群体特征,回答概率只受一些随机因素控制,而且此时的回答概率一般情况下比较接近于1,并且回答概率基本相同,由此个体的回答偏差Bi =(Pi-1)Xi将非常小,(2)式中的S 、ρ(X,σX) 都较为接近0,此时的方差较没有无回答时增大,增大的方差大体上等于PiQiX2 ,增加的份额非常微小;当回答概率与真实值之间有一定的关系时,回答情况有一定的群体特征,回答概率除了和一定的随机因素有关还和个体真实值的大小有关,此时个体的回答偏差有的较大,有的较小,较为离散,即样本统计量的偏差相对前一种情况偏差增大,此时回答方差、 S都比较大,而且也增加了回答偏差与真实值的相关程度这一项,因此,方差的变化主要源于回答方差、S以及回答偏差与真实值之间的相关系数。如果回答概率与真实值之间存在正相关关系,此时真实值的离散程度一般是比较大,因此大值与小值的差距较大,所以,虽然大值的无回答概率小,但回答偏差并不明显比小值的回答偏差小,小值的无回答概率大,回答偏差并不明显比大值的回答偏差大,因此回答偏差与个体值之间一般为弱相关,ρ(X,σX) 一般与0无太大差别。由定理3中的(2)式不难看出,方差相对没有无回答时是增加的。如果回答概率与真实值存在负相关,由于回答偏差还和真实值的大小有关,此时大值的无回答概率较大,大值的回答偏差将会更大,小值的无回答概率较小,小值的回答偏差也较小。因此,此时回答偏差与真实值之间的相关系数ρ(X,σX)大于0,但是此时的回答偏差的方差以及回答方差都有很大的增加,所以一般来说,总的方差还是增加的。
无回答的产生对抽样调查结果的可信度产生较大的影响,因此很多学者对无回答产生后怎样处理展开了深入的研究。可惜的是无回答的处理,到目前为止仍没有一个公认的好的处理方法,因此这仍是调查领域的一个悬而未决的问题。
参考文献:
[1]W.G.科克伦.著.抽样技术【M】.北京:中国统计出版社,1985年.
[2]金勇进译.调查中的非抽样误差【M】.北京:中国统计出版社,1997年.
[3]金勇进,蒋妍,李序颖.编著.抽样技术【M】.北京:中国人民大学出版,2002年.
[4]孙山泽.编著.抽样调查【M】.北京:北京大学出版社,2004年.
[5]徐森林.编著.实变函数论【M】.合肥:中国科学技术大学出版社,2002年.
[6]P.J.比克尔,K.A.道克苏,著.数理统计——基本概念及专题【M】.兰州:兰州大学出版社.2004年.
[7]E.L.Lehmann,George Casella著.点估计原理【M】.北京:中国统计出版,2005年.
[8]茆诗松,王静龙,濮晓龙.编著.高等数理统计【M】.北京:高等教育出版社.施普林格出版社,1998年.
[9]藤素珍.编著.数理统计【M】.大连:大连理工出版社,1990年.
[10]成平,陈希孺,陈桂景,吴传义.编著.参数估计【M】.上海:上海科技出版社,1985年.
[11]庄楚强,吴亚森.编著.应用数理统计学基础【M】.广州:华南理工大学出版社,2002.4.
[12]安瑞凤等.编著.概率论与数理统计【M】.北京:纺织工业出版,1986年.
[13]四川大学数学院.组编.概率论与数理统计【M】.北京:科学出版,2004年.
[14]奕长福,梁满发.编著.概率论与数理统计【M】.广州:华南理工大学出版社,2004年.
[15]汪忠志.主编.概率论与数理统计【M】.合肥:合肥工业大学出版,2005年.
[16]张饴慈等.编著.概率论与数理统计【M】.北京:科学出版社,2000年.
[17]夏怀勤等.编著.商务调研策划与实施【M】.北京:对外经济贸易大学,1997年.
[18]金勇进.处理缺失数据中辅助信息的利用【J】.统计研究,1998年,第一期.
(责任编辑:单位文秘网) )地址:https://www.kgf8887.com/show-120-66098-1.html
上一篇:独立学院数学课程教学改革方案探讨
下一篇:浅谈概率统计教学
版权声明:
本站由单位文秘网原创策划制作,欢迎订阅或转载,但请注明出处。违者必究。单位文秘网独家运营 版权所有 未经许可不得转载使用