单位文秘网 2021-08-08 08:15:28 点击: 次
一、引言
商业健康保险是我国建立和发展多层次医疗保障体系的重要内容,而以报销住院费用为保险标的的保险形式是商业健康保险中最常见的形式之一。而在设计医疗保险产品时,风险分析和评估一直是必须考虑的问题之一。在许多情况下,由于种种条件的限制,只能搜集到少量的样本,即小样本。如保险中的豁免数据,健康险中的各种重大疾病患病情况数据等等。因此在数据缺乏的基础之上,如何充分利用有限的样本点来较精确的估计每次住院费用的分布对于商业健康保险产品的费用厘定有着重要的意义。
概率密度的核估计方法自Rosenblatt(1955年)和Parsen(1962年)提出以来,由于其优良的统计特性和使用简便而迅速发展起来。核估计方法具有较参数估计方法适用范围广,较直方图方法估计精确且光滑性好等特点。运用核估计方法处理大样本信息,是统计学中常用的一种手段。但核估计方法来处理、解决、分析保险精算中小样本信息,在国内鲜见报道、登载。本文将核估计方法用于一个实际项目的研究,解决了一维小样本问题。
该项目的数据资料为某市参加基本医疗保险的366363位20岁以上参保职工在2000年7月到2001年6月一年间共27365次住院的费用记录,其中男性14370人次,女性13265人次。本文通过利用核估计方法、信息扩散方法、信息扩散的参数优化方法对每次住院费用的年龄分布密度进行了估计(由于篇幅有限,本文只以女性20-40岁的住院费用为例),其具体做法是:1.利用核估计方法处理的大样本结果作为检验标准(以前是以直方图方法处理的大样本结果作为检验标准)2.利用核估计方法和信息扩散方法同时处理小样本问题,并将结果加以比较,说明信息扩散方法处理小样本问题的有效性3、引入两个准则,建立优化模型,结果比较理想。
二、数学模型
1.核估计的定义和窗宽的选择
设Y1,Y2……Yn是随机变量的简单随机子样,f(y)是Y的概率密度函数,K(·)为上一个给定的概率密度函数,hn>0是一个与n有关的常数,记
fn(y)=fn(y;Y1,Y2,…Yn)=1nhn∑ni=1k(y-Yihn)
则称fn为总体未知密度函数f的一个核估计,称K(·)为核函数,称hn为窗宽。
核估计方法得到的概率密度函数不仅和样本有关,还与核函数的选择以及窗宽的选择有关。本文选取标准正态密度函数为核函数,选取窗宽hn=CQn15。
2.信息扩散方法定义
在上述定义和选择的基础上,本文相关的信息扩散方法定义为:
定义1 设V是知识样本,W是基础论域,所谓关于V的一种信息扩散,就是V×W到[0,1]上的一个映射:μ:V×W→[0,1],且满足下列三个条件:(1)vj∈V,如wj是vj的观测值,则μ(vj,wj)=supw∈Wμ(v,wj);(2)vj∈V,μ(vj,wj)随||wj-w||数值的增加而递减;(3)v∈V,∫wμ(v,w)dw=1其中,如W为离散情形,∫W表示∑W。
定义2扩散的范围被定义为欧几里得距离R。如果R是有限的(无限的),就称为有限维(无限维)信息扩散。
3.信息扩散方法的参数优化问题
信息扩散的性质不仅依赖于给定的样本,也与参数λ的选择有密切的关系。随着参数λ的变化,从几何上讲会引起曲线或曲面的波动的增加或减小,因此通过优化参数λ对扩散函数进行改进,这是本文一个重要工作之一。其原则是既要从一定程度上反映给定样本的性质,
同时又希望曲线或曲面的波动性尽量的小。为此,建立如下准则:
准则1:最小波动准则 信息扩散函数参数的选择应该使患病率曲线(面)波动最小。数学表达式为:F(λ)=∫ba2pλw22dw
准则2:有限偏离度准则 信息扩散所得到的患病率偏离给定样本不远。该准则作为约束条件,衡量方法是借鉴图形相似的判别方法,其数学表达式为:
C(λ)=∑i(fiO*fid(λ))(∑i(fiO)2∑i(fid(λ))2)12
其中f0i表示原始小样本在给定子域Ωi上的住院费用对数的频数,fdi(λ)表示经过信息扩散后得到的住院费用对数的频数。则信息扩散的优化参数模型为minF(λ);s.t.C(λ)≥ε,其中ε为相似指数。
三、项目研究
1.大样本
将住院费用数据按性别和年龄段分成12组,分别为20-29岁,30-39岁,40-49岁,50-59岁,60-69岁,70岁以上。对住院费用取取核函数K(x)=12πe-x22,分性别和年龄用核估计方法对住院费用进行分析,其结果如下(仅以女性20-39岁的住院费用为例):
图1 女性20-29岁及30-39岁住院费用对数的核密度函数曲线(大样本)
图2 女性20-29岁及30-39岁住院费用对数的核密度函数曲线(不含生育)(大样本)
从以上图形可以看出,利用核估计方法得到的密度函数曲线较好的保持了其核函数的连续性、光滑性和对称性。
对于女性20-29岁的情况,可以发现这个年龄段的密度曲线有着明显的双峰,而且费用较小的那个峰特别的高。根据图2,分析其原因可能有以下两点:(1)处于该年龄段的许多女性由于生育或生育相关原因而发生住院;(2)生育住院费用的分布和非生育住院费用的分布是有区别的。整体而言,生育住院的费用比非生育住院的费用要小得多。
而女性30-39岁年龄段也因为生育住院的原因而有两个峰,只不过这个年龄段的生育比例相对较小,故没有20-29岁年龄段表现的那么明显。
2.小样本
(1)核估计方法
我们采用随机抽样的方法,根据性别和年龄段分别从不同的一维大样本中抽取105条数据,在每一个子区间,平均只有7个样本点,因此该数据可作为小样本。对于该样本,采用核估计方法计算分性别和年龄段的住院费用对数的分布情况。取核函数K(x)=12πe-x22。
(2)信息扩散方法
控制点集为w={wi=0.5+i,i=0.1,Λ,14},其中wi代表某个年龄段的住院费用对数,控制点间距为δ=1。取一维信息扩散函数μ(w,v)=e-(w-v)22,将每个记录的信息从样本点扩散到全空间,得到控制点wi处的某个年龄段住院费用对数的密度函数f(wi)。
(3)信息扩散方法的参数优化
上面我们将参数λ设定为2,存在着一定的主观性。信息扩散的性质不仅依赖于给定的样本,也与参数λ的选择有密切的关系。参数λ决定了信息扩散函数的“胖”与“瘦”,即控制信息扩散的程度。从另一个角度讲,它体现了我们对信息点影响范围及程度的度量。如前面所述,本文根据两个准则“有限波动准则”和“最小偏离度准则”,得到了信息扩散参数优化的具体结果如下。
图3 核估计方法、信息扩散方法、优化信息扩散方法比较
(KER,ker:利用核估计方法处理大、小样本,UIDM:利用信息扩散方法处理小样本;OIDM代表利用优化信息扩散方法处理小样本)
图4 核估计方法、信息扩散方法、优化信息扩散方法比较(女性非生育)
从图3、4可以看出利用核估计方法处理小样本问题,无论生育还是非生育情况,峰值和峰宽均小于大样本的情况。且对于女性20-29岁(不含生育)年龄段,基本没有反映出其双峰的特征。这一切均是由于小样本信息量不足,一些能够体现曲线的细微特征的信息遗失的结果。但从整体来讲,利用核估计方法处理该小样本问题是有效的,获得的两条住院费用对数的分布曲线相当接近,能够反映出住院费用对数的整体分布情况。而信息扩散的效果类似于计算几何中对曲线(曲面)的光顺,上图正说明了这一点,扩散所得的峰值较核估计的低。可以说,信息扩散的实质是通过集值化的手段填补样本点之间的空隙,从而达到充分利用信息的目的。即信息扩散方法是利用信息的合成避免了信息的局部化,达到了平均化信息的效果。经过参数优化后,利用信息扩散方法处理的小样本问题的住院费用对数曲线的峰值和峰宽均有所改进,更加接近作为客观近似标准的核估计大样本情况。
四、结果分析
为了更加清晰地衡量不同处理方法的有效性,本文引入了“可减少误差”的概念。若某种估计方法α的绝对误差总和为Pa,另一种估计方法β的绝对误差总和为Pβ(Pa>Pβ),则称(Pa-Pβ)/Pa为β相对α的可减少误差。以下就是以核估计方法处理大样本的结果作为近似的客观标准,其它三种方法与之比较,得到的绝对误差和可减少误差。
表1 误差结果比较表
性别女性女性非生育
年龄段20-2930-3920-2930-39
UIDM0.53880.27790.51060.2867
OIDM0.32670.11390.38030.1551
ker0.22700.11220.32370.1230
(UIDM)-137.36-147.68-57.74-133.09
(OIDM)-43.92-1.52-17.49-26.1
(前三行表示绝对误差,后两行表示可减少误差,(UIDM)、(OIDM)单位为%。)
从上表的数字可知,对于该住院费用分布问题,利用核估计方法处理小样本所得结果比较理想,与大样本的平均绝对误差为0.1539。经过参数优化后,利用信息扩散方法处理小样本问题的结果与大样本的平均绝对误差为0.1694,比未经过参数优化时总体误差减少了47.56%,达到了与核估计几乎相同的效果。
(作者单位:华东政法大学商学院)
注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文
(责任编辑:单位文秘网) )地址:https://www.kgf8887.com/show-236-82360-1.html
上一篇:医疗保险理赔知识讲堂
版权声明:
本站由单位文秘网原创策划制作,欢迎订阅或转载,但请注明出处。违者必究。单位文秘网独家运营 版权所有 未经许可不得转载使用