单位文秘网 2021-08-07 08:15:24 点击: 次
组织在参加医疗保险、享受医疗保险待遇过程中,故意捏造事实、隐瞒真实情况等造成医疗保险基金损失的行为。骗保人进行医保欺诈时使用了很多手段。在不同的医院和医生处重复配药,开了大量数目的医药且单个医药费用高,单张处方药费特别高。这些情况都需要考虑的医保欺诈现象。根据一定的数据需要解决问题:主动发现医疗保险欺诈。
2 问题分析
前提是有许多病人的数据,有些数据能反映出病人在不同科室看病的,有些反映出医疗账单号数目多,有些反映单张处方费用高等。这都与医保欺诈有着一定的关联。寻找这些与医保欺诈有关的数据。这些数据中提取特征,利用特征进行聚类分析并定义类别,利用支持向量机训练并构建一个能主动发现医疗保险欺诈的模型。并检测这个模型的是否具有使实用性。
3 模型的建立与求解
(一)数据的标准化处理
对数据进行标准化处理,即:新数据=(原数据-均值)/标准差
步骤如下:
(1)求出各变量(指标)的算术平均值(数学期望)xi和标准差si;
(2)进行标准化处理:
(二)距离相似性度量
我们采用Pearson相关系数来度量两样本之间的相似性。
相关系数用r表示,其中n为样本量,分别为两个变量的观测值和均值。r描述的是两个变量间线性相关强弱的程度。r的绝对值越大表明相关性越强。样本资料的皮尔森积矩相关系数(一般简称为样本相关系数)为样本共变异数除以的标准差与的标准差之乘积。样本的简单相关系数一般用r表示,其中n为样本量,分别为两个变量的观测值和均值。r的取值在-1与+1之间:
利用样本相关系数推断总体中两个变量是否相关,用t统计量对总体相关系数为0的原假设进行检验。若t检验显著,则拒绝原假设,即两个变量是线性相关的;若t检验不显著,则不能拒绝原假设,即两个变量不是线性相关的
(三)层次聚类
步骤:
(1)在预处理数据中提取一个样本为5000的训练集。
(3)采用Pearson相关系数来度量两样本之间的相似性。r的绝对值越大,就放入同一类,表明相关性越强。求解样本皮尔森积矩相关系数,即求解共变异数除以的标准差与的标准差之乘积。用t 统计量对总体相关系数为0的原假设进行检验。
得到下图:
图中聚类对象为一个5000×7的矩阵。每行表示1个样本,每列表示1个特征。我们对样本进行聚类,即对行聚类,具有相似特征的样本倾向于聚在同一子类。
(四)定义类别
A类:药品总价多,不同的账单号个数,药品数量,不同下医嘱的科室个数,不同医嘱子类个数,不同的医嘱项个数,执行科室不同的个数少,表明人们单笔账单很贵。
B类:药品总价,执行科室不同的个数多,这显示自然人可能多次买药,为了不被发现而在不同的地方进行。
C类:药品总价,不同的账单号个数很多,展现了自然人可能在单位时间内反复多次拿药。
(1)利用支持向量机构建分类器
运用支持向量机(SVM)的方法:
支持向量机分类预测模型。利用5倍交叉证实,我们将随机的5000个样本随机分成5份,取其中4份,即4000个样本作为训练集,剩余的1000个样本作为检验集。使用训练集样本训练支持向量机分类器。我们采用加大欺诈样本权重的权重调整策略处理样本不平衡问题,提高分类器性能。我们分别以1)A∪B∪C;2)A;3)B;4)C作为欺诈样本建立了4个分类器,并用检验集检验分类器性能。我们用训练的分类器对剩余的5000个样本进行预测,识别出可能的诈骗样本。用户可根据需要选择不同的分类器识别欺诈行为, 这在理论上是被完全证明了是成立的,而且在实际计算中也是可行的。
(五)不平衡数据
不平衡数据分类精确度accuracy= (TP+TN) (TP+TN+FP+FN) 是分类问题中常用的评价标准,它反映分类器对数据集的整体分类性能,但不能正确反映不平衡数据集的分类性能。
Recall=TP/(TP+FN) Precision=TP/(TP+FP)
不平衡数据的解决方法:加重权数,权重越大,被定义为诈骗人的错误人数越少,被定义为非诈骗的人的错误人越多。
(六)检验分类性能
倍交叉验证法:
把总样本N随机划分为5等分,在议论实验中轮流抽出其中一份样本作为检验样本,用其余4份作为训练样本,得到5 个错误率后进行平均,作为一轮交叉验证的错误率;由于对样本的一次划分是随意的,人们往往进行多轮这样划分,得到多个交叉验证错误率估计,最后将多个估计再求平均。将数据聚类分析之后,我们用5倍交叉向量验证。将之前提取的5000个样本随机分为5组,并将其中4组合并为一个训练集,另一组分为一个检验集,对训练集中的数据进行验证。
(七)分类器分类
(1)ABC意义:满足上述那些定义的A(药品总价高,其它的数据数量少),B(药品总价,执行科室不同的个数多),C(药品总价,不同的账单号个数很多)
用5倍交叉验证可以例如:把5000样本分为4000个的训练集和1000个的检验集并设置权重比(1:10)
显示出同时符合A类,B类,C类;通过数据分析得出药品总价很多时的不同情况,得出可能是诈骗者。
(2)A类(药品总价高,其它的数据数量少药品总价高,其它的数据数量少)预测结果
表中数据可以清楚表示药品总价很高,而其他的数据很低。上面的数据可以很容易的得出药品总价很高,但其他的数据其值比较少,从而检验数据的正确性。
参考文献:
[1]朱小平.自动识别技术及其应用[J].合作经济与科技,2012(03).
(责任编辑:单位文秘网) )地址:https://www.kgf8887.com/show-206-81843-1.html
版权声明:
本站由单位文秘网原创策划制作,欢迎订阅或转载,但请注明出处。违者必究。单位文秘网独家运营 版权所有 未经许可不得转载使用