自动化式识别医疗保险中的欺诈者

单位文秘网 2021-08-07 08:15:24 点击: 次

组织在参加医疗保险、享受医疗保险待遇过程中，故意捏造事实、隐瞒真实情况等造成医疗保险基金损失的行为。骗保人进行医保欺诈时使用了很多手段。在不同的医院和医生处重复配药，开了大量数目的医药且单个医药费用高，单张处方药费特别高。这些情况都需要考虑的医保欺诈现象。根据一定的数据需要解决问题：主动发现医疗保险欺诈。

2 问题分析

前提是有许多病人的数据，有些数据能反映出病人在不同科室看病的，有些反映出医疗账单号数目多，有些反映单张处方费用高等。这都与医保欺诈有着一定的关联。寻找这些与医保欺诈有关的数据。这些数据中提取特征，利用特征进行聚类分析并定义类别，利用支持向量机训练并构建一个能主动发现医疗保险欺诈的模型。并检测这个模型的是否具有使实用性。

3 模型的建立与求解

（一）数据的标准化处理

对数据进行标准化处理，即：新数据=（原数据-均值）/标准差

步骤如下：

（1）求出各变量（指标）的算术平均值（数学期望）xi和标准差si；

（2）进行标准化处理：

（二）距离相似性度量

我们采用Pearson相关系数来度量两样本之间的相似性。

相关系数用r表示，其中n为样本量，分别为两个变量的观测值和均值。r描述的是两个变量间线性相关强弱的程度。r的绝对值越大表明相关性越强。样本资料的皮尔森积矩相关系数（一般简称为样本相关系数）为样本共变异数除以的标准差与的标准差之乘积。样本的简单相关系数一般用r表示，其中n为样本量，分别为两个变量的观测值和均值。r的取值在-1与+1之间：

利用样本相关系数推断总体中两个变量是否相关，用t统计量对总体相关系数为0的原假设进行检验。若t检验显著，则拒绝原假设，即两个变量是线性相关的；若t检验不显著，则不能拒绝原假设，即两个变量不是线性相关的

（三）层次聚类

步骤：

（1）在预处理数据中提取一个样本为5000的训练集。

（3）采用Pearson相关系数来度量两样本之间的相似性。r的绝对值越大，就放入同一类，表明相关性越强。求解样本皮尔森积矩相关系数，即求解共变异数除以的标准差与的标准差之乘积。用t 统计量对总体相关系数为0的原假设进行检验。

得到下图：

图中聚类对象为一个5000×7的矩阵。每行表示1个样本，每列表示1个特征。我们对样本进行聚类，即对行聚类，具有相似特征的样本倾向于聚在同一子类。

（四）定义类别

A类：药品总价多，不同的账单号个数，药品数量，不同下医嘱的科室个数，不同医嘱子类个数，不同的医嘱项个数，执行科室不同的个数少，表明人们单笔账单很贵。

B类：药品总价，执行科室不同的个数多，这显示自然人可能多次买药，为了不被发现而在不同的地方进行。

C类：药品总价，不同的账单号个数很多，展现了自然人可能在单位时间内反复多次拿药。

（1）利用支持向量机构建分类器

运用支持向量机（SVM）的方法：

支持向量机分类预测模型。利用5倍交叉证实，我们将随机的5000个样本随机分成5份，取其中4份，即4000个样本作为训练集，剩余的1000个样本作为检验集。使用训练集样本训练支持向量机分类器。我们采用加大欺诈样本权重的权重调整策略处理样本不平衡问题，提高分类器性能。我们分别以1）A∪B∪C；2）A；3）B；4）C作为欺诈样本建立了4个分类器，并用检验集检验分类器性能。我们用训练的分类器对剩余的5000个样本进行预测，识别出可能的诈骗样本。用户可根据需要选择不同的分类器识别欺诈行为，这在理论上是被完全证明了是成立的，而且在实际计算中也是可行的。

（五）不平衡数据

不平衡数据分类精确度accuracy= （TP+TN）（TP+TN+FP+FN）是分类问题中常用的评价标准，它反映分类器对数据集的整体分类性能，但不能正确反映不平衡数据集的分类性能。

Recall=TP/（TP+FN） Precision=TP/（TP+FP）

不平衡数据的解决方法：加重权数，权重越大，被定义为诈骗人的错误人数越少，被定义为非诈骗的人的错误人越多。

（六）检验分类性能

倍交叉验证法：

把总样本N随机划分为5等分，在议论实验中轮流抽出其中一份样本作为检验样本，用其余4份作为训练样本，得到5 个错误率后进行平均，作为一轮交叉验证的错误率；由于对样本的一次划分是随意的，人们往往进行多轮这样划分，得到多个交叉验证错误率估计，最后将多个估计再求平均。将数据聚类分析之后，我们用5倍交叉向量验证。将之前提取的5000个样本随机分为5组，并将其中4组合并为一个训练集，另一组分为一个检验集，对训练集中的数据进行验证。

（七）分类器分类

（1）ABC意义：满足上述那些定义的A（药品总价高，其它的数据数量少），B（药品总价，执行科室不同的个数多），C（药品总价，不同的账单号个数很多）

用5倍交叉验证可以例如：把5000样本分为4000个的训练集和1000个的检验集并设置权重比（1：10）

显示出同时符合A类，B类，C类；通过数据分析得出药品总价很多时的不同情况，得出可能是诈骗者。

（2）A类（药品总价高，其它的数据数量少药品总价高，其它的数据数量少）预测结果

表中数据可以清楚表示药品总价很高，而其他的数据很低。上面的数据可以很容易的得出药品总价很高，但其他的数据其值比较少，从而检验数据的正确性。

参考文献：

[1]朱小平.自动识别技术及其应用[J].合作经济与科技，2012（03）.

(责任编辑：单位文秘网) )

地址：https://www.kgf8887.com/show-206-81843-1.html

上一篇：数据信息在医院医疗保险管理中的应用

下一篇：关于进一步做好基本医疗保险,异地就医医疗费用结算工作的指导意见,人社部发〔2014〕93号

热点文章

版权声明

本站由单位文秘网原创策划制作，欢迎订阅或转载，但请注明出处。违者必究。
本站部分资源搜集于互联网，如有侵权行为请尽快联系我们处理。

自动化式识别医疗保险中的欺诈者

热点文章

最新文章

版权声明