基于数据挖掘的医保诈骗筛选模型研究

来源：华拓科技网

基于数据挖掘的医保诈骗筛选模型研究

(江景星、向晴、何泽炀)

摘要:针对医疗保险领域中的诈骗行为，通过数据挖掘的方法，从大量数据中寻找规律，从而发现医保数据中潜在的信息，筛选出诈骗人员。本文利用聚类分析得到主体变量，用模糊层次分析求得评价系数，并用熵值法确定标准值，从而筛选出骗保嫌疑人，最终用支持向量机方法检验模型是否合理。本文通过算例说明了该方法的应用，以期辅助医保安全运营和风险防控,达到完善现代医保基金运营体系的目的。关键词：聚类分析模糊层次分析法二分法支持向量机

一、引言

医疗保险欺诈，是指公民故意捏造事实、弄虚作假、隐瞒真实情况等造成医疗保险基金损失的行为。骗保人进行医保欺诈时通常使用的手段有：1.拿着别人的医保卡配药；2.在不同的医院和医生处重复配药。具体表现为：1.进行单张处方药费特别高；2.一张卡在一定时间内反复多次拿药。

二、医保诈骗筛选模型研究

（一）模型建立 1.变量处理

简单剔除无用变量后，运用聚类分析法进行降维处理。采用系统聚类法[2]，对变量进行分类，即将n项指标看成n类，根据指标变量的亲疏程度，将亲疏程度最高的两类进行合并，然后考虑合并后的类与其他类之间的亲疏程度，再进行合并。重复这一过程，直到将所有的指标合并为一类。

(1)计算向量间的距离：d2ij(M)(xixj)'1(xixj)；

为样本数据矩阵的协方差阵。 (2)刻画类的特征：平均距离； G(p,q)D(3)将平均距离最小的类归为一类。 (4)根据需要，选取变量。 2.模糊层次分析法对诈骗可能性评价

构建病人医保诈骗评价指标层次结构模型，在此基础上运用模糊层次分析及熵值法计算各指标的相对权重，然后综合运用模糊综合评价方法以及层次分析法的层次结构建

1npnqiGpjGpdij立的评价指标体系[3]，对病人医保欺诈情况做出定量的综合评价。

熵值赋权法求权重:

(1)建立评价系统的初始数据矩阵：X=xij (2)数据标准化处理：xij'xijminxjmaxxjminxj ，

xij'表示标准化后的值。

xij'yijji计算第项指标下第个样品的比重：yijm(0yij1) xij'i1由此得到数据的比重矩阵：Yyij

mn(3)计算指标信息熵值和信息效用值：

①计算第j项指标的信息熵值：

ejKyijlnyij,j1,2,,n，得到结果：eje1,e2,,ej

i1m11=0.0911717；；本文中Klnmln58007ded②信息效用价值j取决于该指标的信息熵j与1之间的差值，j越大，权重越大：

其中，K为波尔兹曼常数，Kdj1ej,j1,2,,n，

得到信息效用价值：djd1,d2,dj； ③计算评价指标权重：

利用熵值法估计指标权重，本质是利用该指标信息的价值系数计算，价值系数越高，对评价的重要性就越大。

第j项指标的权重为：wjdjdi1m,j1,2,n。

j④计算得到综合指标：

综合指标为：Fxijxj1nj'wj，(j1,2,,n)。

3.利用二分法确定标准值

医保诈骗相对具有共性，特征明显如下图，故存在明显分界点，即所求标准值。利用二分法查找特殊标准值：

二分法：对所有病人评价系数按从小到大顺序排列，将其从中间分割为两个区段,必存在T，使得Number1[k,k+1,……,high]>T,令新的区间为Number2[low,……，K-1]将综合指标F与进行比较，得到诈骗者ID号。（二）支持向量机模拟检验

将病人骗保与非骗保看做对病人类型的分类，以所得结论作为训练样本，每个标记为属于两类，对两两分类变量分别进行支持向量机分析[4]，得出分类曲线，将数据区分开，观察不同区域病人骗保情况，如果发现两类病人较为明显的区分在分类线两侧，则认为模型预测数据较为准确。利用R软件建立支持向量线性模拟检测器，对分类结果进行检验，绘制图形如下。

通过上述图像定性分析，圈点和差点基本分布在分类线两侧，检测器找到一条支持向量检测线很好地将两类数据分开，区分情况与我们先前推测的结果基本符合，由此得出结论在一定误差范围内，一维支持向量机模型可以很好区分不同类别病人，该数学模型具有较高的准确性与科学性。

三、结果分析

运用模糊层次分析法进行分析，采用熵值法，根据各项指标观测值所提供的信息的大小确定出不同指标的对应权重，购药总花费系数<购药频数系数<开嘱医生数目系数，开嘱医生数目所占权重最大，可以预测大多数诈骗人员都具有开嘱医生多的特点，对于这一类病人应进行重点排查，防止诈骗行为的发生。

最后得出疑似欺诈病例，其主要特点是购药花费大、买药次数多、开嘱医生多，可见前期变量选择准确，可以很好反映欺诈病人特点，医院可以从这三方面入手加强监管力度，发现潜在的医保欺诈病人，一旦查出欺诈病人则吊销其医保卡号，严厉打击医保骗保行为。

本文在最后依据有监督学习原理，引入支持向量机线性模拟器，判断推测数据准确性，可以看到不同类型病人数据被支持向量所分割，分布于平面上两块不同类别区域，进一步验证所得结果的合理性，该原理可以应用于各类欺诈模型的结果检测，具有广泛的实用价值。

参考文献：

[1]杨浩，基于SPSS的聚类分析在行业统计数据中的应用，吉林，2013.5.1 [2]张英，冯艳芳，基于模糊层次分析法的大学生综合素质评价，湖北武汉，2007.06.2

[3]平源，基于支持向量机的聚类及文本分类研究，北京，2012.4.15

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部频道

基于数据挖掘的医保诈骗筛选模型研究