好文档 - 专业文书写作范文服务资料分享网站

3-1基于关联规则的住院费用相关因素分析 - 图文

天下 分享 时间: 加入收藏 我要投稿 点赞

基于关联规则的住院费用相关因素分析

山西省统计局 童超、高彤彤、郭一航

摘要

医院信息系统 (HIS) 蕴藏了丰富的信息, 但目前对其信息挖掘的研究较少。 尤 其老百姓首要关注的医疗费用问题值得在 HIS 中进行相关的信息挖掘。 回顾国内 外病案首页信息挖掘的研究现状后, 发现当前大多数的研究仍采用回归思想来研 究住院医疗费用的影响因素。回归方法对正态性、独立性与方差齐性要求严格, 而实际病案数据不能完全符合, 且经典方法对于处理海量病案数据力不从心。 所 以本文针对医院信息系统的大数据特点和医疗指标相关性分析的需要, 尝试采用 关联规则数据挖掘方法,对 2013 年山西省某大型综合医院的住院病案首页信息 进行多维关联规则数据挖掘。通过挖掘住院费用、住院天数、年龄、性别等变量 之间隐含的关联模式, 进一步剖析形成原因, 从而为更好的利用 HIS 信息提供相 应的参考。

本文得出的结论是: 1 、山西省大病医保覆盖范围较广, 一定程度上减轻了 部分患者住院费用的压力; 2、住院费用异地医保结算手续相对复杂 , 从而使部分 异地患者增加了住院费用负担; 3、离退休患者职工医保体系完善; 4、出院科别 与住院费用有较强的关联性, 不同因素会导致儿科、 乳腺科、肛肠科、耳鼻喉科、 神经外科的住院费用产生差异。

关键词: 住院费用 关联规则 大数据

目录

一、引言 ............................................................................... 1 二、住院费用数据挖掘的研究综述 ........................................................... 1 三、关联规则简介 ....................................................................... 1

(一)关联规则数据挖掘方法 ............................................................... 1 (二) .......................................................................... APRIOR算法

2 (三) ................................................................................... 多维关联规则 ................................................................................ 4 (四)基于关联规则的病案首页数据挖掘 .................................................... 4 四、指标选取与数据预处理 ................................................................. 5

(一)病案首页数据介绍及指标选取 ........................................................ 5 (二)病案数据清洗 ...................................................................... 5 五、挖掘过程及结果分析 ................................................................... 6

(一)描述性统计分析及离散化分组 ........................................................ 6 (三)应用 APRIOR算法生成关联规则 ...................................................... 10 (三)挖掘结果分析 ...................................................................... 10 六、研究不足及展望 ..................................................................... 19 参考文献 .............................................................................. 20

一、引言

随着大数据时代来临与数据库技术迅速发展, 大数据在众多领域掀起变革的 浪潮,卫生信息化建设也迎来大数据时代。 医疗行业数据产生比较集中, 但其内 在价值挖掘不足,停留在信息录入、查询等简单层面,使得大量数据简单堆砌。 如果不充分挖掘利用其蕴藏的丰富信息, 会造成医院海量数据资源的浪费。 本文 针对大数据特点,尝试使用关联规则方法从堆砌的数据中挖掘有效信息。

医疗改革是当前社会关注的热点。 完善医疗保障体系、 降低医疗费用、 提高 医疗质量、 合理配置医疗资源是当前医改的重点。 本文对某医院的病案首页数据 进行多维属性关联挖掘,找出住院费用的相关因素,为更好的利用 HIS 数据,加 强科学管理,合理配置医疗资源提供参考。

二、住院费用数据挖掘的研究综述

研究住院费用所采用的统计方法大致分两类。 一类主要为回归模型, 包括多 元回归模型、递推系统模型、多水平模型、结构方程模型、 Tobit 模型、时间序列 模型等。此类方法对正态性、 独立性与方差齐性要求严格, 且将自变量与因变量 关系假定为线性。 而病案首页数据一般呈偏态分布、 受复杂因素影响, 相关因素 之间存在关联性

【1】

,一定程度上影响多元回归分析结果;另一类为数据挖掘方 法,主

要有决策树模型、人工神经网络模型、关联规则模型等。随着计算机技术 及数据库技术的发展, 利用数据挖掘技术对病案首页数据进行处理分析成为可行 途径【2】。从理论上看,数据挖掘方法对分析资料在分布上没有特殊要求,对分 析病案首页数据更具优势。

关联规则是数据挖掘的重要方法。1993年,R. Agrawal等人为解决超市购物 篮

问题提出关联规则挖掘 ⑶。随着电子病历系统应用的深入,其积累的病案资 料日趋丰富,关联规则逐渐应用到医疗行业。

目前,病案信息的数据挖掘研究采用关联规则方法较少。 主要分两类。一是 关于住院费用影响因素的研究。主要有:张菊英等对住院费用影响因素进行分析, 提示病种是影响住院费用的重要因素【4】。马进等发现参保人员住院费用是统筹 基金的主要支付项目,占医疗费用的大部分【5】。彭坤等通过关联规则发现年龄、 介入操作、抗生素的使用和住院时间都是发生医院感染的高危因素, 力下降,常患多种疾病,易感性高,都会影响住院费用

老年人抵抗

⑹;二是关于住院费用

挖掘方法的研究。主要有:廖海波对住院费用的关联规则挖掘方法进行研究, 建并实现了基于病案数据的多维立方体关联规则挖掘结构

【7】

。赵连朋采用关联

规则挖掘技术发现疾病诊断、病历与处方的关联程度以及药品成分间的关联程度, 从技术上规避医生开贵药、多开药的不良现象

⑻。罗仁夏、吴彬研究发现要解

决住院费用过高问题,关键在于降低药品费用的构成比【9】。

HIS近几年才逐渐普及,数据比较缺乏,且病案数据涉及个人隐私,故缺乏 公开成熟的挖掘住院费用的案例。 且当前研究多基于单病种进行挖掘,对多病种 的共性信息挖掘不足,尤其是基于关联规则进行挖掘的文献更少。

因此本文不以

以期得

病种为主导因素,尝试使用关联规则对全部病种病案首页数据进行挖掘, 到有价值的信息。

三、关联规则简介

(一)关联规则数据挖掘方法

设存在一个含有n个事务(Transaction)的数据库D ' t1 ,t2, tn *,有m个属 性组成一个项集(Itemset )为I h,i2,l川H ij。其中每个事务t对应于一个数据

项子集,即t I。对数据项集X,当且仅当X t,称事务t包含X ,项目集中 项目的个数称为项目集的维数或长度,若项目集的长度为

k,称为k —项目集。

关联规则是形如X = Y的蕴含式,其中X、Y是项集,且X I,Y I, X\, X、

Y分别为规则前项、规则后项。

关联规则的支持度为项集X、丫在数据库中同时出现的概率,即P(X UY), 记为supp X = Y = P X UY 。通常称supp X大于等于某个给定的最小支持度 阈值minsuppD的项目集X为频繁项目集,也称为频繁k-项目集,其中k为X的 长度;频繁k -项目集所包含的项目为频繁项目,其在数据库中发生的次数为该 项目的频度。

关联规则的置信度为在数据库中包含项集 X的事务中同时也包含项集Y的 概率,即P Y X,记为conf X= Y严P Y X。置信度越高,规则越可靠。若 支持度大于最小支持度(supp X = Y \\ >■ minsupp )且置信度大于最小置信度 (conf X =? Y ] minconf ),为强关联规则,否则为弱关联规则。

关联规则的提升度为置信度与规则后项支持度的比值,即

cofX

Y)

su(X Y

PP

L

,记为 lift x = Y 。提升度(Lift)用来度量(X 二

suppY) supp(X) suppY)

规则是否可用,反映X出现对Y出现的影响程度。当lift X= Y =1时,表示该 关联规则反应的是一种普遍现象,研究价值不大;当 lift X= Y 1时,表示该 关联规则为正关联,即后项在满足规则前项事务中的发生比例是全部事务中后项 发生比例的倍数,反映两者互为共生;当lift X=Y :1时,表示该关联规则为 负关联,反映两者相互排斥。因此,当且仅当lift X= Y 1时,称该规则可用。

(二) Apriori 算法

Rakesh Agrawal 和 Ramakrishnan Skrikant 提出的 Apriori 算法是经典关联规则挖掘 算法,该算法基于两阶段频集思想:第一阶段通过迭代检索出事务数据库中所有 频繁

3-1基于关联规则的住院费用相关因素分析 - 图文

基于关联规则的住院费用相关因素分析山西省统计局童超、高彤彤、郭一航摘要医院信息系统(HIS)蕴藏了丰富的信息,但目前对其信息挖掘的研究较少。尤其老百姓首要关注的医疗费用问题值得在HIS中进行相关的信息挖掘。回顾国内外病案首页信息挖掘的研究现状后,发现当前大多数的研究仍采用回归思想来研究住院医疗费用的影响因素。回归方法对正
推荐度:
点击下载文档文档为doc格式
3bl2p8jo7i4mg6283nif6msol1o4p300uwc
领取福利

微信扫码领取福利

微信扫码分享