编号: 时间:2021年x月x日 书山有路勤为径,学海无涯苦作舟 页码:第1页 共3页 糖尿病犯者医疗管理研究
近十年来,我们面临快速增长糖尿病患者人数,患者人群也成为了公共健康最为沉重的负担之一。2000年,所有年龄层的糖尿病患病率达2.8%,预计到2030年该数据将达到4.4%[1]。2000年,因糖尿病导致的全球过量死亡率预计达到290万人,相当于全年死亡人数的5.2%[2]。伴随着不同的并发症,糖尿病对个人生活质量以及医疗资源的使用造成了相当大的影响。预先血糖控制可以减缓或防止糖尿病并发症的发生。一般来说,糖尿病患者的保健质量通过血红蛋白A1C来评估。
1资料与方法
1.1分类算法及效果评估。为比较属性选择的效果,需要利用三种分类算法测试属集:一个以样例为基础的学习法KNN,一个决策树学习法C4.5,还有一个概率学学习法朴素贝叶斯分类法(Na?veBayesclassifier)。KNN是以样例为基础学习法的一个例子,列举一个新的例子,KNN算法给最相似的一个或多个样例分配类别。根据样例间的差距计算相似度。本研究中,我们使用的分类精度和受试者工作特征曲线下的区域(药时曲线下面积)评估分析模型的效果[3]。分类精度的研究原则,是使用最为普遍的原则。药时曲线下面积有着重要的数据特性。一个模型的药时曲线相当于概率,无论该模型中随机选取正样例的级别是否高于随机所选负样例[4]。一般而言,面积越大,模型越好。1.2数据描述。本研究使用的临床数据库来自于台湾中部的一家医学院附属医院,该院拥有110名医生、600个床位,以及每年60000件的门诊服务和10000件的住院服务。该数据集中有1498个样例。本研究收集的特征包括连续数据,如年龄、发病期、身体
第 1 页 共 3 页
编号: 时间:2021年x月x日 书山有路勤为径,学海无涯苦作舟 页码:第2页 共3页 质量指数(BMI);分类数据,如性别、受教育程度、家庭病史、定期锻炼、日常饮酒、吸烟、自我护理、共病、血糖检测使用情况、治疗情况。ICD-9诊断码,共病分为五类:肾脏并发症、眼部并发症、神经系统并发症、血管并发症以及足部并发症。治疗方法分为三类,包括饮食控制、口服液以及胰岛素注射。决策属性A1C分为两个级别:认为A1C<9.0%是做到了良好的血糖控制;认为A1C≥9.0%是血糖控制非常不理想[5]。
2研究结果分析
实验中使用的血糖控制数据。通过使用信息增益、增益率、对称不确定性以及ReliefF评级算法的整套数据确定特征评级。数据集里使用三个连续特征,十个分类特征。四种特征评级方法提供不同的级别,明显地生产不同的分类效果。血糖控制前五个重要特征是年龄、治疗方式、自我护理条件、受教育程度以及定期锻炼。C4.5分类法,KNN(k=1),朴素贝叶斯用于测试分类盒药时曲线下面积。我们使用十倍的交叉效度分析作为标准,预测带有固定数据样本的学习法分类法的准确性和药时曲线下面积。通过使用四种特征评级方法比较C4.5的分类准确性,使用五个和六个特征的ReliefF评级算法获得最佳的分类准确性为73.56%。KNN分类法中,使用四个特征的ReliefF评级算法获得的最佳分类准确性为73.56%。NB分类法中,使用五个特征的IG、GR、SU算法获得的最佳分类准确性为74.10%。与C4.5和KNN分类法相比,NB获得的准确性比C4.5和KNN模型更好。通过使用四种特征评级方式比较C4.5的药时曲线下面积,采用七种特征的ReliefF的评级算法获得最大的面积为6199。KNN分类法中,使用五个特征的ReliefF评级算法获得的最大药时曲线下面积为6251。NB分类法中,使用五
第 2 页 共 3 页
编号: 时间:2021年x月x日 书山有路勤为径,学海无涯苦作舟 页码:第3页 共3页 个特征的IG、GR、SU算法获得的最大药时曲线下面积为6553。与C4.5和KNN分类法的药时曲线下面积相比,NB获得的准确性比C4.5和KNN模型更好。本研究意在探究血糖控制特征的评级,以及使用不同的分级法探究四种特性评级方法的效果。我们提出四种特征评级方法的一个对照,生成特性评级列表。结果显示,特征选择有利于改善常见学习法算法。研究表明,任何学习分类法都不能完美地处理所有情况。研究表明NB分类法和药时曲线下面积要比C4.5和KNN分类法和药时曲线下面积有更高的优越性。C4.5和KNN、ReliefF评级算法可以获得最佳的准确性和最大药时曲线下面积;NB、IG、GR、SU则获得同样的准确性和药时曲线下面积。
本论文得出的结论对特征评级方法以及学习法算法有着重要的影响。其他特征选择方式以及分类法模型能有益于将来的研究提高准确性和药时曲线下面积。
第 3 页 共 3 页