好文档 - 专业文书写作范文服务资料分享网站

基于变量组合集群分析法的小麦蛋白质近红外光谱变量选择方法研究

天下 分享 时间: 加入收藏 我要投稿 点赞

基于变量组合集群分析法的小麦蛋白质近红外光谱变量选

择方法研究

赵环,宦克为,郑峰,石晓光

【摘 要】为了解决小麦蛋白质的近红外光谱信息复杂、共线性严重及全光谱建模的预测能力不足等问题,采用一种新的变量选择方法——变量组合集群分析法(VCPA)对小麦蛋白质的近红外光谱进行特征波长选取。首先利用二进制矩阵采样策略(BMS)和指数衰减函数(EDF)删除无信息变量,优选小麦中蛋白质近红外特征波长,然后结合偏最小二乘法(PLS)建立预测模型。与其他变量选择方法相比,VCPA所选用的波长点最少,模型的预测能力最强,VCPA算法所采用的BMS变量采样策略弥补了蒙特卡洛采样方法的不足。研究结果表明,VCPA算法可以有效选择小麦蛋白质近红外光谱特征波长,提高预测模型的可靠性和适用性。

【期刊名称】长春理工大学学报(自然科学版) 【年(卷),期】2016(039)005 【总页数】4

【关键词】小麦;近红外光谱;变量组合集群分析法;特征波长;二进制矩阵采样;指数递减函数

随着现代化学分析仪器的发展,应用近红外光谱分析从复杂的分析系统生成的高维度化学和生物学数据时变量选择方法是一个重要的环节。变量选择的目标和意义被总结为三个层面:(1)提高模型的预测精准性;(2)通过减少维度灾难进而更快的进行模型计算;(3)提供一个更容易理解的潜在变量数据的生成过程。然而,在面对变量多样本少的情况时,在众多变量中找到一组满足上述

三个方面的最佳变量组合是较难的。随着化学计量学的发展,国内外提出了大量的变量选择方法,并以不同的方式处理上述三个问题。如粒子群算法[1](PSO)、遗传学算法[2-4](GA)、无信息变量消除法(UVE)、蒙特卡洛无信息变量消除法[5](MC-UVE)和随机蛙跳算法[6](RF)等。虽然国内外提出了大量的变量选择方法,但是很少有算法考虑了变量组合因素的影响。本文首次运用了变量组合集群分析法[7](VCPA)对小麦蛋白质的近红外光谱进行了特征变量选取,该方法考虑到了所有可能有相互影响的变量的自由组合,对比其他变量选择方法的预测精准性,评价模型的预测性能,结果表明,VCPA算法是一种可行的变量选择方法。

1 实验仪器及样品采集

1.1 实验仪器

本次实验选用的光谱仪是德国卡尔蔡司的MCS611NIR光纤光谱仪,其光谱范围为950~1690nm,自制光纤束,样品皿,计算机,环带光纤耦合漫透射反射接收器和光源为OSRAM64258,12V,20W卤钨灯。每个小麦样品采集3条光谱,计算出每个样品三条吸光度的平均值,建立小麦蛋白质预测模型。 1.2 样品采集

本次实验所使用的实验数据来自国家粮食局北京东方孚德研究中心提供的93个小麦样品和93个小麦蛋白质化学值数据,选用校正集和预测集的分类方法为Kennard-Stone(K-S)算法,运用K-S算法将北京东方孚德研究中心所提供的93个小麦样品分为61个校正集和32个预测集。如表1所示:

2 模型评价及光谱预处理

模型评价参数的作用是检验通过校正集样本建立的预测模型可靠性。在近红外

光谱多元校正建模过程中,经常采用的模型评价参数为预测残差平方和(PRESS),交互检验均方根误差(RMSECV),预测值与实际值之间的相关系数(R)等,本次实验采用的模型评价参数分别是建模均方根误(RMSEC)、校正集决定系数(RC2)和预测均方根误差(RMSEP)。

光谱数据采集时产生的高频噪音和低频噪音会影响近红外光谱与小麦蛋白质含量之间的相关关系,进而影响预测模型的可靠性,为了避免这些高频噪音和低频噪音的影响,本文采用小波包(WTP)对光谱信号进行去噪处理,得到更加准确的小麦蛋白质近红外光谱数据[8],如图1所示。

3 VCPA特征变量选择方法的研究

3.1 VCPA算法原理

VCPA是一种新的变量选择算法,该算法首先运用二进制矩阵采样法(BMS)从变量空间中采样k组变量子集,其次运用偏最小二乘法(PLS)分别计算出这k组变量子集的RMSECV,保留RMSECV最小的σ×k组变量子集,统计这σ×k组变量子集中每个变量出现的频率,通过指数衰减函数(EDF)去掉出现频率较小的波长点,将所保留的变量重复BMS采样和EDF消除,此过程重复N次,剩余了L个光谱变量,最后计算出这L个变量之间的所有变量组合的RMSECV,其RMSECV值最小的变量组合即为最终所选取的特征变量组合。 3.2 基于VCPA的特征变量选择

VCPA算法是一种考虑了所有变量组合效应的新算法,首先应用主成分分析(PCA)得到校正集建模数据的最大主成分数为13,其次通过对其他控制参数的大量实验测试,设定为:采样次数,k=1000;迭代次数N=50;k个变量子集中优秀子集所占的比率σ=10%;二进制采样矩阵M中每个变量被采样的次

基于变量组合集群分析法的小麦蛋白质近红外光谱变量选择方法研究

基于变量组合集群分析法的小麦蛋白质近红外光谱变量选择方法研究赵环,宦克为,郑峰,石晓光【摘要】为了解决小麦蛋白质的近红外光谱信息复杂、共线性严重及全光谱建模的预测能力不足等问题,采用一种新的变量选择方法——变量组合集群分析法(VCPA)对小麦蛋白质的近红外光谱进行特征波长选取。首先利用二进制矩阵采样策略(BMS)和指数衰减函数(EDF)删除无信息
推荐度:
点击下载文档文档为doc格式
37jzc4elwx02ra61x73m28mwx1483k01ctr
领取福利

微信扫码领取福利

微信扫码分享