基于高斯径向基函数网络的潜在剖面建模方法
黎鸣
【摘 要】摘要:提出一种基于高斯径向基函数网络的潜在剖面建模的方法,该方法利用高斯径向基函数网络与潜在剖面分析的相似性,对高斯径向基函数网络进行改变。对改变后的网络采用两步训练的方式,首先通过贝叶斯回归估计径向基参数,再使用传统后向传播算法进行训练,最后从整体的角度上得到从自变量到因变量的完整模型。该模型能在既保留潜在剖面分析的可解释性的情况下,同时得到较好的全局拟合优度。 【期刊名称】现代计算机(专业版) 【年(卷),期】2024(000)008 【总页数】3
【关键词】高斯径向基函数网络;潜在剖面分析;贝叶斯分类
1 潜在剖面分析
近年来,潜在变量建模(潜在结构分析,Latent Vari?able Modeling,Latent Structural Analysis)越来越受到医学生物、社会心理等学科的重视,其原因在于,一方面,它能通过潜在变量的概念来表示外显变量(因变量)所蕴含的抽象且无法直接观察的内部关系,另一方面,传统的显变量分析方法的有效性正逐渐受到数据复杂性的影响,研究者搜集到的数据越来越底层、复杂、交错、实时,这些数据的潜在关系很难再通过简单的转换方法得到。而潜在剖面分析(LPA)作为一种对内部因素间交互进行建模的方法,其有效性在医学生物、社会心理等学科领域已经得到大量的证实。LPA是一种以人为中心的潜在变量建模方法,其基本假设在于因变量间存在有意义的、共同的模式(Pattern),
而这种假设与类型学(Typology)等多个研究领域所用的假设相仿[1]。由于其假设也包含了因变量间存在的结构化关系,因此,LPA也被作为一种结构化(Structural)的建模方法。
按照外显变量与潜在变量的数据类型(连续或离散),潜在结构分析可以分为四类,即:外显离散且潜在离散的潜在类别分析(Latent Class Analysis),外显连续但潜在离散的潜在剖面分析(Latent Profile Analysis),外显离散但潜在连续的潜在特质分析(Latent Trait Analysis),以及外显连续且潜在连续的因素分析(Fac?tor Analysis)[2]。可以说,潜在结构分析是传统因素分析的发展与扩展,与传统因素分析一同建立了一个完整的潜在分析方法框架。
潜在类别分析(LCA)与潜在剖面分析(LPA)都是基于贝叶斯统计理论的一种,LCA为无参估计,LPA为有参估计,都采用了“属性条件独立性假设”(Attribute Conditional Independence Assumption),即对已知的显变量,假设所有属性相互独立。对于一个具有M个属性、K个潜变量的LCA的模型,其贝叶斯判别公式如公式
其中为显变量x属于潜在类别k的后验概率为类条件概率(Class-Conditional Probability)或简称似然(Likelihood),表示在样本统计中,已知潜在类别为k的情况下,样本为x的概率,可以通过样本统计得到为潜在类别为k的先验概率为证据(Evidence),在模型中为标量因子,用以保证各潜在类别的后验概率总和为1,从而满足概率条件。由于存在“属性条件独立性假设”,因此类条件概率可以根据概率变量的独立性分解为乘积形式。如果显变量x仅属于一个类别,则可以采用最大化后验概率的方式,将其归属于后验概率最大的潜在类别即可。
由于LPA与LCA的区别主要在外显变量是否连续这一点上,因此,当外显变量为连续的时候,贝叶斯决策假设外显变量服从于多个同构的潜在分布,通常假设该分布为正态分布。因此,属于潜在类别k并且具有显变量模式x的联合概率密度函数p可以表示成公式(2)的形式[3-4]:
其中,p是服从均值μ、协方差阵为Σ的正态分布的概率密度函数,各个潜在分布通常假设均值为0,协方差可以相同也可以不相同。ηk为潜在类别概率(La?tent Class Probability),即为前文所述的先验概率;这时候的被称为类条件概率密度(Class-Condi?tional Probability Density)。不同于LCA的无参估计过程,LPA通常采用基于期望最大化(EM)的最大似然法(MLE)估计假设分布的参数,由于LPA通常仅需要得到估计的分布参数,因此,在LPA应用领域又通常将该模型称为贝叶斯回归模型或贝叶斯聚类模型[5]。由于在现实问题中,属性条件独立性假设通常很难成立,通过对属性条件独立性假设进行放宽,由此可以得到一类称为“半朴素贝叶斯分类器”(Semi-Na?ve Bayes Clas?sifier)的学习方法,该类方法可以建模显变量属性间的关系。也可以通过建立贝叶斯网络(信念网,Bayesian Network,Belief Network),借助有向无环图来刻画属性间的关系[6]。
LPA基于贝叶斯分类器的原理,同样获得了很好的显变量分类(聚类)能力。虽然LPA解决了从显变量(因变量)到潜变量的转化过程,但是,大部分研究仍然希望得到的是自变量与显变量之间的关系。为此,通常做法是直接使用现有的分类方法建立自变量与潜变量之间的分类模型,藉由潜变量模型得到显变量结果。这种两段式的训练方式,找到的都是局部最优的模型,而不是自变量(特征)与显变量之间关系的最优模型,因此,通常由此推断的自变量与显变
基于高斯径向基函数网络的潜在剖面建模方法



