脑电图(EEG)自发现以来,一直是确定患者某些健康状况的主要方法。由
于可使用的分类器类型多种多样,因此可采用的分析方法也同样众多。在本文中,我们将研究专门用于脑电分析和生物工程应用的机器学习方法。回顾了1988年至2018年的文献,以获取脑电在多种应用中的先前和当前分类方法。根据这些信息,我们能够确定每种机器学习方法的总体有效性以及关键特性。我们发现机器学习中使用的所有主要方法都以某种形式应用于脑电分类。从朴素贝叶斯到决策树/随机森林,再到支持向量机(SVM)。有监督的学习方法整体上比无监督的学习方法具有更高的准确性。这包括支持向量机和KNN。虽然每一种方法在各自的应用中各自的精度都受到限制,但希望在正确实现方法的同时获得更高的总体分类精度。本文发表在IEEE Reviews in Biomedical Engineering杂志。
图1 EEG信号采集中的10–20系统的电极排布
EEG的机器学习方法 A.概览
机器学习是利用一组数学模型和算法,逐步提高单个任务的性能。它以训练数据集作为输入,用作估计的指南,而不需要专门编程。任务在这个空间中变化很大,可以分为两大类:有监督学习和无监督学习。无监督学习是指算法从只包含输入而不包含输出的数据集建立识别模式。监督学习有一个部分是半监督学习。它们在某种意义上是相同的,即它们都从具有给定输入和已知输出的数据集学习,除了半监督有部分数据集缺失。有监督学习主要用于分类和回归,而无监督学习则用于特征学习和降维。本文将讨论一些最常用的机器学习方法,并根据学习类型对它们进行分类,并将其应用于脑电领域。借助机器学习方法,脑电信号可以作为较难检测的病情的指标。在图2中,机器学习在脑电信号上的应用是基于有监督和无监督学习的。有监督学习利用输入和期望输出的数据建立预测模型,分类和回归产生相应的离散和连续。无监督学习提出了一种预测模型,利用输入的数据进行聚类和降维,从而产生相应的离散性和连续性。
图2 基于监督学习和无监督学习的EEG机器学习应用
图3描述了机器学习如何实现对所需的数据集进行分类的一般流程。第一步是信号采集。即未经编辑原始数据。然后进行预处理:去除数据集中的噪声和其他异常值。特征提取决定了数据的频谱及其对应的特征。特征选择是分离出所需的分类器,机器学习方法将对这些分类器进行后续训练。机器学习训练涉及到使用训练数据集,无论是否有已知的输出来细化分类方法。最后,测试阶段是处理真实的测试数据集,并比较所需特征的总体精度。
图3 EEG机器学习分析的整体步骤:预处理、特征提取、特征选择、模型训练、模型测试。
B.回归
回归建模是统计学中一种常用的工具,因为它是创建变量之间函数关系的一种简单方法。各种类型的回归包括:
定量反应变量的单变量回归和多变量回归;
预测变量的简单和多变量回归; 线性可转换数据的线性回归; 非线性可转换数据的非线性回归; 定性变量预测变量的方差分析;
定性组合的协方差分析以及定量变量预测因子; 以及定性反应变量的logistic分析。
Legendre和Gauss首先应用最小二乘法进行回归。该方法通过求各方程残差的平方和来进行逼近,使数据最为拟合,并应用于线性回归中。如下式所示:
线性回归是最常用的回归方法之一。在这个模型中,参数以线性组合的形式指定,而每个自变量不一定是线性的。多元线性回归与其类似,除了包含多个自变量,而不是只有一个。当参数不是线性时,必须使用非线性回归。使用平方和技术,尽管它使用迭代过程来最小化函数。
表1 EEG分析中的回归模型应用
C.SVM支持向量机
支持向量机(SVM)是监督学习的一个子类,用于分类和回归分析。其目的是映射空间中的点,使目标类别的示例被最大可能的差额分割。这使得支持向量机作为分类器具有较低的泛化误差。它的目标是在N维空间中找到一个超平面或一组超平面。支持向量是更接近给定超平面的数据点。它们通过改变超平面的位置和方向来最大化分类器的边缘。此外,在这个空间内,由于数据的位置,这些点也可能是不可线性分割的。支持向量机能够利用生成的核函数或更常见的“核技巧”来解决这个问题。这个技巧涉及到现有算法从低维数据集到高维数据集的转换。信息量保持不变,但在这个高维空间中,可以创建线性分类器。每个点都有几个K核,这有助于确定新变换特征空间的最佳拟合超平面。有了足够的K函数,就有可能得到精确的分离。它唯一的主要问题是过度拟合。图4描绘了2D和3D中的数据分离的示例。
硬边界线性支持向量机分类器
最小化W的核函数方程:
图4 高维核分离内核
技巧涉及到现有算法从低维数据集到高维数据集的转换
D. KNN K近邻
KNN是一种有监督的机器学习算法。在有监督学习中,已经为训练数据集建立了输入和输出之间的关系,即对于给定的输入,输出是已知的。监督学习分为回归学习和分类学习。KNN既可用于分类,也可用于回归。分类和回归的输入是相同的,但输出是不同的。示例中的输入-输出对用于预测未训练数据集的输出。KNN基于K邻居的分类对输入进行分类。为了找到最近的邻居,需要计算从输入到所有已知数据点的欧氏距离或马氏距离。计算距离后,选择K个最近邻。然后根据输入与其K-邻居之间的相似性对输入进行分类。K的选择基于数据集的大小。取数据集大小的平方根,如果结果是偶数,则加上或减去1。然后将该数据集的结果确定为K。选择K为奇数,以避免在预测输入时出现偏差。
表2 支持向量机在EEG分析中的应用
E.ANN人工神经网络
神经网络,在计算机界通常被称为人工神经网络,是一种数学模型,与人脑中的神经网络结构非常相似。为了了解模型的工作原理,研究人员提出了一些理论和例子,说明了神经网络的不同层之间的相互作用,以将给定的输入转换为期望的输出。
想象一下你在一家酒吧,看着菜单点了一杯好啤酒。你最喜欢的是IPA,当你在列表上看到它时,你就点它。所以在你的大脑中发生的事情是,你为你的大脑神经网络提供了多种啤酒选择的输入,IPA的选择有一个可取的重量,因为那是你最喜欢的啤酒;大脑做出决定并给你输出。这是神经网络运作的一个基本例子。模型的体系结构显示了决策过程,其中涉及到输入层和输出层之间更深层的交互。图5示出了ANN的不同层的分类。
图5 一种具有输入层、隐含层和输出层的前向神经网络