深兰科技摘译:认知体系研究综述(二)
前期回顾
作为人工智能的一个重要分支,认知体系的研究和应用经过了近40年的发展,已取得了可见的成果。上期内容对认知体系的概念进行了阐述,本期将继续就感知和注意力进一步展开。译者希望通过摘译的内容,引起大家对“认知体系”研究的更多关注。 摘译:认知体系研究综述(一) 1 引言
2 什么是认知体系 3 认知体系的分类 4 感知(Perception)
虽然早期的认知结构主要侧重于高层次的推理,但同样重要的是感知和行为。
感知可以定义为将原始输入数据转换为系统内部,用于表示执行认知任务的过程。根据输入数据的来源和性质可以区分多种感知模式,例如最常见的五种是视觉、听觉、嗅觉、触觉和味觉;其他的感觉包括本体感觉、热感、痛觉、时间感等。
当然,认知结构也实现了其中的一些与人类感官无关的符号输入(使用键盘或图形用户界面(GUI))和各种传感器(激光雷达、激光、红外等)。根据其认知功能,智能系统可以将各种类型的数据作为感知输入。 因此,本节将研究使用各种数据输入,从这些数据源中提取信息以及如何应用这些信息的认知体系。图4将调研结果进行了可视化。
图4:视觉(V)、听觉(A)、触觉(T)、嗅觉(S)、本体感觉(P)、数据输入(D)、其他传感器(O)和多模态(M) 从图4可以观察到如下情况:例如视觉是最常用的实现方式,然而超过一半的体系使用模拟进行视觉输入,而不是摄像机;触觉和本体感觉等方式主要用于物理体现的设计;有些感知未被充分探索,例如嗅觉只在三种体系中出现(GLAIR、DAC和PRS0)。总的来说,符号范式在设计上具有有限的感知能力,并且倾向于使用直接的输入数据作为唯一的信息来源(参见图的左侧)。
另一方面,混合范式和涌现范式(主要位于右半部分图中)使用模拟和物理传感器实现更广泛的感知模式。然而,不管其来源如何,传入的感知数据通常不能以原始形式使用(除了符号输入之外),往往需要进一步处理。
下面将讨论在认知体系中如何进行有效且充分的感知处理。 4.1视觉(Vision)
长期以来,视觉是主要的感知模态,虽然最近的研究建议更平衡的感知体验观[17],但认知结构的研究仍然以视觉为中心,相对也是研究最多的感知模态。尽管在机器人技术中,各种非视觉传感器(如声纳、超声波距离传感器)和本体感觉传感器(如陀螺仪)被用于解决诸如导航、避障和搜索等视觉任务,但视觉输入占所有可能输入模式的一半以上。
根据Marr[18]的说法,视觉处理通常包括了三个不同的阶段:早期、中期和晚期。早期视觉技术是数据驱动的,涉及到对视觉场景的并行处理,提取简单的元素,如颜色、亮度、形状、运动等。中期视觉技术将元素分组到区域中,然后在后期进行进一步处理,以识别对象,并使用可用的知识赋予它们意义。尽管Marr没有提到,但视觉注意机制、情感和奖励也会影响视觉处理的各个阶段[19]。因此,感知和认知在各个处理阶段都是紧密关联的。
在认知体系中,基于图像理解的视觉处理是分阶段进行的[20]。这些阶段包括:强度-位置-时间值的检测和分组(产生边缘、区域、流向量);边缘、区域等的进一步分组(产生表面、体积,边界、深度信息;对象识别及其运动识别;为实体建立以对象为中心的表示;基于任务为对象分配标签;时空推断实体之间
的关系。
在这里,只有阶段1代表Marr三阶段理论的早期阶段,所有后续阶段都需要一个附加的任务或世界知识。在第2阶段,特征的分组可以由被观察的特定对象的视点信息和知识来促进。最后,后期阶段对从早期和中间处理结果中抽象出来的高级表示进行推理和操作。
值得注意的是,许多图像理解的研究都是通过执行了隐式深度学习方法而实现的。在最近几年中,我们已经看到了深度学习在图像处理和自然语言处理上很多卓越的表现,然而令人惊讶的是很少有认知架构使用它。在CogPrime、LIDA、SPA和BECCA中可以找到深度学习在简单视觉任务中的一些应用。 图5显示真实视觉和模拟视觉执行处理的各个阶段。真实视觉系统只接收像素级的输入,而没有附加信息(如摄像机参数、物体的位置和特征等)。图像本身由相机生成,但体系结构不需要连接到物理相机。模拟视觉系统通常忽略早期和中期处理阶段,并以适合视觉处理后期阶段的形式接收输入(例如形状和颜色的符号描述、对象标签、坐标等)。技术上,任何不支持真实视觉或其他感知模式的体系结构,都可以通过接口进行扩展,该接口将其连接到传感器或将原始数据预处理为更合适的格式(如Soar、ACT-R)。但图5仅仅显示图像解释阶段执行了什么任务,却没有反映出这样处理的复杂性。
图5:这些阶段从早期到后期依次为:1)特征,2)原型对象,3)对象,4)对象模型,5)对象标签,6)空间关系
不同深浅的蓝色用来表示属于早期、中期和晚期视觉的过程。这个具有真实和模拟视觉的架构分别显示在左栏和右栏中,每列中的顺序按字母顺序排列。 4.2基于传感器的视觉(Vision Using Physical Sensors)
大多数体系处理视觉各个阶段都是物理嵌入的,包括机器人控制、生物启发和仿生结构。早期视觉(步骤1)通常涉及边缘检测和视差估计,然后这些特征分组(步骤2)为具有类似特征(颜色、深度等)的东西,这些东西被解析为具有质心坐标的候选对象(步骤3),使用离线方式学习对象模型(步骤4),并可用于对候选对象进行分类(步骤5)。
基于生物启发的体系也使用计算机视觉算法,并遵循类似的处理阶段。例如,用于目标检测的神经网络(RCS、
深兰科技摘译:认知体系研究综述(二)
![](/skin/haowen/images/icon_star.png)
![](/skin/haowen/images/icon_star.png)
![](/skin/haowen/images/icon_star.png)
![](/skin/haowen/images/icon_star.png)