好文档 - 专业文书写作范文服务资料分享网站

深兰科技-机器也能看图说话

天下 分享 时间: 加入收藏 我要投稿 点赞

深兰科技|机器也能看图说话

机器看到图像或视频就能像人类一样进行精准地表述,这看似不可能,但已在深兰科学院诞生的“智慧交通协管员”,已把它变为了现实。

这段视频的场景就是在城市繁忙的十字路口,尤其上下班高峰,行人违章现象非常多,即使有交警在路口执勤也很难做到面面俱到,此时“智慧交通协管员”将大大发挥作用。其中涉及到的技术比较多,概括起来就是视觉理解、认知推理、自然语言生成和语音合成。 视觉理解+认知推理 一、认知智能概述

人工智能的发展可以粗略划分为三个阶段:计算智能、感知智能和认知智能。

计算智能通俗来说就是计算机能存储、记忆会运算,这方面,计算机的智能水平早已经远远超过人类。 感知智能就是计算机具备类似于人类的视觉和听觉等方面的能力,比如,听到了什么,对应语音识别;看到了什么,对应图像的分类检测和语义分割。其中人脸识别就是包含感知智能技术的一种人工智能应用,近年来,随着深度学习技术在视觉感知领域的蓬勃发展,目前机器感知智能的性能已经可与人类媲美,甚至在许多场景下已经超过人类。

认知智能强调知识、推理等技能,要求机器能理解、会思考,目前机器远不及人类。从计算智能到感知智能,标志着人工智能走向成熟;从感知智能到认知智能,是人工智能质的飞跃。认知智能,与人的语言、知识、逻辑相关,是人工智能的更高阶段,涉及到语义理解、知识表示、小样本学习甚至零样本学习、联想推理和自主学习等等。相比于计算智能和感知智能,认知智能是更复杂和更困难的任务,也是未来数十年最重要的任务。

二、视觉理解与推理——Image captioning的发展历程 1996-2000年,符号规则方法

追溯到1996年,Gerber发表了一篇知识表示的论文,限定于交通场景,在图像序列中用知识表示来进行自然语言描述的问题。2010年时,朱松纯(S.-C.Zhu)教授团队首次提出与或图(And-Or Graph)的模型。进一步与 D. Mumford 合作进行了框架的完善,融入随机上下文相关语法(Stochastic Context Sensitive Grammar),能对复杂物体的多层次构造特性(Hierarchical Compositionality)建模,完全表示图像语法(Image Grammar)。

与或图表示突破了传统单一模板(Template)的表示方法,对每类物体用多个图结构表示,该结构可以通过语法(Grammar)、产生规则(Production Rule)进行动态调制,从而可以用相对小的视觉字典(Visual Vocabulary),表达大量类间结构变化很大的物体的图像表现形式(Configuration)。

这些方法实际上都基于逻辑体系和规则的系统,对图像的内容设计很多规则,继而产生自然语言描述。由于强依赖于手工定制,人工特征工程的工作量就非常大,这也是当时亟待改善的问题。 2011-2013年 无明显进展 2014年至今 深度学习方法等

2014年,谷歌的Oriol Vinyals 等人公开论文《Show and Tell: A Neural Image Caption Generator》,并发表于2015年CVPR,开了深度学习在Image captioning中使用的先河。该方法来源于以前的机器翻译。 输入图形后,深度卷积神经网络对图形特征进行提取,通过固定长度矢量形成输入(Input)进入循环神经网

络(RNN),经过一系列训练后,输出一段描述性的自然语言文字。按照时间序列的顺序,逐个词进行输出,条件依附于之前的词。

使用如下公式最大化给定图像的正确描述概率:

Encoding-Decoding 灵感来源于翻译模型。

基于更复杂的视觉特征提取模型的Image Captioning。其中利用人的常识构建了一个知识库(ConceptNet),然后把它加入Encoding-Decoding模型里,赋予模型一定程度的常识能力。我们一直希望机器能有所谓的认知智能,实际上就是希望机器能够像人一样具有常识。

基于 Image Captioning 的 VQA(视觉问答)

Image Captioning是实现视觉认知的一个重要方面,现在基于上文提及的谷歌提出的Image Captioning模型来构造对场景的理解,并进行问答。 问题:地面上覆盖着什么? 模型回答:积雪

深兰科技-机器也能看图说话

深兰科技|机器也能看图说话机器看到图像或视频就能像人类一样进行精准地表述,这看似不可能,但已在深兰科学院诞生的“智慧交通协管员”,已把它变为了现实。这段视频的场景就是在城市繁忙的十字路口,尤其上下班高峰,行人违章现象非常多,即使有交警在路口执勤也很难做到面面俱到,此时“智慧交通协管员”将大大发挥作用。其中涉及到的
推荐度:
点击下载文档文档为doc格式
5r3q64na0p0weks4q8jb3z01x0bvw200n82
领取福利

微信扫码领取福利

微信扫码分享