大数据与人工智能
数据科学已经在决策科学、社会科学、经济学里面扮演越来越重要的角色,所以这种交叉融合,这种碰撞对我们每一个人来讲都是学习的机会,也是一些施展才华的空间。最近在各个场合有一些分享,今天我尤其要把这个讲座做好。今天是我儿子第一次坐在下面听我的讲座。
过去我们做的这些工作是跟数据有关系的。一个大数据、一个人工智能,这两个放在一起,今天很多的企业会这么重视,在这里给大家分享一下我们自己的故事。百度在过去两年多的时间里面,在人工智能领域有很多技术方面的投入。今年李彦宏在两会上提出中国大脑,很受关注;麻省理工学院科技评论杂志去年专门发表了一篇评论性文章,介绍百度的人工智能之梦。在国外主流的科技杂志里面报道一个中国企业的科技研发,还是比较少的。我自己感到非常的振奋。
百度的背景,和很多的互联网公司都是一样的,从技术的纬度来讲,他本质上是一个基于大数据的人工智能公司。我们是提供一个搜索引擎,这个搜索引擎下面有一个非常精致的结构,它可以搜索到各种信息、知识,而且服务是完全免费的、给用户带来价值的。但是我们获得了了大量的搜索行为数据,并实现它的商业价值,就得通过广告、推送服务。从数据到价值,这中间就需要大量的技术,尤其是基于大数据的人工智能技术,包括机器学习,自然语言处理,语音识别,图像识别。
最近在全社会,无论是在中国还是美国,还是科技媒体,还是研究机构,还是商业公司,都在谈自动驾驶、机器人、物联网、个性化、VR、AR。其实这些都是AI的各个领域,现在AI已经成为科技创新的主战场,它不光是未来时,而且是
现在进行时。我们看电影《超能陆战队》,看似是未来的东西,但是今天很多领域正在发生,也在产生价值。
到底什么是人工智能?严肃的科学定义到今天为止,没有一个广泛接受的定义。比如说,有一种说法叫强人工智能,有一种说法叫弱人工智能,还有基于符号逻辑的、也有基于统计模型的,有不同的观点。抛开这些不同的观点,通常一个人工智能系统有这样几个方面:
第一,我们希望这个系统具有感知的能力,就像人一样,有五官,可以感知周围的环境是什么样的。
第二,获取这个感知以后,对面临的环境有一个理解。比如说对于一个机器人来讲,他在感知到这个环境以后,如果想到后面去跟一个同学聊天,他需要寻找最佳路径。他必须要理解,那条路是走不通的,那条是可以走的。
第三,在理解的基础上做出决策,从而达成目的或完成任务
一个机器要感知,然后理解,然后决策,这是一个过程。今天在市场上面无处不在充斥着智能产品:智能汤勺、智能水杯等等。我们把一个老式的收音机和智能设备放在一起比较,他们有什么不同?区别一个系统、一个产品是不是真的具有智能的能力,有一个很重要的纬度,就是这个系统能不能随着用户用它的次数越来越多,它变得越来越聪明,它是不是真的随着经验积累在不断的演化。如果它是这样的,它就是一个能够自我学习、自我进化、自我演化的、智能的系统。所
以,学习能力是智能的本质属性之一。
在座有的年纪跟我相仿,在小学的时候有过一篇课文,讲的是一个科学巨匠做小板凳的故事,他做的那个板凳非常的丑陋,但是我们能不能说这个小朋友不聪明?如果你看他过去几天做的每一个小板凳,他一个比一个做的好,他具有不断的从经验里面去学习的能力,使我们发现这个小朋友是非常具有智慧的。你看一个系统今天的能力不是最重要的,最重要的是它的增长曲线,随着大数据不断增加,不断去使用这个系统,它能变得越来越聪明。
这里面我提到了经验。经验就是数据,数据就是经验。我们在机器学习里面有一个词叫经验数据。随着经验演化,就是随着数据的不断增长,增长你的能力。为什么我们迎来一个大数据的时代?因为从PC互联网到移动互联网,带来了一个数据的爆增,在我们日常生活里面,每一个人都在贡献着大量的数据。
这样一个场景,是在圣彼得教堂门口的广场上面,很多人来等待教皇选举结果。在八年以后,在同样一个地方,可能是同样一群人,同样的故事仍在上演。但从一个纬度来看,移动互联网在改变每个人的生活,每个人的手持设备在跟着你,它无时不刻的在产生数据。
今天,每个人身上连着两到三个移动设备,比如说手机、iPad,这样一个趋势往前演进,人机交互是指在这个环境里面有无数个设备跟你感知、交互。现在手表也已经是一个智能终端了。
总的来看,具体的趋势是我们将进入一个万物互联的时代。随之带来的是每个你的设备都会记录你的数据,人跟设备的连接,人跟人的连接,物与物的连接,设备与设备的连接都在产生数据。所以,这是一个机会,万物互联将形成大量数据无处不在的生态,给我们带来的机会就是智能化时代的来临。
2014年,我们突然看到那么多科幻的电影,那么多人在讨论这样那样的,包括习总书记也在院士大会上谈到机器人。所以这不是偶然,这有一个时代的背景。
在大数据的时代,智能变得越来越重要。有一个技术,最近很多研究机构,包括公司都有很大的投入,这个技术就叫深度学习。深度学习为什么会在这个时代这么受大家的关注?谷歌、微软、Facebook都有专门的研究团队,Facebook2013年9月份第一次成立了研究院。今天很多中国的互联网公司都成立了这样的研究院。
百度在这方面做了很多的工作,其中一个表现就是百度大脑项目,这个项目是一个有着上千台服务器,包括PC服务器和GPU服务器的大规模数据处理系统。去年我讲的是百亿级的产品,世界上最大级的深度神经网络,最近我们把它升级到千亿级的系统。