【摘要】 随着大数据时代的到来, 人们的各种互动、 设备、 社交网络和传感器正在生成海量的数据。 而机器学习等人工智能手段可以更好处理这些数据, 挖掘其中的潜在价值。 云计算、 物联网、 社交网络等新兴服务促使人类社会的数据种类和规模正以前所未有的速度增长, 大数据时代正式到来. 数据从简单的处理对象开始转变为一种基础性资源, 如何更好地管理和利用大数据已经成为普遍关注的题. 大数据的规模效应给数据存储、 管理以及数据分析带来了极大的挑战, 数据管理方式上的变革正在酝酿和发生.
【关键词】 云计算 物联网 大数据 人工智能
1. 机器智能
1.1什么是机器智能
机器智能是指由人工制造出来的系统所表现出来的智能。 机器智能又叫人工智能,通过理解自然智能和发展自适应系统复制机器智能仍然是一个极大挑战。随着近年来脑研究和现代技术的发展, 科学家和工程师将非常有希望找到制造智能系统的方法,这种智能系统在广义上能像人脑一样。具有高鲁棒性、 适应性、可升级和容错的特性。 人工智能技术是信息技术及相关学科技术的集成, 其中包括数字技术、 计算机网络、 远程通信、 数据库、 计算机图形学、语音与听觉、 机器人学、过程控制、 并行计算、 光计算、 生物信息处理等信息技术; 相关学科包括认知科学、 心理学、 语言学、 生理学、 数理科学、 微电子学、 光学、 生物电子学、 哲学和系统科学。 软件技术应是实现人工智能的核心技术之一。 人们将开发出更高级的人工智能通用语言,更有效的AI专用语言以及AI开发专用机器等。
1.2机器智能的研究领域
“使计算机有智能” 是人工智能研究的中心目标。 为了实现这一目标, 必须深入研究人工智能的原理, 同时还需要相应硬件和软件的支持。 这涉及到脑科学、 认识科学、计算机科学、 系统科学、 控制论、 微电子学等多种学科。 但是这些学科的发展目前还没有达到所要求的水平。 人工智能的研究存在许多学派, 如; 逻辑学派、认知学派、 知识工程学派、 联结学派、 分布式学派、 进化论学派; 等等。不同的学派虽然其研究方向和方法不近相同, 但内同都离不开机器感知、 机器学习、 机器行为、 智能系统与智能计算机的构造等。 从研究领域来看, 人工智能的研究主要专家系统、机器学习、 模式识别、 自然语言理解、 自动定理证明、 智能决策支持系统、 智能控制、 智能检索、 机器视觉、 问题求解、人工智能方法、 系统和语言工具、自动程序设计、 机器人学、 博弈、 人工神经网等。 值得指出的是这些人工智能的子领域并不是相互独立的, 大多数人工智能研究课题都涉及诸多智能领域。
2.大数据处理
2.1大数据简介
大数据近几年来新出现的一个名词, 它相比传统的数据描述, 有自己的四个特性,分别是: Volume(大的数据量)、 Velocity(输入和处理速度快) 、 Variety(数据多种多样) 、 Veracity(真实有价值) 。 因此, 大数据需要新的处理模式来取代传统的数据处理方法,它同时包含数据量巨大和快速的处理速度两层含义。云计算是一种大数据的处理技术平台, 综合了各种资源之后提供一些虚拟技术服务。 这样的方式可以很大程度降低用户维护、 处理、 使用数据以及其他计算资源的成本。数据单位已不再是用GB,TB能够满足的描述需要,而是步入了PB级别的时代。 传统的数据存储方式已经不能满足这些数据的存储和处理, 只有依托云平台存储技术的方式来解决这个当前已经面临的问题。
2. 2大数据技术分析
1.大数据的处理方式
大数据的处理方式大致分为数据流处理方式和批量数据处理方式两种。数据流处理的方式适合用于对实时性要求比较高的场合之中。 并不需要等待所有的数据都有了之后再进行处理, 而是有一点数据就处理一点, 更多地要求机器的处理器有较快速的性能以及拥有比较大的主存储器容量, 对辅助存储器的要求反而不高。批量数据处理方式是对整个要处理的数据进行切割划分成小的数据块,之后对其进行处理。 重点在于把大化小——把划分的小块数据形成小任务分别单独进行处理, 并且形成小任务的过程中不时进行数据传输之后计算, 而是将计算方法(通常是计算函数——映射并化简)作用到这些数据块最终得到结果。
2. 大数据处理系统应用
开源是现在很多大型国际IT公司倡导的服务方式, 这个理念拥有很多拥护者。 虽然它最初的出现和商业搭不上边,但已为具有现代发展理念的国际大型商业IT公司所接受,他们所认同的是面向服务的开源,进而出现了 新的经济增长方式。目前有一些较为前沿的公司已经研发开源的大数据处理技术, 比较典型的是推特研发的Storm系统和谷歌研发的MapReduce模型。 前者是以数据流方式进行数据处理而后者是采用批量数据的处理方式。MapReduce是目前用得比较多的方法,其核心思想就是两个步骤: Map和Reduce。 Map过程就是一个映射过程, 完成这一步之后再对其进行Reduce过程处理, 也即是精简的过程。 最后将处理的最终结果进行输出。
3. 大数据技术发展趋势
传统的关系型数据库和新兴的数据处理技术目前是并存状态, 它们之间将来会相互学习,相互渗透,相互影响,互相融合,最终形成对数据分析有利的格局, 能够更好地为大数据处理服务, 从庞大巨量的数据当中找到需要的数据并对之进行处理、分析乃至决策。
2.3大数据关键技术
(一)云计算
传统的计算机设计与软件都是以解决“结构性” 数据为主。 对这一类新型的“非结构” 要求一种新的计算架构。 而云计算就是这样一种新的计算架构。 云计算是一种基于互联网的计算方式, 通过这种方式, 共享的软硬件资源和信息可以按需提供给计算机和其他设备, 它为数据提供保管、 访问的场所和渠道。 云计算的几大特征是: 随需自助服务、 随时随地用任何网络设备访问、 多人共享资源、 基于虚拟化技术快速部署资源或获得服务、减少用户端的处理负担、降低用户对rr专业知识的依赖。云计算是大数据的rI1基础,而大数据是云计算的应用。云计算是大数据成长的驱动力, 而另一方面, 越来越多的数据需要云计算去处理, 所以云计算与大数据是相辅相成的。
(二)数据挖掘
数据挖掘是指从数据库的大量数据中揭示出隐含的、 先前未知的并有潜在价值的信息的过程。 利用数据挖掘进行数据分析常用的方法主要有分类、 回归分析、 聚类、关联规则、特征、变化和偏差分析、Web页挖掘等,它们分别从不同的角度对数据进行挖掘。
① 分类。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。
② 回归分析。回归分析方法反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数, 发现变量或属性问的依赖关系。
③ 聚类。聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大, 不同类别中的数据间的相似性尽可能小。
④ 关联规则。关联规则是描述数据库中数据项之间所存在的关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现, 即隐藏在数据间的关联或相互关系。
⑤ 特征。特征分析是从数据库中的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。
⑥ 变化和偏差分析。偏差包括很大一类潜在有趣的知识, 如分类中的反常实例,模式的例外, 观察结果对期望的偏差等, 其目的是寻找观察结果与参照量之间有意义的差别。
⑦ Web页挖掘。 随着Internet的迅速发展及Web的全球普及, 使得Web上的信息量无比丰富,通过对Web的挖掘,收集各种有关的数据,分析这类数据以获取重要的信息。 通过这些角度对数据进行挖掘, 预测趋势和行为、 分析数据关联度、 聚集类似数据、描述数据概念、检测数据偏差等,进而对数据进行全方位的分析。
(三)可视化技术。 可视化技术主要旨在借助于图形化手段, 清晰有效地传达与沟通信息。 依据数据及其内在模式和关系, 利用计算机生成的图像来获得深入认识和知识。 利用人类感觉系统的广阔带宽来操纵和解释错综复杂的过程、 涉及不同学科领域的数据集以及来源多样的大型抽象数据集合的模拟。 数据可视化不仅用于探索性数据分析, 也是传递分析结论的重要手段。 仪表盘是数据的可视化表示与沟通的重要手段。同时,更加注重设计的信息图也开始逐渐新兴起来。
3. 智能技术在物联网中的应用
3.1什么是物联网
物联网(Internet of Things,loT)作为一种新兴网络技术和产业模式,在业界受到广泛关注.从国际电信联盟(ITU)在信息社会世界峰会上发布的《互联网报告2005:物联网》中可以总结出物联网所体现的两层基本涵义:
(1)目前的三大网络。包括互联网(Internet)、电信网、广播电视网是物联网实现和发展的基础,物联网是在三网基础上的延伸和扩展;
(2)用户应用终端从人与人之间的信息交互与通信扩展到了人与物、物与物、物与人之间的沟通连接, 因此, 物联网技术能够使物体变得更加智能化. 从目前的发展形势看,最有可能率先获得智能连接功能的物体包括家居设备、 电网设备、物流设备、医疗设备以及农业设备,并基于此实现人类与自然环境的系统融合.
3.2物联网的系统架构
如图1所示,包括底层网络分布、汇聚网关接入、互联网络融合以及终端用户应用四个部分.