物联网数据挖掘模型的研究
中国宁波,浙江大学宁波理工学院Shen Bin 中国杭州,浙江大学管理学院Liu Yuan,Wang Xiaoyi
摘要——在这篇论文中,我们提到了四种物联网数据挖掘模型,分别是多层数据挖掘模型、分布式数据挖掘模型、基于网格的数据挖掘模型和多层技术集成角度的数据挖掘模型。其中,多层数据挖掘模型包含四层:1)数据收集层,2)数据管理层,3)事件处理层,4)数据挖掘服务层。分布式数据挖掘模型可以解决数据存放在不同地点的问题。基于网格的数据挖掘模型使网格框架实现数据挖掘功能。多层技术集成角度的数据挖掘模型描述了未来网络的相应框架。并且讨论了一些IOT数据挖掘的重要问题。
关键词——物联网,数据挖掘模型,RFID技术
一、 介绍
物联网(IOT)是下一代网络,包含上万亿节点来代表各种对象,从无所不在的小型传感器设备,掌上的到大型网络的服务器和超级计算机集群[23]。它是继电脑和网络革命之后的又一场科技革命。它集成了新的计算和通讯技术(如传感器网络,RFID技术,移动技术,实时定位,普遍存在计算和IPV6等)和建立下一代互联网的发展方向。IOT是IBM公司提出的智能星球的核心。物联网的智能对象(如传感器输入、制动器等)可以通过基于新信息和通讯技术的网络来通信。
S. Haller等人[2]提出了如下的定义:“它是这样的一个世界,物理对象可以无缝集成到信息网络,并且可以成为业务流程的积极参与者。服务可以在网络中影响到这些‘智能对象’,找到他们的国家以及与他们向关联的任何问题,并能考虑到安全和隐私问题。” 刘教授[3]从技术和经济的角度提出了对于IOT的想法:“从技术的角度上讲,IOT是传感器网络的集成,包括RFID和无所不在的网络。从经济的角度来看,这是一个开放的观念,集成了新的相关科技和应用,产品和服务,生产和市场。”
物联网将会产生大量的信息。让我们举一个例子,将超市引入一个采用RFID技术的供应链。RFID数据的原始形态是这样的形式:EPC,地点,时间。EPC代表了一个RFID读者阅读的唯一标识;地点是读者的位置;时间是阅读发生的时刻。这需要18个字节来储存一个RFID记录。一个超市,大约有700000个RFID记录。所以如果这个超市每秒都有读者在浏览,那么每秒大约产生12.6GBRFID数据流,每天将达到544TB的数据。因此,发展有效的思想去管理、分析、挖掘RFID数据是非常必要的。物联网数据可以分成几种类型:RFID数据流、地址/唯一标识、描述数据、位置数据、环境数据和传感器网络数据等[1]。它将给物联网的管理、分析、挖掘数据带来巨大的挑战。
二、 相关研究
作为互联网的全新范例,对于物联网的研究还处于初级阶段。目前,有一些物联网数据挖掘的研究,主要包括以下三个方面:
一些研究集中于管理和挖掘RFID数据流。例如,Hector Gonzalez等人[4]提出一个存储RFID数据的新奇模型,能保护对象转变同时提供重要的压缩和路径依赖总量。RFID立方体保持了三个表:(1)信息表,能储存产品的路径依赖信息,(2)停留表,保存了数据所在位置信息,(3)地图表,存储用于结构分析的路径信息。Hector Gonzalez等人[5]采用流程图去表示商品的运输,并且还可以用它来多维分析商品流。在参考文献[6],Hector Gonzalez等人提出一种压缩概率工作流,可以捕捉运动和重要的RFID流动异常。ElioMasciari[8]研究RFID数据流的孤立点挖掘。
一些研究偏好于提问、分析和挖掘由各种IOT服务产生的对象数据运动,例如,GPS装置,RFID传感器网络,网络雷达或卫星等。比如说,Xiaolei Li等人[7]提出一个新的框架,称为漫游,用于移动物体的异常检测。在文献[10],Jae-Gil Lee等人对运动目标的轨迹孤立点检测开发了一种分割检测框架。Jae-Gil Lee等人[9]也提出了名为TraClass的新的轨迹分类思想,利用基于地区的和基于轨迹的分层聚集。在文献[11],对于运动目标的轨迹聚集提出了一个划分聚集框架。
其他研究是传感器数据的知识发现。传感器网络有几个特征,例如,有限的资源,容易调配的传感器,免维护,多层跳跃和大量数据等。所以传感器网络的数据挖掘有其自身的特征。JoydeepGhosh[12]提出了一个一般的概率框架,在计算/记忆/电力限制约束下的监督性学习。Betsy George等人[13]提出时空传感器模型(STSG)去模拟和挖掘传感器数据。STSG模型能够发现不同类型的模式:位置异常模式,在每个时段集中定位和节点的未来热点。ParisaRashidi等人[14]开放了一种对于传感器数据类型挖掘的新奇的自适应挖掘框架,以适应数据的变化。
尽管IOT对于数据挖掘有很多贡献,但都主要集中于IOT的基本内容,如传感器网络、RFID等。作为一个全新的网络范例,IOT仍然缺乏模型和理论来指导其进行数据挖掘。
三、 物联网数据挖掘模型
1、 IOT多层数据挖掘模型
根据IOT式样和RFID数据挖掘框架[15],我们提出了下面的IOT多层数据挖掘模型,如图1,将其分为四层:数据收集层、数据管理层、事件处理层和数据挖掘服务层。 其中,数据收集层采用一些设备,例如RFID阅读器和接收器等,来收集各种智能对象的数据,分别是RFID流数据、GPS数据、卫星数据、位置数据和传感器数据等。不同类型的数据需要不同的收集策略。在数据采集过程中,一系列问题如节能、误读、重复读取、容错、数据过滤和通讯等,都应被妥善解决。
数据管理层适用于集中或分布式的数据库或数据仓库区管理收集的数据。在目标识别、数据抽象和压缩后,一系列数据被保存在相应数据库或数据仓库。例如RFID数据,原始的数据流格式是EPC、位置、时间,EPC被标记为智能对象的ID。数据清洁后,我们能获得包含记录停留表有这样的形式(EPC、位置、进入时间、离开时间)。之后我们利用数据仓库去储存和管理相关数据,包括信息表、停留表和地图表,称作RFID体。基于RFID体,用户可以方便的在线分析处理RFID数据。另外,也可以采用XML语言去表述IOT数据。智能对象可以通过物联网数据管理层相互连接。
事件是数据、时间和其他因素的整合,所以它提供高水平的IOT处理机制。事件处理层有效地用于分析IOT事件。因此我们可以在事件处理层实现基于事件的提问分析。将观察到的原始时间过滤后,就可获得复杂事件或用户关注的事件。然后我们可以根据事件集合、组
织和分析数据。
数据挖掘服务层建立在数据管理和事件处理的基础上。各种基于对象或基于事件的数据挖掘服务,分类、预测、聚类、孤立点检测、关联分析或类型挖掘,都提供给应用。比如:供应链管理、库存管理和优化等。这一层的建立模式是服务至上。
数据挖掘服务层
事件处理层
数据管理层
初级事件事件过滤事件检测 数据数据挖掘知识
数据收集层
ID标签传感器标签 GPS
图1:IOT多层数据挖掘模型
2、 IOT分布式数据挖掘模型
跟一般的数据相比,IOT数据有自己的特色。例如,IOT数据总是大规模的、分布式的、时间相关的和位置相关的。同时,数据的来源是各异的,节点的资源是有限的。这些特征带来了很多集中数据挖掘式样的问题。起初,大量的IOT数据储存在不同的地点。因此,通过中央模式很难让我们挖掘分布式数据。第二,IOT数据很庞大需要实时处理。所以如果我们采用中央结构,硬件中央节点的要求非常高。第三,考虑到数据安全性、数据隐私、容错、商业竞争、法律约束和其他方面,将所有相关数据放在一起的战略通常是不可行的。第四,节点的资源是有限的。将数据放在中心节点的策略没有优化昂贵资源传输。在大多数情况下,中心节点不需要所有的数据,但是需要估计一些参数。所以我们可以在分布式节点中预处理原始数据,再将必要信息传送给接收者。
IOT分布式数据挖掘模型不仅可以解决分布式存储节点带来的问题,也将复杂的问题分解成简单的问题。因此,高性能需求、高存储能力和计算能力都降低。在本文中,我们提出
问答器 了IOT分布式数据挖掘模型,见图2。
网格中间件 Triana数据流编辑器和管理人 基于网络的客户 软件资源 硬件资源 资源数据挖掘网格 代理 信息服务 数据服务 客户组件数据挖掘网格 数据挖掘网格高水平服务组件开发 软件和硬件资源 局部 调度 计算机簇 传感器网络、无线传感网络 RDIF标签,RDIF WSAN,阅读器等 数据仓库,数据挖掘 应用(系统、工具、算法) 执行管理 增强适配器 增强适配器 安全信息常见运行时 RFT网格 数据挖掘活动 服务 组件描述4
图2:IOT分布式数据挖掘模型
在该模型中,全局控制节点是整个数据挖掘系统的核心。它选择数据挖掘算法和挖掘数据集合,之后引导包含这些数据集合的辅助节点。这些辅助节点从各种智能对象收到原始数据。这些原始数据通过数据过滤、数据抽象和压缩进行预处理,然后保存在局部数据仓库。事件过滤,复杂事件检测和局部节点数据挖掘获得局部模型。根据全局控制节点的需要,这些局部模型受控于全局控制节点并且聚集起来形成全局模型。辅助节点互相交换对象数据、处理数据和信息。基于联合管理机制的多层代理控制着整个过程。
3、 IOT基于网格的数据挖掘模型
网格计算是新型的计算设备,能够实现异构、大规模和高性能应用。同IOT,网格计算受到来自工业和研究机构的关注。网格的基本理念就是同电力资源一样利用网格计算资源。各种计算资源、数据资源和服务资源都可以被存取或便捷使用。IOT的基本理念是通过互联网连接到各种智能对象。如此智能对象变得聪明、环境敏感且远程合用。所以我们可以认为智能对象是一种网格计算资源,使用网格数据挖掘服务去实现IOT数据挖掘操作。
P. Brezany等人[19]提出一种叫做GridMiner的基础设施,它支持分散式的在线分析处理和数据挖掘。在文献中[20],A. Congiusta讨论了设计方面和服从WSRF网格服务的实施选择。
在本文中,根据Stankovski, V.等人提出的数据挖掘网格[21],我们提出了基于网格的IOT数据挖掘模型,如图3。
应用一应用二
全局模型
局部模型1
数据挖掘算法 局部数据仓库
节点1节点n
局部模型聚合器 局部模型n
数据挖掘算法 局部数据仓库
问答器1 问答器n ID标签传感器标签
GPS ID标签传感器标签 GPS
图3:基于网格的IOT数据挖掘模型
基于网格的IOT数据挖掘模型与网格数据挖掘的不同是硬件和软件资源的一部分。IOT提供多种类型的硬件,如RFID标签、RFID阅读器、WSM、WSAN和传感器网络等。它也提供了多种软件资源,如事件处理算法、数据仓库和数据挖掘应用等。我们可以充分利用网格数据挖掘的高水平服务,和IOT数据挖掘客户。
4、 IOT多层技术集成角度的数据挖掘模型
物联网是下一代互联网发展的重要方向。同时,还有很多新的方向,例如可信网络、无所不在的网络、网格计算和云计算等。因此,从多层次技术集成的角度出发,提出了相应的IOT数据挖掘模型,如图4。
在该模型中,数据来自环境敏感的个人、智能对象或环境。采用128位的IPV6地址,并且提供各种无所不在的方式去访问未来网络。例如:内部网/互联网、FTTx/xDSL、传感器设备、RFID、2.5/3/4G移动访问等。信赖控制平台保证数据传输的信誉和可控性。在此基础上,我们完成了数据挖掘工具和算法,并提交了各种知识服务型的应用,如智能交通、只能物流等。