(3)论文的内容必须是原创,有可靠的分析依据和明确的结论。
(4)论文按照规定的格式化撰写; (5)字数不少于XX字。
数据挖掘(WEKA软件)实验报告
统计学 专业 学生 李健 学号 XX210453 关键词:数据挖掘;游玩;因素;WEKA
本次实验指在熟练的运用软件weka进行数据处理,其中包括数据准备,关联规则等同时了解weka的基本用法。 一、软件介绍 1简介
数据挖掘、机器学习这些字眼,在一些人看来,是门槛很高的东西。诚然,如果做算法实现甚至算法优化,确实需要很多背景知识。但事实是,绝大多数数据挖掘工程师,不需要去做算法层面的东西。他们的精力,集中在特征提取,算法选择和参数调优上。那么,一个可以方便地提供这些功能的工具,便是十分必要的了。而weka,便是数据挖掘工具中的佼佼者。
WEKA的全名是怀卡托智能分析环境(Waikato Environment forKnowledge Analysis),是由新西兰怀卡托(Waikato)大学开发的机器学习软件,纯Java技术实现的开源软件,遵循于GNU General Public License,跨平台运行,
集合了大量能承担数据挖掘任务的机器学习算法,分类器实现了常用ZeroR算法、Id3算法、J4.8算法等40多个算法,聚类器实现了EM算法、SimpleKMeans算法和Cobweb算法3种算法,能对数据进行预处理、分类、回归、聚类、关联规则以及在新的交互式界面上的可视化。2oo5年8月,在第11届ACM SIGKDD国际会议上,怀卡托大学的WEKA小组荣获了数据挖掘和知识探索领域的最高服务奖,WEKA系统得到了广泛的认可,被誉为数据挖掘和机器学习历史上的里程碑,是现今最完备的数据挖掘工具之一。WEKA使用的是一种叫做arff(Attribute—Relation File Format)的数据文件结构。这种arff文件是普通的ASCII文本文件,内部结构很简单,主要是测试算法使用的轻量级的数据文件结构。arff文件可以自己建立,也可通过JDBC从Oracle和Mysql等流行数据库中获得。整个arf文件可以分为两个部分。第一部分给出了头信息(Head information),包括关系声明(Relation Declaration)和属性声明(AttributeDeclarations)。第二部分给出了数据信息(Datainformation),即数据集中给出的数据。关系声明的定义格式为:@relation;属性声明的定义格式为:
@attribute;数据信息的定义格式为独占一行的@data,后面跟着的就是数据信息。 2.安装
Weka的官方地址是http:///ml/weka/。点开左侧
download栏,可以进入下载页面,里面有windows,mac os,linux等平台下的版本,我们以windows系统作为示例。目前稳定的版本是。
如果本机没有安装java,可以选择带有jre的版本。下载后是一个exe的可执行文件,双击进行安装即可。 安装完毕,打开启动weka的快捷方式,如果可以看到下面的界面,那么恭喜,安装成功了。 共有4个应用,分别是 1)Explorer
用来进行数据实验、挖掘的环境,它提供了分类,聚类,关联规则,特征选择,数据可视化的功能。(An environment for exploring data with WEKA) 2)Experimentor 用来进行实验,对不同学习方案进行数据测试的环境。(An environment for performing experiments and conducting statistical tests between learning schemes.) 3)KnowledgeFlow
功能和Explorer差不多,不过提供的接口不同,用户可以使用拖拽的方式去建立实验方案。另外,它支持增量学习。(This environment supports essentially the same functions as the Explorer but with a drag-and-drop interface. One advantage is that it supports incremental learning.) 4)SimpleCLI 篇四:实训报告
移动络优化实训报告
班 级: 通信141 学生姓名: 班级序号: 一、设计背景
内容包括:络优化应用背景介绍 2G系统图、LTE系统图
1、 络优化应用背景介绍
由于核心、传输的元少且环境稳定,移动通信优化实际上以无线优化为主,因此移动通信络优化也可称为无线络优化。无线络是通过改善手机和基站的空中接口信号性能来完成优化过程,提高通信质量的。由于移动络变是不固定的,其动态变化频率高,再加上庞大的用户群体、用户的移动性、话务密度的不均匀性、频率不均匀性等,导致无线络的信号接口稳定性能差,反映到用户方面即是通信质量的不稳定及弱势。比如,无法接通、通话无端中断、杂音干扰、单方通话等故障。 移动通信络的建设耗费大量人力、财力,但是就目前此阶段现状而言,通信质量的不尽如意使得其投资与回报不成正比。而不间断的络硬件、数据调整,资源优化配置等途径可以优化通信络,可保持络处于最佳运行状态,由此改善通信服务质量,使得用户可以切身感觉到通畅淋漓的络速度。
2、移动络优化的现状
由于当前技术的限制,移动通信络优化的实现需要借助于一定的工具,并且要求相关工作人员要具备较高的技能素质。一般而言,优化队伍的组成需具有资深的络优化工程师,若干技术人员,以及大量的自动化、智能化软件工具。现有的络优化工具主要有以下三种类型: 其一,各系统供应商提供的OMC系统;
其二,无线络及交换络测试分析的仪器、第三方软件,如路测软件和信令分析软件;
其三,无线频率规划软件。其中,路测软件等是用来提供数据的,供应商提供的OMC系统多用来维护系统的。但是二者之间的联系甚是不紧密,再加上络优化涉及到交换技术、无线技术、频率 配置、 切换和信令、话务统计分析等技术,形成海量的信息急需高技术处理的局面,最终致使优化工作比较粗放。
络优化的具体操作大致分为数据采集、数据分析、实施、评估四个阶段。数据采集需要耗费大量的人力通过人工操作、整理、归类、汇总各类工具采集的海量数据。此阶段工作量大,但是难度较低。数据分析阶段工作量虽小但是很有难度。此阶段中,工程师需通过前阶段的数据来判断、分析、确定所反映的问题,并得出一个包含不同地点、层次元的优化方案。然后是实施阶段,实施调整方案中确定的络调整操作。最后是评估阶段,此阶段需再次进行数据采集工作,观察调