龙源期刊网 http://www.qikan.com.cn
机器学习算法在数据挖掘中的应用
作者:朱天元
来源:《数字技术与应用》2017年第03期
摘要:近些年,国内社会有了很大发展,各种先进技术和理念不断得到应用和发展,机器学习算法就是一种新型算法,在各行各业中都有很大作用。本文主要对机器学习算法在数据挖掘中的应用进行详细研究,首先借助大量移动终端数据,对GSM网络的户外终端进行有效定位,提出三个阶段的定位算法,进而使定位速度和精度有很大提高。 关键词:机器学习算法;数据挖掘;户外定位
中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2017)03-0166-01 1 数据挖掘概述
在数据挖掘算法内,机器学习与统计算法是比较常见的两种,第一种是借助人工智能技术,可以在大量的样本集训练与学习之后,自动的找到运算所需的模式和参数,第二种是借助判别和概率分析、聚类和相关性分析等开展运算,不同的算法也有不同对应的目标和领域,这些算法可以独自进行使用,也能够互相结合。
机器学习算法内人工神经网络这种方法应用范围比较广泛,具备很好的处理数据能力与自组织学习的能力,还可以进行准确的识别,进而有利于对分类型问题数据进行处理。可以借助建模进行工作,模型比较多样,可以对不同的需求进行满足,从整体出发,这一方法的模型具有较高精度,鲁棒性比较好,描述能力也比较强,进行应用时不需要借助专家的支持,但是也有一些缺陷,训练数据时需要花费较多时间,对知识进行理解时也不是很智能,伸缩性和开放性也存在局限。
2 以机器学习算法为基础的GSM网络定位
(1)定位问题的建模。以支持向量机定位方式为基础,把定位区域栅格化,较小的栅格区域被抽象成类别,然后在定位区域中收集大量终端测量信息,如果要对移动终端进行定位,就需要利用计算对接收测量报告,然后对栅格内村练技术划分收集报告相似性或者距离度量,进而对待定位移动终端栅格进行判断,使用机器学习对这一分类现象进行求解。
(2)采集数据和预处理。此次研究仿真数据都来自某一周边长是10km的城市,在这一区域的内部有4个时间不同的短路,测量得出4批数据,为了确保以机器学习方法进行定位的有效性,把利用线所测的3批数据当做训练数据,最后得到的数据集当做定位数据,对这批数据周围10米内,有前3组训练数据的集中数据进行删除。在得到待定位的数据之后,需要把不同时间的间隔当做依据,对然后把一致通话内相邻的定位数据进行合并,求取出相同通话内同一基站接受电平与多个相邻定位数据的经纬度平均值。把这一数值作为新的定位数据,因为