大数据中的数据预处理技术分析

由天下分享时间：2024/9/14 10:22:49 加入收藏我要投稿点赞

龙源期刊网 http://www.qikan.com.cn

大数据中的数据预处理技术分析

作者：王梓吉

来源：《中国科技纵横》2019年第02期

摘要：信息技术的快速发展，为数据的采集和分析提供了有力的技术基础，作为数学与计算机学科的交叉方向，大数据技术的发展和应用价值已经得到人们的认可。本文结合大数据技术的数据预处理需求，从数学角度阐述了数据预处理的方法，从分析结果可知，选取科学合理的数学处理算法可以为数据价值挖掘提供高质量的数据源，这也是今后数据学科所要解决的关键科学问题。

关键词：大数据;预处理;抽象数据;归一化处理

中图分类号：TP311.13 文献标识码：A 文章编号：1671-2064（2019）02-0028-02 随着大数据技术的发展与应用，对数据处理的需求越来越多，其应用价值也十分明显，大数据处理技术是应用数学与计算机技术的一个交叉领域，其主要目的是将大量数据进行深度分析，进而实现对其潜在的价值挖掘[1]。但是在数据采集过程中，由于设备精度、环境影响以及人为失误等造成一些数据属性缺失、记录错误、噪音污染等，所得到的质量不高的数据，被行业称为“脏数据”。如果不对这些数据进行提前处理，会导致后续的数据挖掘与分析不够精确，以至于影响数据分析结果的应用[1-2]。

因此，對数据预处理是大数据技术应用的关键环节。本文正是基于实际存在的“脏数据”问题，从数学应用的严谨性出发，深入地阐述数据预处理方法，为得到科学合理的数据分析结果奠定技术基础。 1 大数据技术 1.1 概念

在《大数据时代》中所提到的大数据技术，是指不用传统的随机理论进行数据分析，而采用对所有数据进行统一的分析处理的方法，这给数据处理带来了挑战，主要集中在数据量很大，要求采用处理速度快的一些数学处理方法[1]。

信息技术是大数据时代的基础，该技术的发展与应用已经使得众多领域发生一些技术革命。由于实际生产生活中，产生并积累了大量的数据，而数据又潜在地表征了过程的特性，可见，一旦通过科学合理的数据处理方法，其内在价值将会得到挖掘，进而用于优化、控制与决策，深层次地发挥数据的价值。大数据由于其样本量大、精准度高、科学性优异，同时，大数

龙源期刊网 http://www.qikan.com.cn

据处理技术具有高速度、多样化、高价值和真实性等特点，已经为人们所接受，并逐步得到应用。

1.2 大数据技术的处理流程

按照现有通常的大数据处理技术，一般的数据处理流程如图1所示[1-3]。

从图1中可知，第一步是数据的采集与收集，这是数据大数据的源端，主要依赖于信息技术，如传感器网络实现对数据的采集。第二步是数据的预处理，由于现实采集的数据存在诸如缺陷、不规则、抽象性等问题，必须经过预处理后才能进行计算分析，这也是本文的重点研究内容。第三步是对得到的规则的数据矩阵进行存储。第四步是数据的分析，借助特定模型进行数据价值分析。第五步是对结果进行展示，也是数据价值表现的关键步骤。

从整个大数据的处理流程来看，数据预处理技术的水平决定了数据的真实性、完整性，对后续的数据分析起到十分关键的作用，在预处理环节用到很多的数学方法，本文接着重点阐述大数据预处理环节的相关数学变换与数学分析方法。 2 数据预处理技术分析[3] 2.1 需求分析

在大数据背景下，数据的收集过程中会产生诸多问题，例如测量收集设备精度不足、数据传输过程受到环境干扰、数据内有环境噪音、手工输入的误操作等多种情况。将会形成引言中所提到的“脏数据”。这些原始数据，将存在如下系列问题。

（1）杂乱。数据仅存放于数据集中，缺乏统一性的量化标准与转化标准，不利于数据的量化可视化分析。例如学校内有关学生对老师喜爱程度的调查中，“喜爱”、“一般”等名词便无法用于数据分析与处理。这类数据通常将通过归一化处理进行量化与分类整理。（2）重复。数据间拥有多个相同的物理描述与性质，特别的，对于要分析的数据方向存在重叠，将构成数据的重复与冗余数据的堆积。这将不利于样本的分析。例如在数据输入时，对同一实体输入了多次便会导致数据重复。（3）模糊。在实验模型或实际系统的设计中不可避免的存在一些漏洞与缺陷，导致实体属性不清晰或错乱。（4）缺失。数据传输或记录过程中出现错误，导致数据缺失。

由于数据集的复杂性，数据的正确性及有效性将极大地影响挖掘学习的准确性和有效性。所以对数据进行预处理就成为了分析前的重要工作。数据的预处理方法多种多样，例如数据清洗、数据选样、数据变换等。 2.2 数据清洗

龙源期刊网 http://www.qikan.com.cn

现实中采集到的数据由于存在各种问题，一般都是不能直接用于价值分析的，这些不确定数据将严重影响大数据数据分析的准确性，严重时更会使分析结果失去实际意义，因此需要按照特定目的进行预处理。而数据清洗主要是针对那些不符合规则数据进行处理，如重复数据项、噪声数据项和缺失数据项等，对应的处理方法如图2所示。

重复数据会导致数据挖掘模式变化，因此必须给予剔除，但是如何有效检测重复数据需要良好的数据分析算法，如采用基于排序-合并原理的基本紧邻排序算法SNM是经常使用的一种高效检测算法。噪声数据是指那些异常数据不在合理范围的数据，常借助周围数据进行平滑处理，如进行平均值处理等类似分箱方法进行有效预处理。

在实际的生产生活中，不可避免的会在数据中产生大量的空缺值，这是现实世界所产生的数据集的特点，因此只能通过特定算法来尽量弥补误差。常见的缺失值预处理方法有：（1）直接删除空白的数据项。这种方法的优势显而易见，效率高技术含量低。但是对于样本容量并不足够大的数据集，就会造成极大的偏差。样本标准差σ=其中。显然对于N不够大的样本，删除空白数据项会使μ和σ产生较大的误差。（2）利用填充技术填充缺失值。由于直接删除空缺值将有较大可能对数据造成不可逆的损伤，所以将运用填充算法补全数据，这样不易产生偏差。

1）统计方法：根据标准的正态分布我们可以知道，可以采用数据的算术平均值代替空缺值，这是最简单也是最常用的方法。2）分类方法：面对庞大的数据集，可以先将其分类再对较小的进行分析研究。具体方法有“贝叶斯网络法”、“神经网络法”、“K-NN法”和“粗集理论法”等。分类方法对样本训练都有较好的包容性，但是容易产生过度学习的现象，需要多设置测试样本运用更多的算法检测挖掘，在此不作过多介绍。3）关联方法：先使用迭代的方法找出所有满足频繁的、精确的可能规则的集合。之后利用启发式构造分类。4）聚类方法：聚类方法已经成为数据挖掘的重要技术之一，成为了知识挖掘的核心方法。聚类的思想是将相同的实例聚到一个集合里，将不相似的聚到另外的集合中。

对于所有聚类对象，有E=，d（a，b）=。其中E表示所有对象的平方误差的和，mi是Ci的平均值，d是两个属性间的距离。当然也可以通过这些公式和另外一些复杂的算法得出聚类间的相似度，在此不作过多论述。 2.3 数据选样

数据选样分为简单随机选样和分层选样两种，是数学中典型的概率统计问题。其中简单随机选样包括无放回选样与有放回选样，简单随机选样的算法容易实现，利用中学中的排列组合与概率知识配合编程知识就可以进行操作，门槛较低，应用广泛。分层选样得到的数据子集对于数据挖掘更优。