大数据分析方法及应用初探①

由天下分享时间：2024/9/14 14:21:26 加入收藏我要投稿点赞

龙源期刊网 http://www.qikan.com.cn

大数据分析方法及应用初探①

作者：黄敏

来源：《科技资讯》2017年第18期

摘要：大数据在很多的行业和企业得到了应用，对大数据的研究和分析也受到了很多的学者的青睐。大量非结构化流式数据已成为大数据时代的主要数据形态，这给传统的数据处理系统架构带来非常大的挑战，必将使大数据处理系统渐渐由流程设计转变为数据设计。为此，该文主要从大数据分析的方法理论入手，对现今各行各业即将运用的大数据处理方法进行研究，总结出一种较适用的大数据分析方法及其应用，以供行业和企业在未来的业务活动中作参考。

关键词：预测分析大数据处理大数据应用数据挖掘

中图分类号：TP393 文献标识码：A 文章编号：1672-3791（2017）06（c）-0053-03 随着云计算、大数据、物联网和移动互联网等新一代信息技术的发展，传统企业级IT架构正在朝基于互联网的分布式新架构转型。大数据作为新一代信息技术的核心，正在使各个领域变得越来越可感知，并走向智能化。大数据将会发挥自身独特的优势，带给我们更多的方便和便捷。大数据分析的方法理论有哪些、在行业、企业的活动中有哪些应用。 1 大数据分析的五个基本要素 1.1 大数据预测性分析

大数据技术的主要应用是预测性分析，如在线教学资源网站通过数据分析用户会对推荐的教学模是否感兴趣，保险公司通过数据预测被保险人是否会违规，地震监测部门通过对大数据的分析，预测某地点发生地震的大致时间，气象部门利用数据预测天气变化等。预测是人类本能的一部分，通过大数据预测人类才可以获得有意义的、智能的信息。许许多多的行业应用都会涉及到大数据，大数据的丰富特征表述了快速增长的存储数据的复杂性。大数据预测分析打破了数据预测一直是象牙塔里数据科学家和统计学家的工作，伴随着大数据的出现，并融合到现有的MIS、MRPII、DSS 、CIMS和其他核心业务系统，大数据预测分析将起到越来越重要的作用。

1.2 数据管理和数据质量

大数据分析跟数据质量和数据管理紧密相关，而质量高的数据和有效的数据管理可以使分析结果有价值、真实并得到有力的保证。 1.3 可视化分析

龙源期刊网 http://www.qikan.com.cn

普通用户和大数据分析专家是大数据分析的直接使用者，因此他们对大数据分析的基本要求就是要可视化，因为他们想通过可视化分析获得可观的大数据特征，让用户直观看到结果。提高解释信息的能力可以通过数据的可视化展示来实现，而可视化展示主要由图形和图表来呈现。要从大量的数据和信息中找寻相关性非常的不容易，而图形或图表能够在短时间内展示数据之间的相关信息，并为用户提供所需的信息。 1.4 语义引擎

语义引擎是把现有的数据标注语义，其实可以把它理解为结构化或者非结构化的数据集上的一个语义叠迭层。它是数据分析及语义技术最直接的应用，好的语义引擎能够使大数据分析用户快而准地获得比较全面的数据。

数据分析的新挑战及困难主要表现在非结构化数据与异构数据等的多样性，必须配合大量的工具去分析、解析、提取数据。语义引擎的设计可以达到能够从文档中自动提取有用信息，使语义引擎能挖掘出大数据的特征，在此基础上科学建模和输入新的数据，来预测未来的可用数据。

1.5 数据挖掘算法

大数据分析的理论核心就是数据挖掘。各种数据的算法基于不同的数据类型和格式，能更加科学地呈现出数据本身的特点，能更快速地处理大数据。如果采用一个算法需要花好几年才能得出结论，那大数据价值也就无从说起了。可视化是给人看的，数据挖掘是给机器看的。集群、分割、孤立点分析还有其他的算法可以使我们深入挖掘数据内部的价值，并且这些算法能够处理大数据的数据量，也可以满足处理大数据的效率要求。 2 大数据处理方法

大数据处理技术在社会的发展中占有重要的地位，现在有很多的研究者对大数据处理技术进行研究，将大数据处理技术与交互设计结合，让交叉科学得到发展，计算机技术的进步，让交叉技术被广泛应用，并引起了很多人的重视，例如：计算机技术可以在艺术中被应用，进行色彩搭配，还可以将计算机技术应用到垃圾分类里，这些都是研究人员对计算机和交叉设计的结合。这种结合让设计学与计算机技术紧急的结合在一起，将传统的调研方式和测试方式应用到交叉科学领域，这种方法的研究可以为用户调研和测试方法提供依据，能够减少人工的成本。大数据处理方法其实有很多，笔者根据长时间的实践，总结了几种基本的大数据处理方法，如非结构数据处理法、自然语言处理法等，该文主要介绍非结构数据处理流程涉及到的主要方法和技术。非结构化数据处理流程主要以网页处理为例来阐述，包括3个阶段，分别是信息采集、网页预处理和网页分类。 2.1 信息采集

龙源期刊网 http://www.qikan.com.cn

信息采集主要是根据相关主题由固定的专业人士来完成，其采集的数据只能用于所针对的主题和相关的模块，出于对效率和成本的考虑完全不必对整个互联网进行遍历，因此，模块信息采集时往往需要研究以哪种方式预测链接指向的页面与主题的关联性，并测算其是否值得访问；然后研究以哪种相关策略访问Web，以在采集到主题相关页面的同时，尽可能地减少采集到主题无关的页面。

预先设定好种子链接是信息采集的基本方法，充分使用HTTP协议下载被访问的页面，运用分析算法对页面与主题的相关性进行分析，然后确定待访问的相关链接，预测可能指向主题相关页面的链接，最后循环迭代地运用不同的相关策略访问网页。 2.2 网页预处理

网页预处理最主要涉及到网页去重处理，网页去重可以归为两类：一类是基于URL的对比去重，它适用哈希算法；另一类是基于内容的对比去重，它适用基于信息指纹的文本相似度算法。

网页去重是先抽取文档对象的特征，再对文档内容进行分解，将文档的特征集合表示出来，然后有目的针对特征集合的压缩编码，通过将哈希编码等文本转为数字串映射方式，为后续的特征存储以及特征比较提供方便，这样可以起到减少存储空间，提高比较速度的作用，最后就是计算文档的相似度，此步需要根据文档特征重复比例来确定文档内容是否重复。一般是提取网页的某一个信息特征，通常是一组关键词，或者是关键词加权重的组合，调用相应的算法，转换为一组关键代码，也被称为指纹，若两个页面有大数量的相似指纹，那么可以预测这两个页面内容具有很高的重复性。 2.3 网页分类

网络时代，人类所面临的一个非常重要且具有普遍意义的问题就是网页分类。将网络信息正确分类，方便人们更好地使用网络资源，使杂乱无章的网络环境变得有条理。而网页分类一般是先对网页中的文本素材进行分类，通常采用文本分类来完成。文本分类主要应用于电子邮件分类、信息过滤、文献翻译、数据检索等任务，文本分类的一个关键问题是特征词的选择问题及其权重分配。

在搜索引擎中，文本分类主要有以下用途：相关性排序会根据不同的网页类型做相应的排序规则；根据网页是索引页面还是信息页面，下载调度时会做不同的调度策略；在做页面信息抽取的时候，会根据页面分类的结果做不同的抽取策略；在做检索意图识别的时候，会根据用户所点击的URL所属的类别来推断检索串的类别等。

网页分类方法有SVM分类方法和朴素贝叶斯方法，其中比较推荐的是支持向量机分类方法（SVM），该算法主要基于统计学理论及线性分类器准则之上，从线性可分入手，再扩展