数据挖掘相关论文

由天下分享时间：2024/12/22 18:40:46 加入收藏我要投稿点赞

数据挖掘论文

题目：数据挖掘技术在电子商务中的应用系别：计算机学院专业： 11网络工程1班学生姓名：黄坤学号： 1110322111 指导教师：江南

2014年 11月06 日

数据挖掘技术在电子商务中的应用

一、研究原因

电子商务在现代商务活动中的正变得日趋重要，随着大数据时代的到来，商务信息显得尤为重要，在电子商务中谁掌握了有利的市场信息，谁就能在这个竞争激烈电商行业中占据绝对的优势。而数据挖掘技术是获取信息的最有效的技术工具。本文讨论了数据挖掘的主要方法，具体阐述了数据挖掘技术在电子商务中的作用及应用。

在信息经济时代，对企业来说，谁对市场变化反应速度快，谁将在激烈的市场竞争中占据有利的地位，竞争的结果最终将促使企业价值从市场竞争输家转移到赢家，这样就使企业面临一个问题：如何才能把大量的数据资源，转化成自身价值呢？要想使数据真正成为一个公司的资源，只有充分利用它为公司自身的业务决策和战略发展服务才行，否则大量的数据可能成为包袱，甚至成为垃圾。因此，面对“人们被数据淹没，人们却饥饿于知识”的挑战，数据挖掘和知识发现(DMKD)技术应运而生，并得以蓬勃发展，越来越显示出其强大的生命力。

二、2.1 国内研究现状

KDD（从数据库中发现知识）一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议上。迄今为止,由美国人工智能协会主办的KDD已经召开了7次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到七八百人,论文收录比例从2X1到6X1,研究重点也逐渐从发现方法转向系统应用,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议题之一,成为当前计算机科学界的一大热点。此外,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了KDD专题或专刊。IEEE的Knowledge and Data Engineering 会刊领先在1993年出版了KDD技术专刊,所发表的5篇论文代表了当时KDD研究的最新成果和动态,较全面地论述了KDD 系统方法论、发现结果的评价、KDD系统设计的逻辑方法,集中讨论了鉴于数据库的动态性冗余、高噪声和不确定性、空值等问题,KDD系统与其它传统的机器学习、专家系统、人工神经网络、数理统计分析系统的联系和区别,以及相应的基本对策。6篇论文摘要展示了KDD在从建

立分子模型到设计制造业的具体应用。不仅如此,由美国人工智能学会主办的KDD国际研讨会规模由原来的专题讨论会发展到国际学术大会，研究重点也逐渐从发现方向转向系统应用，注重多重发现策略和技术集成，以及多种学科之间的相互渗透，并且有很多学校和科研机构也正投入大量资金进行数据挖掘技术的进一步开发和深入研究。国内对数据挖掘的研究稍晚，没有形成整体力量。但是国内的高校，例如清华大学、中科院计算机技术研究所等，都已开展了不同程度的知识发现的基础理论及其应用研究。其中，北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究。与国外相比，我国对数据挖掘领域的研究仍处于初级阶段，绝大多数工作集中于局部算法设计，进行综合的系统集成设计却寥寥无几。由于核心技术的欠缺，使得数据挖掘在国内一些领域只是初步应用，如银行、金融、GIS等领域。所以研究数据挖掘技术，并将其应用到科研、经济、教育等领域的重要性是可见一斑的。

电子商务（E-Commerce）是以指利用电子数据交换（Electronic Data Interchange，EDI）、电子邮件（E-mail）、电子资金转账（Electronic Funds Transfer，EFT）和Internet等主要技术在个人、企业和国家之间进行无纸化的信息交换，包括商品信息及其订购信息、资金信息及其支付信息、安全及其认证信息等，即以现代信息技术为手段，以经济效益为中心的现代化商业运转模式。其最终目标是实现商务活动的网络化、自动化与智能化。

随着Internet的迅速发展，电子商务的应用不断深入。在电子商务应用系统中，相关的用户数据日益增多，数据挖掘技术具有从大量复杂数据中发现特定规律的能力。商业电子化的趋势不仅为客户提供了便利的交易方式和广泛的选择，同时也为商家提供了更加深入了解客户需求信息和购物行为特征的可能性。

2.2 数据挖掘技术

2.2.1 统计技术

统计技术对数据集进行挖掘的主要思想是：统计的方法对给定的数据集合假定了一个分步或者概率的模型（比如一个正态分布），然后根据模型采用相应的方法进行挖掘。

2.2.2 关联规则

数据关联是数据库中存在的一类很重要的可以发现的知识。若两个或者多个变量的取值之间存在某种规律性，就成为关联。关联可分为简单关联，时序关联，因果关联。关联分析的目的是找出数据库中隐含的关联网，优势并不知道数据库中的关联函数，即使知道也是不确定的，因此关联分析生成的规则带有可信度。

2.2.3 基于历史的分析MBR（Memory-based Reasoning）

MBR的本质是：现根据经验知识寻找相似情况，然后再将这些情况的信息应用于当前的例子中。使用的三个问题是：寻找确定的历史数据；决定表示历史数据的最有效方法；决定距离函数、联合函数和邻近的数量。

2.2.4 遗传算法GA（Genetic Aigorithms）

该算法是基于进化理论，并采用遗传结合、遗传变异及自然选择等方法优化结果。主要思想是：根据适者生存的原则，形成由当前群体中最适合的规则组成新的群体，以及这些规则的后代。规则的适合度（Fitness）是对训练样本分类准确性的评估。

2.2.5 聚集检测

将物理或者抽象对象的集合，分组成为由类似的对象组成的多个类的过程被成为聚类。在由聚类生成的数据对象集合中，这些对象具有相似性，并与其他集合中的对象具有相异性。这种相异度是根据描述对象的属性值来计算的，距离是经常被采用的度量方法。

2.2.6 连接分析

它的基本理论是图论，图论的思想是寻找一个可以得出好的结果但不是完美结果的算法。这种不完美但是可行的思想模式，可以使之运用到更广的用户群中。

2.2.7 决策树

决策树是能够被看成一棵树的预测模型。树的每个分支都是一个分类的问题，内部节点表示在一个属性上的测试，树叶代表类或者分布。

决策树算法是目前应用最广泛的归纳推理算法之一，是一种逼近离散值函数的方法，也可将它看作是一个布尔函数。它是以实例为基础的归纳学习算法，通过对一组训练数据的学习，构造出决策树形式的只是表示，在决策树的内节点进行属性值的比较并根据不同的属性值判断从该节点向下的分枝，从而在决策树叶节点得到结论。所以从根到叶节点的一条路径就对应着一条规则，整棵决策树就对应着一组吸取表达式规则。

2.2.8 神经网络

神经网络是指由大量神经元互联而成的网络，类似于服务器互联而成的因特网。它主要由“神经元”的互联，或按组织的结点构成。通常神经网络模型由三个层次组成：输入层，中间层，输出层。

在神经元求得输入值后，再汇总计算总输入值；由过滤机比较总输出值，确定网络的输出值。可以通过模拟判断，来不断修正计算的“权值”来达到学习的目的，增加判断的正确性。

2.2.9 粗糙集

粗糙值是一种研究不确定性问题的工具，它根据已有的给定问题的知识，对问题论域进行划分，然后对划分后的每个组成部分确定其对某个概念的支持程度。它用于从数据库中发现分类规则的基本思路是将数据库中的属性分为条件属性和结论属性。对数据库中的元组根据各个属性不同的属性值分成相应的子集，然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。

2.2.10 回归分析

推荐度：

点击下载文档文档为doc格式

数据挖掘相关论文

数据挖掘相关论文

相关推荐文档

精选图文

热门排序

推荐文章

热门标签

相关文章列表