好文档 - 专业文书写作范文服务资料分享网站

基于Web数据挖掘技术研究

天下 分享 时间: 加入收藏 我要投稿 点赞

基于Web数据挖掘技术研究

刘艳慧,雷英杰

【摘 要】Web数据挖掘是数据挖掘中的一个新的重要研究领域。介绍了基于Web的数据挖掘的概念与特点,对Web挖掘的主要内容进行了阐述,提出了Web挖掘中常用的解决方法以及数据挖掘的过程。同时,对数据挖掘过程中面临的问题进行了分析和研究,提出了相应的解决方案并且举例进行了证明。 【期刊名称】现代电子技术 【年(卷),期】2007(030)009 【总页数】2

【关键词】Web;数据挖掘;数据库;公共信息提取

1 引 言

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。随着信息技术的高速发展,人们积累的数据量急剧增长,动辄以TB计,如何从海量的数据中提取有用的知识成为当务之急。数据挖掘技术就是为顺应这种需要应运而生的数据处理技术。数据挖掘技术与统计学、数据库技术、数据库知识发现等学科有着密切的联系。数据挖掘主要研究内容包括广义知识、关联知识、分类知识、聚类知识、预测型知识和偏差型知识。使用关联分析、分类和聚类分析、神经网络、决策树和规则推理等技术进行挖掘。

随着Internet的日益普及,人们通过Web接触到了比以前多得多的数据和信息。然而,尽管Web上有海量数据,但由于Web页面的过于复杂,而且是无结构、动态的,导致人们难以迅速、方便地在Web上找到所需要的数据和信

息。在面临如此庞大的信息空间以及Web组织无序化的情况下,搜索是解决网络信息无序和混乱的一个基本方法,现代社会的竞争趋势要求对这些信息进行实时和深层次的分析,因此,如何利用数据挖掘的知识,进一步提高Web信息搜索的性能成为众多学者研究的热点。

2 基于Web数据挖掘技术概述

Web数据挖掘,简称Web挖掘,是数据挖掘技术在Web环境下的应用,是Web技术、数据挖掘技术、计算机技术、信息科学等多个领域的集合。Web数据挖掘是从大量的Web文本集合和在站点进行浏览的相关数据中发现蕴涵的、未知、有潜在应用价值的、非平凡的模型(pattern)的过程。Web信息检索是从信息检索技术发展过来的,本质特征是系统对Web文档集合和用户的需求的匹配和选择。从本质上讲,Web挖掘就是利用数据挖掘技术从Web文档和服务中自动发现和抽取知识。 2.1 基于Web数据挖掘技术的特点

与传统挖掘技术所面临的数据相比,Web挖掘的数据具有以下特点:

(1) 对有效的数据仓库和数据挖掘而言,Web似乎太庞大了。Web的数据量迅速地增长,这使得几乎不可能去构造一个数据仓库来复制、存储或集成Web上的所有数据。

(2) Web页面的复杂性高于任何传统的文本文档。Web页面缺乏统一的结构,他包含了远比任何一组书籍或文本文档多得多的风格和内容。

(3) Web是一个动态性极强的信息源。Web不仅以极快的速度增长,而且其信息还在不断地发生着更新。

(4) Web面对的是一个广泛的形形色色的用户群体。

2.2 Web数据挖掘的主要内容 Web挖掘研究的主要内容如下:

(1) 个性化特征及推荐系统。解决挖掘中顾客的个性规律。通过Web日志文件中的浏览数据来挖掘顾客的浏览个性,并用这些有价值的数据来提高顾客对网站的浏览效率。

(2) 挖掘框架体系及案例研究。 (3) 用户浏览分析。

3 基于Web数据挖掘的方法

在通常情况下,数据挖掘的流程主要包括以下几步:定义问题、数据准备、数据挖掘、结果分析。常用的数据挖掘方法有:神经网络方法、遗传算法、决策树方法、粗集方法、覆盖正例排斥反例方法、统计分析方法以及模糊集方法。 根据Web数据挖掘技术的特点,其数据挖掘过程主要包括两部分: (1) 离线部分:进行数据预处理、总体特征提取。 (2) 在线部分:推荐引擎。

因此,基于Web数据挖掘技术主要从数据预处理、总体特征提取以及引擎推荐3方面进行考虑。

3.1 数据预处理与总体特征提取

由于网络上的数据的不完整性、不一致性、含噪声,所以要进行数据预处理。数据预处理的主要目的是消除数据的不一致性、噪声,消除数据的重复性,从而从文本数据和元数据中抽取内容特征。内容特征权重的计算方法:元数据的权重由商业网站的设计者提供,文本内容特征的权重则是由词频确定。 数据预处理的结果是将浏览页集合P与用户事务集合T之间的关系表示为,对

基于Web数据挖掘技术研究

基于Web数据挖掘技术研究刘艳慧,雷英杰【摘要】Web数据挖掘是数据挖掘中的一个新的重要研究领域。介绍了基于Web的数据挖掘的概念与特点,对Web挖掘的主要内容进行了阐述,提出了Web挖掘中常用的解决方法以及数据挖掘的过程。同时,对数据挖掘过程中面临的问题进行了分析和研究,提出了相应的解决方案并且举例进行了证明。【期刊名称】现
推荐度:
点击下载文档文档为doc格式
5ljuj6iazb3blzb1bwa62p7v43zg7t00hvb
领取福利

微信扫码领取福利

微信扫码分享