数据挖掘技术在电子期刊及数字图书馆中的应用
摘要: 本文介绍了数据挖掘的概念及主要技术,数字图书馆个性化服务的含义,分析了数据挖掘技术在电子期刊及数字图书馆中的应用。 关键词: 数据挖掘;电子期刊;数字图书馆个性化服务
中图分类号:TP391 文献标识码:A 文章编号:1006-4311(2010)10-0155-02 0 引言
当前,随着网络技术的迅速发展,集信息资源的收集、创建、加工、服务和长期保存等于一体的数字图书馆因信息丰富,可实现真正意义上的资源共享,而且更新速度快等特点越来越受到人们的关注。不过拥有丰富信息的数字图书馆极容易陷入“数据丰富,但信息贫乏”的局面,因此,图书馆有必要增加对信息的处理能力以及对信息资源的组织能力,尤其是对海量信息的深层次开发,提取表面上庞杂无序的信息的内在联系供读者使用。因此,给图书馆提出了不少个性化要求。而利用数据挖掘技术因能为读者开展个性化服务,变被动服务为主动服务,因此在这个信息迅速发展的时代,有着重要的理论和实践意义。 1 数据挖掘的概念及主要方法
1.1 数据挖掘的含义 数据挖掘是指从数据及数据库中抽取隐含的、先前未知的并有潜在价值的信息的过程;也有人认为数据万巨额是数据库中的知识发现,是从大数据中集中快速高效地发现令人感兴趣的规则,数据挖掘是数据库知识发现中的重要技术,是数据库研究的新领域,它通过查询内容进行模式的总结和内在规则的搜索,帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。从而为决策行为提供有利的支持。
1.2 数据挖掘的主要方法 数据挖掘的工具和方法,常用的有:分类、聚类、关联分析、偏差检测、孤立点分析、模式识别、可视化、决策树、遗传算法、不确定性处理等。下面简要介绍一下我们用比较常用的方法:①分类②聚类③关联分析④偏差检测。
2 期刊服务形式的演变
2.1 传统期刊服务流程 传统期刊服务流程如图1所示。在期刊管理周期中,期刊征订有着极为重要的作用。合理的期刊定购能够保证在有限的采购经费下最大限度的满足学校的教学和科研工作的需要。影响期刊征订的因素很多,传统的征订工作是在初步调研的基础上,主要通过读者使用频率的统计和读者使用意见的反馈来决定后续的征订的工作。
2.2 期刊来源的演变 近年来,随着计算机技术和网络技术的迅猛发展,电子期刊作为一种新的期刊资源,由于其更新速度快,检索和索取方便,正日益成为图书馆期刊管理的重要方式之一。期刊馆藏按照其存储介质的不同,分为纸质期刊和电子期刊两大类。电子期刊按照其信息类型,主要分为联机型电子期刊、光盘型电子期刊和网络型电子期刊。电子期刊按照其发行文字又可分为中文期刊和外文期刊。中文期刊的适用面较广,征订费用相对较少,着名的中文期刊主要包括中国学术期刊、重庆维普和万方数据库,因此一般院校均已定购。外文数据库由于种类繁多,价格高昂,合理的征订方案往往难以确定。
2.3 使用新技术的必要性 目前,除少量综合性大学由于其学科齐全,资金雄厚,能够提供较为完善的电子期刊资源外,很多院校只是少数学科具备较强的科研实力,同时存在部分为适应国民经济和学校发展需要正在重点建设的学科。这
就要求图书馆在资金有限的情况下,既要考虑到各学科的平衡发展,又要为本校重点发展的学科提供尽量完善的电子期刊资源。对于部分高等院校而言,由于受资金、场地等因素的影响,纸质期刊的征订数量正呈下降趋势,而电子期刊的征订数量和占用资金则呈上升趋势。传统的期刊征订准备工作是在期刊和数据库订阅之前,采取问卷调查和座谈会的形式,图书管理人员根据学校学科建设和学科发展需要,向领域专家、有关教师和科研人员征求各自学科的权威期刊或引用较高的期刊名称和出版单位等信息。这种方式获取信息只是一种感性程度的不精确信息。电子期刊的征订准备工作主要依赖于数据库使用。数据库试用是在综合了各学科反馈信息和采购成本之后,通过数据库提供商的简单介绍和培训,有数据库供应方给本校教师和学生提供一段时间的试用,以确定该数据库是否适合本校的教学和科研工作。由于试用时间较短,参与试用的人员有限,对数据库的适合程度的评判往往存在着一定的不完全性。电子期刊使用过程的统计分析则显得更为困难。统计分析作为一个有效的分析工具,分析得到的只是一些表面信息,对于整个学校在使用数据库的过程中保存下来的庞大记录则显得无能为力,无法获知数据内在存在的各种关联。
3 据挖掘技术在期刊服务中的应用 3.1 基于数据挖掘的期刊服务模式架构
使用数据挖掘技术服务于期刊服务的流程示意图。在传统电子期刊征订前的用户需求信息搜集和数据库试用的基础上,充分利用用户在使用过程中留下大量浏览、搜索和下载记录。这些存储于服务器中的大量数据对于人而言只是抽象的数据,由于数量庞大,传统的统计方法所获得的各种报表形式的分析数据难以描述其中隐含的知识关联。数据挖掘技术主要任务就是挖掘大量数据中隐含的各种模式类型,从而为数据关联分析、聚类分析、演变分析以及各种数据分类和预测提供显式的知识表示形式,从而通过数据挖掘技术的使用,为更加科学高效的电子期刊征订工作提供一种有效途径。
3.2 基于数据挖掘的期刊服务模式提供的新服务
3.2.1 为期刊征订计划的修改提供直接的分析依据,利用数据挖掘技术,通过分析服务器中用户浏览和下载文献的记录,可以获取不同专业,不同层次人员使用数据库的偏好模式,从而可以为期刊征订工作提供直接的分析依据。
3.2.2 据用户检索和下载的文献记录,利用数据挖掘技术获取不同学科、不同专业人员的检索策略和下载记录,从而可以为后续用户的使用提供具有参考价值的检索策略和研究热点,提高检索效率,提升图书馆的服务质量。
3.2.3 使用数据关联分析和演变分析,获取适合本校教学与科研的相关数据,分析和预测不同期刊的贡献率,从而为更加科学的征订和使用数据库提供帮助。数据挖掘技术作为一门新兴的交叉学科,在商业、金融等领域已有成功应用的范例。数据挖掘技术是一项正在发展的复杂技术,将其用于期刊管理,应该结合具体的使用目标,根据用户的具体要求逐步开发。尽管数据挖掘技术仍然面临着许多有待完善的地方,但是随着技术的不断发展和电子期刊的大量使用,数据挖掘将对提升图书馆期刊管理和服务质量产生积极影响。 4 个性化服务的概念及方式
4.1 数字图书馆个性化服务的概念 数字图书馆的个性化服务在整个数字图书馆系统中是很关键的部分,如同网络向智能化方向发展一样,信息服务也应“智能化”,即由被动服务转向主动服务,由单纯的信息提供转向信息生成。数字图书馆的个性化服务主要表现为个性化和主动性两个方面。
4.2 数字图书馆个性化服务方式
4.2.1 个人书架 个人书架是数字图书馆按读者的个性化需求建立的信息资源库,也就是读者的私人数据库。个人书架中分类保存了读者经常阅读的资源、历史访问信息资源、定制、推送信息资源以及历史访问关键字等信息。
4.2.2 检索个性化 根据为读者建立的档案及历史访问信息等挖掘读者兴趣,在不同类型的读者检索时,对于相同的检索条件输入,返回分别满足各类读者需求的结果。
4.2.3 分类定制 到目前为止,分类定制服务依然是个性化服务的主流,分类定制是指用户可以按照自己的需求,自己设定信息的资源类型,表现形式,选取特定的系统服务功能等。
4.2.4 信息推送 信息推送服务是运用推送技术实现的一种个性化服务,它的最大的特点是能实现用户一次输入请求,定期不断的接收到最新的信息。
4.2.5 智能代理服务 通过跟踪用户在网上的活动,自动捕捉用户的兴趣和爱好,不需要或很少需要用户干预和指导,主动搜索用户感兴趣的信息并提供给用户。
4.2.6 垂直门户服务 对网上的某个专题信息的进行集成、识别、筛选、过滤、控制、描述与评论,组织目录或索引提供源站点地址。立足于提供某一领域的精品服务,更好地满足用户基于某个专业深入的信息需求,从而提供个性化高质量的服务。
5 数字图书馆个性化服务系统结构
6 利用数据挖掘技术构建数字图书馆个性化服务系统的具体步骤
6.1 收集读者信息 挖掘读者需求对用户数据的挖掘主要有两方面的内容:①如何提取用户地信息需求,②获得用户需求数据后如何利用挖掘技术对这些数据进行处理。
6.1.1 直接调查法 采用该方法所获得的用户信息具有详细、可靠、具体的特点。a)用户注册。 利用读者在系统中注册时输入的个人信息。通过这一途径需要注册表格的设计既全面系统,又简单明确。b)用户定制数据。在个性化信息服务中,读者可以通过网络进行个性化服务内容定制,读者自己定制的数据在一定程度上反映了用户的个性化信息需求。
6.1.2 跟踪用户的行为推测用户兴趣 利用这一方法不需要读者主动配合,只要记录读者访问服务器时在服务器上留下的日志文件,包括访问者的IP地址、用户标识、被存取的URL地址、存取访问时间等一些关于用户连接的物理信息,对这些信息进行分析,就能够了解用户的来源,用户的访问路径和用户的兴趣爱好。 6.2 数据预处理和数据转换构建元数据库 对收集到的数据进行采样,并对数据进行清理,修改错误的记录,删除不相关的记录,找到数据的特征,用维变换或转换方法减少有效变量的数目,找到数据的不变式,然后就可以把用于挖掘的数据放入一个独立的用户个性化原始信息数据库中,并进行定期的备份和动态更新。
6.3 分析数据 在挖掘数据库建立以后,就要对数据库中的数据进行分析处理。 6.4 用户兴趣关联规则 关联规则生成可用于找出在某次服务器会话中最经常一起出现的相关网页。在使用挖掘中,发现的关联规则往往是指支持度超过预设访问阈值的一组网页,这些网页之间可能并没有超链接直接访问。
6.5 测试 测试是为了评价模型的实用性和有效性。可以从原始信息数据库中拿出一定百分比的数据作为测试数据,对建立的模型进行测试。通过模型给出的
结果和原始数据信息进行比较,测量出模型的准确率。 7 结束语
数字图书馆个性化服务能有效解决“认知过载”和“迷航”问题,改变了图书情报机构以往“我提供什么用户就接受什么”的运作模式,开创了“用户需要什么我就提供什么”的发展思路。个性化服务是未来数字图书馆技术发展的主要趋势。数据挖掘技术因其在海量信息资源中的智能表现,能为数字图书馆的个性化服务建设提供不可或缺的技术支撑,并将日益显示出强大的发展潜力和广阔的应用前景。 参考文献:
[1]曹美琴.数据挖掘在图书馆个性化服务中的应用研究[D].西北大学,2008.
[2]臧玉英.数据仓库技术在现代化图书馆中的应用[J].科技情报开发与经济,2008,(07).
[3]张晖.数据挖掘技术在图书采购中的应用初探[J].科技信息(学术版),2006,(03).
[4]于光,王菁.网络环境下的高校图书馆信息咨询服务[J].国家图书馆学刊,2003,(04).
[5]邵晓红.数据挖掘技术在高校图书馆中的应用[J].鄂州大学学报,2007,(02). [6]张菽,刘春红,敬卿.数据仓库的建设与数据挖掘技术浅析[J].高校图书馆工作,2000,(03).
[7]朱理达.图书馆信息管理与数据挖掘技术[J].河南图书馆学刊,2002,(03). [8]杨玉麟,曹美琴.论数据挖掘与公民信息隐私权的冲突与调适[J].河南图书馆学刊,2007,(05).
[9]袁长河,吴永明.基于数据仓库的决策支持系统研究与建设[J].计算机工程与应用,2001,(16).
[10]王向辉,匡晓宁,刘伟达,亢建波.数据挖掘技术及其在决策支持系统中的应用[J].计算技术与自动化,2004,(04).
[11]游星雅,杨清.一个基于网络的智能个性化学习系统的设计与应用[J].计算机工程与科学,2006,(07).
[12]叶新友,晁成春.数据挖掘技术在高校图书馆中的应用[J].新世纪图书馆,2005,(01).
[13]赵嘉凌.数据挖掘在数字图书馆中的应用研究[J].计算机与网络,2005,(10). [14]邵晓红.数据挖掘技术在高校图书馆中的应用[J].鄂州大学学报,2007,(02). [15]王新筠.数据挖掘技术在图书馆自动化管理系统中的应用[J].科技情报开发与经济,2007,(26).