好文档 - 专业文书写作范文服务资料分享网站

Rabin指纹去重算法在搜索引擎中的应用

天下 分享 时间: 加入收藏 我要投稿 点赞

Rabin指纹去重算法在搜索引擎中的应用

贺建英

【期刊名称】《计算机系统应用》 【年(卷),期】2015(000)007

【摘要】针对搜索引擎在海量数据中搜索速度慢,占用存储空间大,对重复的网页去重性差的现状,提出一种基于Rabin指纹算法的去重方法,不仅对搜索到的URL地址进行去重,还对非重复URL地址对应的网页内容进行相似和相同的去重,试验表明能有效地提高搜索速度、节省存储空间,增强搜索的精度。%The existing search engine of massive data takes up large memory, needs much time and provides results of great duplication rate. To overcome these disadvantages, this paper proposes a duplication removal method based on the Rabin Fingerprint method, which cannot only remove the duplicated URL, but also remove the same even similar website content on different URL so that it can speed up the searching speed, save the memory capability and improve the accuracy of the research.

【总页数】4页(128-131)

【关键词】Rabin指纹方法;搜索引擎;去重;URL;海量数据 【作者】贺建英

【作者单位】四川文理学院计算机学院,达州 635000 【正文语种】中文 【中图分类】

【相关文献】

1.基于搜索引擎排序算法的搜索引擎优化方法探讨 [J], 黄元铨 2.搜索引擎结果去重Agent系统 [J], 魏常丽; 刘玉玲 3.搜索引擎结果去重Agent系统 [J], 魏常丽; 刘玉玲 4.搜索引擎检索中的问题与新一代搜索引擎展望 [J], 陈俊嵋

5.搜索引擎:互联网的海上之舟——2001年搜索引擎热点问题回顾 [J], 庚晋; 周洁; 等

以上内容为文献基本信息,获取文献全文请下载

Rabin指纹去重算法在搜索引擎中的应用

Rabin指纹去重算法在搜索引擎中的应用贺建英【期刊名称】《计算机系统应用》【年(卷),期】2015(000)007【摘要】针对搜索引擎在海量数据中搜索速度慢,占用存储空间大,对重复的网页去重性差的现状,提出一种基于Rabin指纹算法的去重方法,不仅对搜索到的URL地址进行去重,还对非重复URL地址对应的网页内容进行相似和相同的
推荐度:
点击下载文档文档为doc格式
6exwk5su5m86wqu5roq73pebe0ioab00llx
领取福利

微信扫码领取福利

微信扫码分享