好文档 - 专业文书写作范文服务资料分享网站

全文搜索引擎的设计与实现毕业论文

天下 分享 时间: 加入收藏 我要投稿 点赞

. .. .

全文搜索引擎的设计与实现毕业论文

目录

1 绪论 ................................................................................ 1 1.1 课题背景及介绍 .................................................................... 1 1.2 课题研究目的及应用 ................................................................ 1 1.3 课题研究围 ........................................................................ 1 1.4 小结 .............................................................................. 2 2 搜索引擎相关理论研究 ................................................................. 3 2.1 WEB搜索引擎原理和结构 ............................................................. 3 2.1.1 搜索引擎三段式工作流程 ........................................................ 3 2.1.2 搜索引擎整体结构 .............................................................. 4 2.2 网页收集 .......................................................................... 5 2.1.2 爬虫的工作流程 ................................................................ 5 2.1.3 爬虫的抓取策略 ................................................................ 5 2.1.4 数据库的建立 .................................................................. 6 2.1.5 数据库的更新 .................................................................. 6 2.3网页预处理 ........................................................................ 6 2.3.1 建立索引页面库 ................................................................ 7 2.3.2 分词 .......................................................................... 9 2.3.3 倒排索引 ..................................................................... 10 2.4 查询服务 ......................................................................... 12 2.4.1 查询方式和匹配 ............................................................... 13 2.4.2 结果排序 ..................................................................... 13 2.4.3 文档摘要 ..................................................................... 14 2.5 小结 ............................................................................. 15 3 NUTCH相关框架研究 .................................................................. 16 3.1 LUCENE研究 ........................................................................ 16 3.1.1 Lucene概述 ................................................................... 16 3.1.2 Lucene如何对索引进行搜索 ..................................................... 16 3.1.3 Lucene增删改索引的API ....................................................... 17 3.2 NUTCH研究 ......................................................................... 21 3.2.1 Nutch概述 .................................................................... 21 3.2.2 研究Nutch的原因 ............................................................. 21 3.2.3 研究Nutch的目标 ............................................................. 22 3.2.4 Nutch和 Lucene比较 .......................................................... 22 3.2.5 Nutch常用命令 ................................................................ 22 3.3 SOLR研究 ......................................................................... 28 3.3.1 Solr概述 ..................................................................... 28

.参考资料.

. .. .

3.3.2 Solr索引 ..................................................................... 29 3.3.3 Solr搜索 ..................................................................... 30 3.3.4 Lucene索引查看工具Luke ...................................................... 31 3.4 HADOOP研究 ........................................................................ 33 3.4.1 Hadoop概述 ................................................................... 33 3.4.2 Hadoop单机本地模式 ........................................................... 34 3.4.3 Hadoop单机伪分布式模式 ....................................................... 34 3.5 小结 ............................................................................. 37 4 全文搜索引擎系统分析与技术选型 ...................................................... 37 4.1 系统目标需求 ..................................................................... 37 4.2 系统功能项 ....................................................................... 37 4.3 可行性分析与决策 ................................................................. 38 4.3.1 技术可行性 ................................................................... 38 4.3.2 经济可行性 ................................................................... 39 4.4 小结 ............................................................................. 39 5 全文搜索引擎系统设计与实现 .......................................................... 40 5.1 系统功能图 ....................................................................... 40 5.2 系统实体设计 ..................................................................... 41 5.2.1 实体 ......................................................................... 41 5.2.2 实体的属性 ................................................................... 42 5.2.3 实体间的联系 ................................................................. 42 5.3 系统实现 ......................................................................... 43 5.3.1 系统需要的环境 ............................................................... 43 5.3.2 系统中Nutch的配置 ........................................................... 43 5.3.3 对整个网络进行抓取 ........................................................... 44 5.3.4 Solr安装配置和使用 .......................................................... 48 5.3.5 给Solr 4.2添加mmseg4j ....................................................... 48 5.3.6 客户端应用程序的实现 ......................................................... 50 5.4 小结 ............................................................................. 56 6 全文搜索引擎系统评价 ................................................................ 57 6.1 系统特色 ......................................................................... 57 6.2 系统存在的不足和解决方案 ......................................................... 57 6.2.1 系统存在的不足 ............................................................... 57 6.2.2 改进措施 ..................................................................... 58 6.2.3 毕业设计心得与收获 ........................................................... 58 7 结束语 ............................................................................. 59 致谢 ................................................................................. 60 参考文献 ............................................................................. 61

.参考资料.

. .. .

1 绪论

1.1 课题背景及介绍

随着互联网的快速发展,越来越丰富的信息呈现在用户面前,但同时伴随的问题是用户越来越难以获得其最需要的信息。为了解决此问题,出现了网络搜索引擎。网络搜索引擎中以基于 WWW 的搜索引擎应用围最为广泛。网络搜索引擎是指对WWW站点资源和其它资源进行索引和检索的一类检索机制。 全文搜索引擎是目前最为普及的应用 ,通过从互联网上提取各个的信息(以网页文字为主)建立数据库,用户查询的时候便在数据库中检索与用户查询条件相匹配的记录,最终将匹配的那些记录,按一定的排列顺序显示给用户。国外具代表性的全文检索搜索引擎有 Google、 Yahoo、 Bing等 ,国著名的有百度、中搜等。

目前网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情。建立搜索引擎就是解决这个问题的最好方法之一。该课题要求设计一个Web应用程序,学习搜索引擎的基本原理和设计方法,应用开源的全文搜索引擎Lucene框架和Lucene的子项目Nutch实现一个全文搜索引擎。

1.2 课题研究目的及应用

针对搜索引擎广阔的应用前景以及分析国外搜索引擎的发展现状,根据搜索引擎系统的工作原理设计一种基于Internet的全文搜索引擎模型,它从互联网上获取网页,建立索引数据库,并采用数据库管理作业和多线程技术以提高全文搜索的性能和效率,从技术上可以适用于任何有全文搜索需求的应用。

1.3 课题研究围

一般来说搜索引擎都由:用户接口,搜索器,索引生成器和查询处理器4个部分组成。

用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。

.参考资料.

. .. .

搜索器用于WWW的遍历和网页的下载。从一个起始URL集合开始,顺着这些URL中的超链(Hyperlink),以宽度优先、深度优先或启发式方式循环地在互联网中发现信息。

索引生成器对搜索器收集到的网页和相关的描述信息经索引组织后存储在索引库中。

查询处理器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价, 对将要输出的结果进行排序,并实现某种用户相关性反馈机制。

1.4 小结

本章容主要介绍了课题背景,课题目的,及课题的研究方法与容这些方面。阐述了搜索引擎在显示应用中的重要性,目前全文搜索引擎的工作组成部分以及各个工作组成部分到底是什么。下面将具体介绍全文搜索引擎的相关理论,使读者全文搜索引擎的基本技术有所了解,为后续章节的阅读打下基础。

.参考资料.

. .. .

2 搜索引擎相关理论研究

2.1 Web搜索引擎原理和结构

全文搜索引擎是一款网络应用软件系统,论文中全部以搜索引擎称。最基本的搜索引擎应该包含三个模块:网页搜集,预处理,查询服务。事实上,这三个部分是相互独立、分别工作的,主要的关系体现在前一部分得到的数据结果为后一部分提供原始数据。 2.1.1 搜索引擎三段式工作流程 三者的关系如图2-1:

图2-1搜索引擎三段式工作流程

在介绍搜索引擎的整体结构之前,现在借鉴《计算机网络——自顶向下的方法描述因特网特色》一书的叙事方法,从普通用户使用搜索引擎的角度来介绍搜索引擎的具体工作流程。

自顶向下的方法描述搜索引擎执行过程:

1.用户通过浏览器提交查询的词或者短语 P,搜索引擎根据用户的查询返回匹配的网页信息列表 L;

2. 上述过程涉及到两个问题,如何匹配用户的查询以及网页信息列表从何而来,根据什么而排序?用户的查询 P 经过分词器被切割成小词组 并被剔除停用词 ( 的、了、啊等字 ),根据系统维护的一个倒排索引可以查询某个词 pi 在哪些网页中出现过,匹配那些 都出现的网页集即可作为初始结果,更进一步,返回的初始网页集通过计算与查询词的相关度从而得到网页排名,即 Page Rank,按照网页的排名顺序即可得到最终的网页列表;

3. 假设分词器和网页排名的计算公式都是既定的,那么倒排索引以及原始网页集

.参考资料.

全文搜索引擎的设计与实现毕业论文

....全文搜索引擎的设计与实现毕业论文目录1绪论................................................................................11.1课题背景及介绍.........................................
推荐度:
点击下载文档文档为doc格式
065zm35asq5zpak1cslt1is53085cn00i8w
领取福利

微信扫码领取福利

微信扫码分享