第一章 信息检索概述
1. 信息检索:指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。 2. 根据检索手段的不同,信息检索可以分为手工检索、光盘检索、联机检索和网络检索。 3. 信息检索的基本原理
通过对大量的、分散无序的文献信息是进行搜集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。
4. 信息检索语言
信息检索语言是人们在加工、存储和检索信息时用来描述信息内容和信息需求的词汇或符号及其使用规则构成的供标引和检索的工具。
5. 五个信息检索阶段:手工检索、机械信息检索、脱机批处理检索、联机检索、网络信息检索,后三
者统称为计算机信息检索。
6. 与手工检索相比,计算机信息检索的特点表现在:
(1) 速度快、效率高,仅几分钟就可以从成千上万条记录中找到所需信息;
(2) 检索范围广,可以迅速而方便地浏览相关学科或主题的所有数据库中的记录,在网络中,几乎每一台个人计算机都可以成为信息源;
(3) 检索不受时空的限制,只要拥有相应的软件和硬件设备,就可以在任何地方借助光盘和通信网络查询所需信息。
7. 信息检索的模型:就是运用数学的语言和工具,对信息检索系统中的信息及其处理过程加以翻译和
抽象,表述为某种数学公式,再经过演绎、推断、解释和实际校验,反过来指导信息检索实践。 信息检索的三个经典模型是:布尔模型、向量空间模型和概率模型。 8. 信息检索系统是具有信息存储和信息查询功能的一类信息服务设施。
9. 信息检索系统是信息检索所用的硬件资源、系统软件以及信息资源集合的总和。 10. 数据库由字段、记录和文档构成。
11. 根据载体的不同,数据库可分为:联机数据库、光盘数据库和网络数据库三种。 12. 信息检索系统评价的核心是检索性能评价。 13. 检索性能评价:根据一定的评价指标对实施信息检索活动所取得的成果进行客观科学评价,以进一
步完善检索工作的过程。
评价检索效果的最主要的指标:查全率和查准率。 14. 查全率
查全率是指检出文献中合乎需要的文献数量占数据库中存在的合乎该需要的所有文献的比例。 15. 查准率
查准率是指检出文献中合乎需要的文献数量占检出文献全部数量的比例。
第二章 网络信息检索的方法与技术
1. 布尔逻辑检索的主要运算符
布尔逻辑检索的主要运算符有:逻辑与(“AND”)、逻辑或(“OR”)、逻辑非(“NOT”)。 它们分别代表的含义是:(1)逻辑“与”。表示检索结果中必须包含所有的检索词;(2)逻辑“或”。表示检索结果中只要包含任何一个检索词即可;(3)逻辑非。表示检索结果中一定不能出现“NOT”后面的检索词。
2. 邻近检索
邻近检索是用一些特定的算符来表达检索词与检索词之间的顺序和词间距的检索。
3. 短语检索:短语用“ ”表示,检索出与“”内形式完全相同的短语,以提高检索的精度和准确度,
因而也有人称之为“精确检索” 4. 截词检索
是指在检索标识中保留相同的部分,用相应的截词符代替可变化部分。检索中,计算机会将所有含有相同部分标识的记录全部检索出来。截词符一般用“?”或“*”表示,但不同的数据库中有所差别。
常用的截词检索方法有前截词、中间截词和后截词。
5. 在信息检索过程中,为了提高查全率或查准率,需要将检索范围限制在特定的字段中,即字段限制
检索。
6. 模糊检索:模糊检索是指使用某一检索词进行检索时,能同时对该词的同义词、近义词、上位词、
下位词进行检索,以达到扩大检索范围、避免漏检的目的。
7. 信息检索的主要技术有:
(1)全文检索技术; (2)多媒体信息检索技术;(3)超文本及超媒体检索技术;(4)智能信息检索技术; (5)可视化信息检索技术;(6)跨语言信息检索技术;(7)文本聚类技术。
(8)智能信息检索的最大特点是在检索过程中引入了资源对象的语义处理。 8. 检索策略
检索策略是为实现检索目标而制订的全盘计划或方案,是就一个问题检索一个或多个数据库所输入的全部检索式的集合。
9. 信息检索的一般步骤(主要流程):
(1)分析信息需求。即要确切了解所要查询的目的和要求,确定检索问题的关键词、涉及学科、信息类型、查询方式、查询范围、查询时间等。
(2)选择合适的检索工具。选择合适的检索工具主要从检索工具的类型、收录范围、检索问题的类型、检索具体要求等方面综合考虑。
(3)确定检索点与关键词。应尽量选专指词、特定概念或专业术语,避免冷僻词汇和太泛的词。
(4)正确构造检索式。利用搜索工具支持的检索运算、允许使用的检索标识和各种限定,正确构建检索式。
(5)及时调整检索策略。当检索结果为零或检索结果太少,需要扩大检索范围;检索时如果得到太多的检索结果,或检索结果不相关,需要缩小检索范围。
(6)检索结果的输出。
第三章 搜索引擎
1. 搜索引擎是一种基于Web上应用的软件系统,它以一定的策略在Web上搜索和发现信息,在对信
息进行处理和组织后,为用户提供web信息查询服务。 搜索引擎有三个功能模块:网页搜集;预处理;查询服务。 2. 搜索引擎的工作原理:
搜索引擎的三个功能模块形成了搜索引擎工作的三个阶段。
(1)网页搜集。系统在一定时间内定向向网站派出“蜘蛛”程序,扫描网站的所有网页并将相关信息存入数据库。
(2)预处理。主要包括关键词的提取;重复网页或转载网页的消除;链接分析;网页重要程度的计算。 (3)查询服务。搜索引擎接受用户提交的查询请求后,按照用户的要求检索索引数据库,找到用户所需要的资源,并返回给用户,列表显示摘要结果。
3. 按信息内容的组织方式,搜索引擎可划分为目录式搜索引擎和机器人搜索引擎。
(1)目录式搜索引擎。是以人工方式或半自动方式搜集信息,由搜索引擎的编辑员查看信息之后,依据一定的标准对网络资源进行选择、评价、人工形成信息摘要,并将信息置于事先确定的分类框架中而形成的主题目录。
(2)机器人搜索引擎。是由一个被称作“蜘蛛”的计算机程序依据一定的网络协议以某种策略自动在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。
4. Yahoo是目前最流行的目录式搜索引擎,提供主题目录检索。 5. 按专业范畴划分,可将搜索引擎划分为综合性搜索引擎和专业性搜索引擎。综合性搜索引擎内容涵
盖各个学科和生产生活的各个领域,可检索图片、音频、视频等多种资源类型,适用对象广泛。 6. 常用的综合性搜索引擎包括哪些,专业性搜索引擎包括哪些 7. 按检索功能划分,可将搜索引擎划分为独立搜索引擎和元搜索引擎。元搜索引擎是多个独立搜索引
擎的集合,通过一个统一的用户界面,可同时对多个搜索引擎进行检索操作。
8. 调查显示,截止2009年6月底,中国网民人数已达3.38亿。其中约2.35亿网民使用过搜索引擎,
中国网民用得最多的搜索引擎是百度。在全球范围内,2009年7月,搜索引擎用户已达1137亿次,其中Google市场份额最高。
9. 综合性搜索引擎的评价指标主要有:
(1)收录范围。即搜索引擎收录的范围是否完备充分。 (2)分类。即搜索引擎的分类是否科学合理,分类的广度与深度是否合适。(3)检索功能与效果。检索手段是否完善,检索效果是否好。(4)对检索结果的处理。结果的排序方式是否多样、是否有去重功能、能否按照用户反馈动态调整和显示检索结果。(5)页面组织。页面组织是否清晰、类目设置是否合理、界面是否友好。(6)其他功能与服务。能否满足用户多方面的信息需求。
第四章
1.
国内重要的综合性信息检索系统
中国知网CNKI的《中国期刊全文数据库》(CAJ)是目前世界上最大的连续动态更新的中国期刊全文数据库,收录了国内1994年至今的8200余种综合性期刊与专业特色期刊的全文。 2. 中国知网CNKI提供了导航检索、逻辑式检索、智能辅助检索三种类型。
3. 中国知网的源数据库资源主要有:中国学术期刊全文数据库,中国博士学位论文全文数据库,中国
优秀硕士学术论文全文数据库,中国重要会议论文全文数据库,中国重要报纸全文数据库,中国年鉴网络出版总库,中国工具书网络出版总库。
4. 维普资讯网VIP的前身是科学技术部西南情报中心的情报分析网站,目前已发展成为集外文献、
企业咨询、动态新闻服务、行业信息资源等多种服务为一体的科技文献知识资源门户网站。 5. 维普资讯网的主要资源有:中国科技期刊数据库,中文科技期刊引文库,外文科技期刊数据库,中
国科技经济新闻数据库,中国科学指标数据库。 6. 维普资讯网设有专门的“专业检索首页”,为中文期刊专业文章提供一站式的检索服务。检索方式
有快速检索,传统检索,高级检索,期刊导航。 7. 国家科技图书文献中心NSTL是经国务院领导批准,于2000年6月12日成立的一个基于网络环境
的科技信息资源服务机构。
8. 国际科学引文数据库(DISC)是国家科技图书文献中心(NTSL)于2006年首创的集文献发现、
引文链接、原文传递为一体的信息服务系统。它提供快速检索,期刊浏览,来源文献检索,引文检索。
9. 中国高等教育文献保障系统CALIS 是经国务院批准的我国高等教育“211工程”、“九五”、“十五”
总体规划中三个公共服务体系之一。它的数据资源主要有中文数据资源、外文数据资源两大类。 10. 中国高等教育文献保障系统(CALIS)中的联合目录公共检索系统(OPAC)选择多库分类检索,
OPAC中的数据按照语种划分,可分为中文、西文、日文、俄文四个数据库。
11. 中国科学院国家科学数字图书馆(CSDL)建设以来非常重视信息服务,其中:论文查收查引检索
及评价服务是根据用户需要,在国内外权威数据库中检索其论文被收录和被引用的情况,并出具相关检索证明报告。定题、专题检索服务是针对用户事先选定的专题,定期或不定期地进行文献跟踪检索,把经过筛选的最新检索结果,以书目、索引、全文等方式提供给用户。科技查新服务是根据用户提供的有关科研资料查证其研究结果是否具有新颖性,并做出结论。在线参考咨询服务是用户可按专业、机构或所处地理位置选择专家提问,可在线提交咨询表单。
第五章 国外重要的综合性信息检索系统
1. 学术资源整合平台(WOK)是基于互联网建立的动态的学术信息资源整合平台,提供自然科学、
工程技术、社会科学、艺术与人文等多个领域中高质量的学术信息。
2. 学术资源整合平台(WOK)支持的运算有布尔逻运算,截词检索,短语检索。 3. 在截词检索中,通常运用*代表多个字符,运用?代表一个字符。 4. 引文检索是指从被引著者、被引文献入手检索文献的被引用情况。
5. 美国Dialog系统是世界上最早和最大的专业情报检索系统,也是我国科技界广泛使用的系统。 6. 美国Dialog联机检索系统支持的运算有布尔逻运算,位置限制检索,短语检索和截词检索。 7. SDOL采取浏览与检索相结合的方式,主要有期刊论文浏览、快速检索、高级检索、专家检索。 8. 联机计算机图书馆中心(或OCLC)创立于1967年,是全球最大的不以赢利为目的、维护和管理
电子资源系统并提供计算机图书馆服务的会员制合作和研究组织。
9. PowerSearch 2.0检索平台支持对Gale的2万多种出版物的浏览,提供5种检索方式,包括基本检
索、主题词浏览、出版物浏览、高级检索、异构跨库检索。
10. CSA Illumina 是一个多学科、多信息类型的信息服务平台,目前由美国Proquest公司提供服务,
具有多语种文字检索界面。
第六章 国外专业性书目信息检索系统
1. SciFinder是美国化学学会的分支机构推出的基于网络的文献检索系统。
2. 在SciFinder检索窗口最上方的主工具栏中列出了3种检索模式:Explore References , Explore
Substances, Explore Reactions。
3. 在数据库CASREACT中检索化学反应及相关信息。检索化学反应仅有1种检索途径。 4. 用化学结构式检索化学反应,可以用反应分类,报道反应信息的文献来源,文献出版年和反应步数
计算机信息检索02139自考资料



