图书介绍

信息检索系统导论pdf电子书版本下载

刘挺，秦兵，张宇等编著著
出版社：北京：机械工业出版社
ISBN：9787111246077
出版时间：2008
标注页数：258页
文件大小：77MB
文件页数：272页
主题词：机器检索－检索系统－系统开发－高等学校－教材

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快] 温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：1d1662f61e0cf4f460c7732a1637101f

下载说明

信息检索系统导论PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如 BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1章　绪论 1

1.1　信息检索简介 1

1.1.1　信息检索的概念和处理对象 1

1.1.2　信息检索的基本流程 1

1.1.3　与信息检索相关的学科 2

1.2　信息检索的研究内容 3

1.2.1　信息检索要解决的问题 3

1.2.2　信息检索中的基础研究课题 4

1.2.3　信息检索中的关键技术 5

1.2.4　信息检索中的应用研究 6

1.3　信息检索的历史、现状与未来 8

1.3.1　信息检索的历史 8

1.3.2　信息检索的现状与未来 9

1.4　本书结构 10

本章小结 11

思考练习 12

第2章信息检索模型 13

2.1　信息检索模型的定义和分类 13

2.1.1　信息检索模型的定义 13

2.1.2　信息检索模型的分类 13

2.2　布尔模型 14

2.2.1　布尔模型的定义 14

2.2.2　布尔模型示例 15

2.3　向量空间模型 15

2.3.1 向量空间模型的定义 15

2.3.2　常见相似度计算方法 17

2.3.3 向量空间模型与布尔模型的比较 19

2.4　概率模型 19

2.4.1　概率模型的定义 19

2.4.2　概率模型的优缺点 22

2.5　扩展布尔模型 23

2.5.1　扩展布尔模型简介 23

2.5.2　基本模糊集合模型 23

2.5.3　扩展模糊集合模型 24

2.6　统计语言模型 25

2.6.1　语言模型简介 25

2.6.2　数据稀疏和平滑 26

2.6.3　基于语言模型的检索模型 30

2.6.4　基于语言模型的信息检索模型的优缺点分析 31

2.7　隐性语义索引模型 31

2.7.1　隐性语义索引 32

2.7.2　隐性语义索引模型原理 32

2.7.3　隐性语义索引实例 34

2.7.4　隐性语义索引模型的特点 36

2.8　基于本体论的模型 37

2.8.1　本体论的概念 37

2.8.2　描述本体的语言 38

2.8.3　本体的构造 39

2.8.4　常用的本体库简介 39

2.8.5　本体论在信息检索系统中的应用 42

本章小结 43

思考练习 43

参考文献 43

第3章信息检索系统的评价 45

3.1　引言 45

3.2　性能评价指标 45

3.2.1　准确率和召回率 46

3.2.2　单值评价方法 47

3.2.3　一些特殊的评价方法 49

3.2.4　其他测度方法 52

3.3　国外信息检索评测 53

3.3.1　TREC评测 54

3.3.2　NTCIR评测 59

3.3.3　CLEF评测 61

3.4　国内信息检索评测 62

3.4.1　863信息检索评测 62

3.4.2　SEWM中文Web评测 64

3.5　信息检索评价的研究 66

3.5.1　现有研究成果介绍 66

3.5.2　今后的研究问题与趋势 67

本章小结 67

思考练习 67

参考文献 68

第4章文本操作技术 70

4.1 引言 70

4.2　英文词法分析 70

4.2.1 断词 70

4.2.2　词干提取 73

4.3　中文词法分析 75

4.3.1　最大匹配法 76

4.3.2　歧义词切分 77

4.3.3　未登录词识别 78

4.3.4　分词系统介绍 81

4.3.5　语料及评测 82

4.4　相关资源 84

4.4.1　停用词表 84

4.4.2　词典资源 84

4.5　英文拼写检查 86

4.5.1　形态还原 87

4.5.2　词语相似度计算 88

本章小结 90

思考练习 90

参考文献 90

第5章文本索引和搜索 92

5.1 引言 92

5.2　倒排文件 93

5.2.1　倒排文件简介 93

5.2.2　倒排文件的使用 94

5.2.3　倒排文件的建立 95

5.2.4　倒排文件的维护 96

5.2.5　倒排文件的压缩 97

5.2.6　倒排文件性能分析 99

5.3　词汇表的存取 99

5.3.1　排序数组 99

5.3.2　B树 100

5.3.3　Trie树 101

5.4　后缀数组 102

5.4.1　后缀数组的构造 102

5.4.2　后缀数组的使用 103

5.4.3　后缀数组的分析 103

5.5　签名文件 103

5.5.1　签名文件的构造 103

5.5.2　签名文件的使用和维护 105

5.5.3　签名文件的分析 105

5.6　文本搜索技术 105

5.6.1　BF算法 106

5.6.2　KMP算法 106

5.6.3　BM算法 108

5.6.4　精确模式匹配算法的选择 109

本章小结 109

思考练习 109

参考文献 109

第6章查询处理技术 111

6.1 引言 111

6.2　查询构造方法 111

6.2.1　单一词查询 111

6.2.2　上下文查询 111

6.2.3　布尔查询 112

6.3　相关反馈与查询重构 112

6.3.1 向量空间模型中的反馈与查询重构 113

6.3.2　概率模型中的反馈与查询重构 115

6.3.3　布尔模型中的反馈与查询重构 116

6.3.4　相关反馈的评价 117

6.4　自动查询扩展技术 118

6.4.1　查询扩展的全局分析方法 119

6.4.2　查询扩展的局部分析方法 121

6.4.3　基于词典库的查询扩展 123

6.5　交互式查询扩展 123

6.6　查询处理的发展趋势 124

本章小结 124

思考练习 125

参考文献 125

第7章　Web检索技术 127

7.1 引言 127

7.2　Web检索的工作流程及系统结构 128

7.2.1 工作流程 128

7.2.2　系统结构 128

7.3　Web数据的采集 129

7.3.1　Web数据采集系统的工作原理 129

7.3.2　Web数据采集系统的相关概念及协议 130

7.3.3　Web数据采集系统的基本结构 133

7.3.4　Web数据采集系统的分类 136

7.4　网页的预处理 138

7.4.1　网页去重 138

7.4.2　正文提取 142

7.5　相关性排序系统 145

7.5.1　早期的相关性排序技术 145

7.5.2　链接分析技术 145

7.5.3　多特征融合的相关性排序算法 147

7.6　Web检索系统的其他模块 147

本章小结 148

思考练习 148

参考文献 149

第8章分布式信息检索 150

8.1 引言 150

8.2　分布式信息检索系统体系结构 150

8.3　文档集合的划分 152

8.4　文档集合的选择 153

8.4.1　文档集合的表示 153

8.4.2　集合选择算法 153

8.4.3　文档集合选择算法的评价 156

8.5　检索结果的合并 157

本章小结 159

思考练习 159

参考文献 159

第9章　Web信息检索实践 161

9.1 引言 161

9.2　利用Lucene建立索引 161

9.2.1　在Lucene中建立索引的主要步骤 162

9.2.2　基本索引程序 163

9.2.3　深入控制Lucene索引过程 170

9.2.4　与索引相关的并发问题 176

9.3　利用Lucene进行搜索 180

9.3.1 IndexSearcher 181

9.3.2　Hits 181

9.3.3　Query与QueryParser 182

本章小结 184

思考练习 185

参考资源 185

第10章文本分类与聚类 186

10.1　引言 186

10.2　文本分类 186

10.2.1　文本分类概述 186

10.2.2　文本分类的过程 187

10.2.3　分类算法 190

10.2.4　文本分类的评估指标 194

10.2.5　相关评测和相关资源 194

10.3　文本聚类 195

10.3.1　文本聚类概述 195

10.3.2　层次聚类 195

10.3.3　基于划分的聚类 197

10.3.4　基于密度的方法 199

10.3.5 自组织映射 201

10.3.6　基于模型的方法 202

10.3.7　文本聚类结果的描述 202

10.3.8　文本聚类的评价方法 202

本章小结 203

思考练习 204

参考文献 204

第11章信息过滤技术 205

11.1 引言 205

11.2　信息过滤的概念及主要研究内容 206

11.2.1　信息过滤的概念和主要特点 206

11.2.2　信息过滤与信息检索、信息抽取以及分类等研究的区别 206

11.2.3　信息过滤系统的分类体系 207

11.3　信息过滤系统的结构及评价 208

11.3.1　信息过滤系统的组成 208

11.3.2　信息过滤系统的评价 211

11.4　基于内容的信息过滤 213

11.4.1 信息过滤中应用的统计模型 213

11.4.2　信息过滤中应用的文本分类方法 216

11.5　协作过滤 222

11.5.1　基于用户的协作过滤 223

11.5.2　基于模型的协作过滤 225

11.5.3　基于项目的协作过滤 227

本章小结 228

思考练习 228

参考文献 228

第12章问答系统 231

12.1　引言 231

12.2　问答系统的发展历程 231

12.3　问答系统的种类 233

12.3.1　问答系统分类方法 233

12.3.2 自然语言的数据库问答系统 233

12.3.3　对话式问答系统 234

12.3.4　基于常问问题集的问答系统 235

12.3.5　基于大规模文档集的问答系统 236

12.3.6　阅读理解系统 236

12.3.7　基于知识库的问答系统 238

12.4　基于常问问题集的问答系统实现 239

12.4.1　候选问题集的建立 239

12.4.2　句子相似度计算 240

12.5　基于大规模文档集的问答系统实现 242

12.5.1 问答的任务与系统实现流程 242

12.5.2　问题分析 244

12.5.3　相关文档检索 248

12.5.4　句段检索 251

12.5.5　答案抽取 252

12.5.6　问答结果的答案评测及其面对的问题和困难 254

本章小结 255

思考练习 255

参考文献 256