图书介绍

搜索引擎 信息检索实践pdf电子书版本下载

搜索引擎  信息检索实践
  • (美)W.BruceCroft著 著
  • 出版社: 北京:机械工业出版社
  • ISBN:9787111288084
  • 出版时间:2010
  • 标注页数:309页
  • 文件大小:33MB
  • 文件页数:320页
  • 主题词:互联网络-情报检索

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快] 温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页 直链下载[便捷但速度慢]   [在线试读本书]   [在线获取解压码]

下载说明

搜索引擎 信息检索实践PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如 BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 搜索引擎和信息检索 1

1.1 什么是信息检索 1

1.2 重要问题 2

1.3 搜索引擎 4

1.4 搜索工程师 5

参考文献和深入阅读 6

练习 6

第2章 搜索引擎的架构 8

2.1 什么是软件架构 8

2.2 基本的构件 8

2.3 组件及其功能 10

2.3.1 文本采集 10

2.3.2 文本转换 12

2.3.3 索引的创建 13

2.3.4 用户交互 14

2.3.5 排序 15

2.3.6 评价 16

2.4 搜索引擎是如何工作的 17

参考文献和深入阅读 17

练习 17

第3章 信息采集和信息源 18

3.1 确定搜索的内容 18

3.2 网络信息爬取 18

3.2.1 抓取网页 19

3.2.2 网络爬虫 20

3.2.3 时新性 22

3.2.4 面向主题的信息采集 24

3.2.5 深层网络 24

3.2.6 网站地图 25

3.2.7 分布式信息采集 26

3.3 文档和电子邮件的信息采集 27

3.4 文档信息源 28

3.5 转换问题 30

3.6 存储文档 31

3.6.1 使用数据库系统 32

3.6.2 随机存取 32

3.6.3 压缩和大规模文件 33

3.6.4 更新 34

3.6.5 BigTable 35

3.7 重复检测 36

3.8 去除噪声 39

参考文献和深入阅读 42

练习 43

第4章 文本处理 45

4.1 从词到词项 45

4.2 文本统计 46

4.2.1 词表增长 49

4.2.2 估计数据集和结果集大小 51

4.3 文档解析 53

4.3.1 概述 53

4.3.2 词素切分 53

4.3.3 停用词去除 55

4.3.4 词干提取 55

4.3.5 短语和n元串 59

4.4 文档结构和标记 62

4.5 链接分析 63

4.5.1 锚文本 64

4.5.2 PageRank 64

4.5.3 链接质量 68

4.6 信息抽取 69

4.7 国际化 72

参考文献和深入阅读 73

练习 74

第5章 基于索引的相关排序 76

5.1 概述 76

5.2 抽象的相关排序模型 76

5.3 倒排索引 78

5.3.1 文档 79

5.3.2 计数 81

5.3.3 位置 82

5.3.4 域与范围 83

5.3.5 分数 84

5.3.6 排列 85

5.4 压缩 85

5.4.1 熵与歧义 86

5.4.2 Delta编码 87

5.4.3 位对齐码 88

5.4.4 字节对齐码 90

5.4.5 实际应用中的压缩 90

5.4.6 展望 91

5.4.7 跳转和跳转指针 92

5.5 辅助结构 93

5.6 索引构建 94

5.6.1 简单构建 94

5.6.2 融合 95

5.6.3 并行与分布式 96

5.6.4 更新 99

5.7 查询处理 99

5.7.1 document-at-a-time评价 100

5.7.2 term-at-a-time评价 101

5.7.3 优化技术 102

5.7.4 结构化查询 107

5.7.5 分布式的评价 108

5.7.6 缓存 109

参考文献和深入阅读 109

练习 110

第6章 查询与界面 113

6.1 信息需求与查询 113

6.2 查询转换与提炼 114

6.2.1 停用词去除和词干提取 114

6.2.2 拼写检查和建议 117

6.2.3 查询扩展 121

6.2.4 相关反馈 126

6.2.5 上下文和个性化 128

6.3 搜索结果显示 130

6.3.1 搜索结果页面与页面摘要 130

6.3.2 广告与搜索 132

6.3.3 结果聚类 134

6.4 跨语言搜索 137

参考文献和深入阅读 139

练习 140

第7章 检索模型 142

7.1 检索模型概述 142

7.1.1 布尔检索 143

7.1.2 向量空间模型 144

7.2 概率模型 148

7.2.1 将信息检索作为分类问题 148

7.2.2 BM25排序算法 151

7.3 基于排序的语言模型 153

7.3.1 查询项似然排序 154

7.3.2 相关性模型和伪相关反馈 158

7.4 复杂查询和证据整合 162

7.4.1 推理网络模型 163

7.4.2 Galago查询语言 165

7.5 网络搜索 169

7.6 机器学习和信息检索 171

7.6.1 排序学习 172

7.6.2 主题模型和词汇不匹配 174

7.7 基于应用的模型 175

参考文献和深入阅读 176

练习 178

第8章 搜索引擎评价 179

8.1 搜索引擎评价的意义 179

8.2 评价语料 180

8.3 日志 184

8.4 效果评价 186

8.4.1 召回率和准确率 186

8.4.2 平均化和插值 189

8.4.3 关注排序靠前的文档 192

8.4.4 使用用户偏好 194

8.5 效率评价 195

8.6 训练、测试和统计 196

8.6.1 显著性检验 196

8.6.2 设置参数值 200

8.6.3 在线测试 201

8.7 基本要点 201

参考文献和深入阅读 203

练习 203

第9章 分类和聚类 205

9.1 分类 206

9.1.1 朴素贝叶斯 207

9.1.2 支持向量机 212

9.1.3 评价 216

9.1.4 分类器和特征选择 216

9.1.5 垃圾、情感及在线广告 219

9.2 聚类 224

9.2.1 层次聚类和K均值聚类 225

9.2.2 K近邻聚类 231

9.2.3 评价 232

9.2.4 如何选择K 233

9.2.5 聚类和搜索 234

参考文献和深入阅读 236

练习 236

第10章 社会化搜索 238

10.1 什么是社会化搜索 238

10.2 用户标签和人工索引 239

10.2.1 搜索标签 241

10.2.2 推测缺失的标签 242

10.2.3 浏览和标签云 243

10.3 社区内搜索 244

10.3.1 什么是社区 244

10.3.2 社区发现 245

10.3.3 基于社区的问答 248

10.3.4 协同搜索 251

10.4 过滤和推荐 253

10.4.1 文档过滤 253

10.4.2 协同过滤 258

10.5 P2P搜索和元搜索 262

10.5.1 分布式搜索 262

10.5.2 P2P网络 264

参考文献和深入阅读 267

练习 268

第11章 超越词袋 270

11.1 概述 270

11.2 基于特征的检索模型 270

11.3 词项依赖模型 271

11.4 再谈结构化 275

11.4.1 XML检索 276

11.4.2 实体搜索 277

11.5 问题越长,答案越好 278

11.6 词语、图片和音乐 281

11.7 搜索能否适用于所有情况 286

参考文献和深入阅读 287

练习 289

参考文献 290

精品推荐