图书介绍

搜索引擎与信息获取技术pdf电子书版本下载

徐宝文，张卫丰著著
出版社：北京：清华大学出版社
ISBN：7302061351
出版时间：2003
标注页数：266页
文件大小：12MB
文件页数：282页
主题词：

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快] 温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：56482c0b5b6d90e8162e782a8169aa05

下载说明

搜索引擎与信息获取技术PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如 BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1章概述 1

1.1 引言 1

1.2 信息获取与数据获取 2

1.3 信息获取技术的发展 3

1.4 信息获取基本概念 4

1.5 信息获取系统的过去、现在和将来 5

1.6 信息获取的过程 6

1.7 本书的结构 7

1.8 本章小结 10

第2章信息获取模型 11

2.1 引言 11

2.2 布尔模型 11

2.3 向量模型 12

2.4 概率论模型 14

2.5 神经网络模型 16

2.6 基于命题逻辑的模型及其应用 18

2.6.1 基本概念不相交及其与向量模型的关系 19

2.6.2 基本概念相交及其与布尔模型的关系 21

2.7 本章小结 23

第3章标记语言与文本操作 24

3.1 引言 24

3.2 标记语言 24

3.2.1 HTML语言 25

3.2.2 XML语言 26

3.3 文本预处理 29

3.3.1 文本的词法分析 30

3.3.2 中文分词技术 31

3.3.4 词干提取技术 32

3.3.3 无用词汇的删除 32

3.3.5 索引词条的选择 37

3.3.6 词典 37

3.4 文档聚类 38

3.5 文本压缩 39

3.5.1 基本概念 39

3.5.2 统计方法 40

3.5.3 字典方法 41

3.5.4 倒排文件压缩 42

3.5.5 文本压缩方法比较 44

3.6 本章小结 45

第4章索引和搜索 46

4.1 引言 46

4.2 倒排文件 47

4.2.1 倒排文件的搜索 48

4.2.2 倒排文件的构造 49

4.3 后缀树与后缀数组 50

4.4 布尔查询 52

4.5 顺序查询 53

4.6 结构化查询 54

4.7 对压缩文本的搜索 55

4.8 模式匹配 56

4.8.1 容错匹配 56

4.8.2 正规表达式和扩展模式 56

4.8.3 利用索引进行模式匹配 57

4.9 本章小结 58

第5章信息获取系统评价 59

5.1 引言 59

5.2 相关性 60

5.3 召回率和精度 61

5.3.1 召回率与精度的计算 61

5.3.2 汇聚技术 62

5.4 复合度量 64

5.5 本章小结 65

第6章查询处理 66

6.1 引言 66

6.2 基于用户反馈信息的查询扩展 66

6.2.1 向量模型的查询扩展和词条权重重新计算 67

6.2.2 概率论模型中的词条权重重新计算 69

6.3 自动局部分析 71

6.3.1 通过局部聚集进行查询扩展 71

6.3.1.1 关联聚集 72

6.3.1.2 距离聚集 73

6.3.1.3 标量聚集 74

6.3.1.4 搜索表达式的改变 75

6.3.2 通过局部上下文分析进行查询扩展 76

6.4 自动全局分析 78

6.4.1 基于相似词典的查询扩展 78

6.4.2 基于统计词典的查询扩展 80

6.5 本章小结 82

第7章目录式检索服务与聚类分析 83

7.1 引言 83

7.2 目录检索服务的构成 84

7.2.1 网页采集过程 84

7.2.2 网页分类方法 85

7.3.1.1 相似度 86

7.3.1 文档关联度的衡量 86

7.3 聚类过程 86

7.3.1.2 相异度 87

7.3.2 文档聚类 88

7.3.2.1 基于相似度的分类过程 88

7.3.2.2 基于相异度的分类过程 92

7.4 基于聚类的信息获取 94

7.5 本章小结 94

第8章基于因特网的搜索引擎 95

8.1 引言 95

8.2 基于因特网的搜索引擎的构成 97

8.3 搜索引擎的主要指标及其分析 98

8.3.1 搜索引擎的精度 99

8.3.2 搜索引擎受欢迎的程度 100

8.3.3 搜索引擎相关性考虑 101

8.4 搜索引擎的数据结构 102

8.4.1 Bigfile文件系统 103

8.4.2 信息库 103

8.4.3 文本索引 104

8.4.4 词典 104

8.4.5 采样表 104

8.4.6 前向索引 105

8.4.7 后向索引 106

8.5 网页的获取 107

8.6 建立索引的方法和过程 108

8.6.1 搜索引擎建立索引的方法 108

8.6.2 索引的过程 111

8.7 搜索过程 112

8.8 搜索结果排序方法 112

8.9 搜索引擎的发展趋势 116

8.10 本章小结 118

第9章元搜索引擎 120

9.1 引言 120

9.2 基本构成 120

9.3 元搜索引擎分类 122

9.4 与独立搜索引擎的比较 124

9.5 主要指标及其分析 126

9.6 元搜索引擎面临的问题、对策和发展趋势 129

9.6.1 查询预处理 131

9.6.2 搜索结果集成 132

9.7 元搜索引擎调度策略研究 134

9.7.1 GSE基本思想 134

9.7.2 遗传算法在元搜索引擎调度中的应用 135

9.7.2.1 编码方法 136

9.7.2.2 适应函数和选择 137

9.7.2.3 初始化种群 139

9.7.2.4 重组 139

9.7.2.5 变异 140

9.7.3 GSE中的智能调度器 141

9.7.4 实验——自适应过程运行周期的确定 142

9.8 文档选择 143

9.8.1 用户决定法 145

9.8.2 权重分配法 145

9.8.3 基于学习的方法 146

9.8.4 确保取回法 147

9.9 结果归并 150

9.9.1 基本定义 150

9.9.2.1 几种常用元搜索引擎结果集成方法及其存在问题 152

9.9.2 元搜索引擎结果集成方法 152

9.9.2.2 摘要排序法 153

9.9.2.3 位置排序法 154

9.9.2.4 摘要/位置排序法 155

9.9.3 搜索结果集成技术比较 155

9.9.4 实验分析 157

9.9.5 元搜索引擎搜索结果集成技术展望 158

9.10 元搜索引擎可扩展性 159

9.10.1 XML与XSL语言 160

9.10.2 可扩展元搜索引擎的基本结构 161

9.10.3 元查询映射 163

9.10.4 结果归并 166

9.10.5 搜索引擎接入元搜索引擎的过程 171

9.11 本章小结 172

10.1 利用代理个性化搜索结果 173

第10章基于客户端的个性化应用研究 173

10.1.1 用户兴趣模型 174

10.1.1.1 个性化信息抽取与兴趣生成树 174

10.1.1.2 词干抽取与信息预处理 176

10.1.1.3 用户个人兴趣模型 177

10.1.1.4 共同兴趣模型 178

10.1.2 个性化搜索代理系统PSA 180

10.1.2.1 用户个人兴趣代理 180

10.1.2.2 共同兴趣代理 181

10.1.2.3 利用兴趣剖像过滤搜索结果 182

10.1.3 工作流程 182

10.1.4 性能分析 183

10.2 数据挖掘技术在Web预取中的应用研究 184

10.2.1 简化WWW数据模型 185

10.2.2 兴趣关联知识库与用户行为预测 187

10.2.3 数据挖掘技术 190

10.2.4 基于代理的Web预取技术 193

10.2.5 实例研究 195

10.3 本章小结 196

第11章基于服务器端的个性化应用研究 198

11.1 引言 198

11.2 带反馈自适应搜索引擎系统 199

11.3 数据采集与反馈信息库的生成 200

11.3.1 数据采集 200

11.3.2 反馈信息库的生成及其算法 202

11.4 反馈响应过程 205

11.5.1 一个实验性带反馈自适应搜索引擎ASE 207

11.5 自适应搜索引擎系统原型设计与实验 207

11.5.2 实验 208

11.6 本章小结 211

第12章搜索引擎策略——站点角度 212

12.1 引言 212

12.2 提高网站在搜索引擎中的排名位置的方法 213

12.2.1 了解不同的搜索引擎 213

12.2.2 关键词的选择 214

12.2.3 标题 217

12.2.4 Meta值的使用 217

12.2.5 提升自己网站排名的技巧 220

12.2.5.1 隐藏的表单input 220

12.3 如何提交自己的网站 221

12.3.1 提交工具 221

12.2.5.2 不可见关键词堆砌 221

12.3.2 如何跟踪 222

12.4 阻止网络检索器索引网页 222

12.4.1 阻止网络检索器的方法 223

12.4.2 文件Robots.txt的格式 224

12.4.3 Robots.txt使用实例分析 225

12.5 本章小结 226

第13章搜索引擎策略——用户角度 227

13.1 引言 227

13.2 数学命令在搜索中应用 229

13.2.1 查询条件具体化 229

13.2.2 使用加号+ 229

13.2.3 使用减号- 230

13.2.4 使用引号“” 230

13.2.5 组合符号 231

13.3 增强的搜索命令 232

13.3.1 搜索标题 232

13.3.2 搜索网站 233

13.3.3 百搭命令(？) 233

13.4 搜索引擎的辅助功能 234

13.4.1 相关搜索 234

13.4.2 搜索结果重组 237

13.4.3 相近搜索 239

13.4.4 延伸搜索条件 241

13.5 搜索引擎功能特点分析图表 242

13.6 本章小结 245

附录1 搜索引擎导航 246

附录2 术语 250

参考文献 252