图书介绍
搜索引擎与信息获取技术pdf电子书版本下载
- 徐宝文,张卫丰著 著
- 出版社: 北京:清华大学出版社
- ISBN:7302061351
- 出版时间:2003
- 标注页数:266页
- 文件大小:12MB
- 文件页数:282页
- 主题词:
PDF下载
下载说明
搜索引擎与信息获取技术PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如 BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 概述 1
1.1 引言 1
1.2 信息获取与数据获取 2
1.3 信息获取技术的发展 3
1.4 信息获取基本概念 4
1.5 信息获取系统的过去、现在和将来 5
1.6 信息获取的过程 6
1.7 本书的结构 7
1.8 本章小结 10
第2章 信息获取模型 11
2.1 引言 11
2.2 布尔模型 11
2.3 向量模型 12
2.4 概率论模型 14
2.5 神经网络模型 16
2.6 基于命题逻辑的模型及其应用 18
2.6.1 基本概念不相交及其与向量模型的关系 19
2.6.2 基本概念相交及其与布尔模型的关系 21
2.7 本章小结 23
第3章 标记语言与文本操作 24
3.1 引言 24
3.2 标记语言 24
3.2.1 HTML语言 25
3.2.2 XML语言 26
3.3 文本预处理 29
3.3.1 文本的词法分析 30
3.3.2 中文分词技术 31
3.3.4 词干提取技术 32
3.3.3 无用词汇的删除 32
3.3.5 索引词条的选择 37
3.3.6 词典 37
3.4 文档聚类 38
3.5 文本压缩 39
3.5.1 基本概念 39
3.5.2 统计方法 40
3.5.3 字典方法 41
3.5.4 倒排文件压缩 42
3.5.5 文本压缩方法比较 44
3.6 本章小结 45
第4章 索引和搜索 46
4.1 引言 46
4.2 倒排文件 47
4.2.1 倒排文件的搜索 48
4.2.2 倒排文件的构造 49
4.3 后缀树与后缀数组 50
4.4 布尔查询 52
4.5 顺序查询 53
4.6 结构化查询 54
4.7 对压缩文本的搜索 55
4.8 模式匹配 56
4.8.1 容错匹配 56
4.8.2 正规表达式和扩展模式 56
4.8.3 利用索引进行模式匹配 57
4.9 本章小结 58
第5章 信息获取系统评价 59
5.1 引言 59
5.2 相关性 60
5.3 召回率和精度 61
5.3.1 召回率与精度的计算 61
5.3.2 汇聚技术 62
5.4 复合度量 64
5.5 本章小结 65
第6章 查询处理 66
6.1 引言 66
6.2 基于用户反馈信息的查询扩展 66
6.2.1 向量模型的查询扩展和词条权重重新计算 67
6.2.2 概率论模型中的词条权重重新计算 69
6.3 自动局部分析 71
6.3.1 通过局部聚集进行查询扩展 71
6.3.1.1 关联聚集 72
6.3.1.2 距离聚集 73
6.3.1.3 标量聚集 74
6.3.1.4 搜索表达式的改变 75
6.3.2 通过局部上下文分析进行查询扩展 76
6.4 自动全局分析 78
6.4.1 基于相似词典的查询扩展 78
6.4.2 基于统计词典的查询扩展 80
6.5 本章小结 82
第7章 目录式检索服务与聚类分析 83
7.1 引言 83
7.2 目录检索服务的构成 84
7.2.1 网页采集过程 84
7.2.2 网页分类方法 85
7.3.1.1 相似度 86
7.3.1 文档关联度的衡量 86
7.3 聚类过程 86
7.3.1.2 相异度 87
7.3.2 文档聚类 88
7.3.2.1 基于相似度的分类过程 88
7.3.2.2 基于相异度的分类过程 92
7.4 基于聚类的信息获取 94
7.5 本章小结 94
第8章 基于因特网的搜索引擎 95
8.1 引言 95
8.2 基于因特网的搜索引擎的构成 97
8.3 搜索引擎的主要指标及其分析 98
8.3.1 搜索引擎的精度 99
8.3.2 搜索引擎受欢迎的程度 100
8.3.3 搜索引擎相关性考虑 101
8.4 搜索引擎的数据结构 102
8.4.1 Bigfile文件系统 103
8.4.2 信息库 103
8.4.3 文本索引 104
8.4.4 词典 104
8.4.5 采样表 104
8.4.6 前向索引 105
8.4.7 后向索引 106
8.5 网页的获取 107
8.6 建立索引的方法和过程 108
8.6.1 搜索引擎建立索引的方法 108
8.6.2 索引的过程 111
8.7 搜索过程 112
8.8 搜索结果排序方法 112
8.9 搜索引擎的发展趋势 116
8.10 本章小结 118
第9章 元搜索引擎 120
9.1 引言 120
9.2 基本构成 120
9.3 元搜索引擎分类 122
9.4 与独立搜索引擎的比较 124
9.5 主要指标及其分析 126
9.6 元搜索引擎面临的问题、对策和发展趋势 129
9.6.1 查询预处理 131
9.6.2 搜索结果集成 132
9.7 元搜索引擎调度策略研究 134
9.7.1 GSE基本思想 134
9.7.2 遗传算法在元搜索引擎调度中的应用 135
9.7.2.1 编码方法 136
9.7.2.2 适应函数和选择 137
9.7.2.3 初始化种群 139
9.7.2.4 重组 139
9.7.2.5 变异 140
9.7.3 GSE中的智能调度器 141
9.7.4 实验——自适应过程运行周期的确定 142
9.8 文档选择 143
9.8.1 用户决定法 145
9.8.2 权重分配法 145
9.8.3 基于学习的方法 146
9.8.4 确保取回法 147
9.9 结果归并 150
9.9.1 基本定义 150
9.9.2.1 几种常用元搜索引擎结果集成方法及其存在问题 152
9.9.2 元搜索引擎结果集成方法 152
9.9.2.2 摘要排序法 153
9.9.2.3 位置排序法 154
9.9.2.4 摘要/位置排序法 155
9.9.3 搜索结果集成技术比较 155
9.9.4 实验分析 157
9.9.5 元搜索引擎搜索结果集成技术展望 158
9.10 元搜索引擎可扩展性 159
9.10.1 XML与XSL语言 160
9.10.2 可扩展元搜索引擎的基本结构 161
9.10.3 元查询映射 163
9.10.4 结果归并 166
9.10.5 搜索引擎接入元搜索引擎的过程 171
9.11 本章小结 172
10.1 利用代理个性化搜索结果 173
第10章 基于客户端的个性化应用研究 173
10.1.1 用户兴趣模型 174
10.1.1.1 个性化信息抽取与兴趣生成树 174
10.1.1.2 词干抽取与信息预处理 176
10.1.1.3 用户个人兴趣模型 177
10.1.1.4 共同兴趣模型 178
10.1.2 个性化搜索代理系统PSA 180
10.1.2.1 用户个人兴趣代理 180
10.1.2.2 共同兴趣代理 181
10.1.2.3 利用兴趣剖像过滤搜索结果 182
10.1.3 工作流程 182
10.1.4 性能分析 183
10.2 数据挖掘技术在Web预取中的应用研究 184
10.2.1 简化WWW数据模型 185
10.2.2 兴趣关联知识库与用户行为预测 187
10.2.3 数据挖掘技术 190
10.2.4 基于代理的Web预取技术 193
10.2.5 实例研究 195
10.3 本章小结 196
第11章 基于服务器端的个性化应用研究 198
11.1 引言 198
11.2 带反馈自适应搜索引擎系统 199
11.3 数据采集与反馈信息库的生成 200
11.3.1 数据采集 200
11.3.2 反馈信息库的生成及其算法 202
11.4 反馈响应过程 205
11.5.1 一个实验性带反馈自适应搜索引擎ASE 207
11.5 自适应搜索引擎系统原型设计与实验 207
11.5.2 实验 208
11.6 本章小结 211
第12章 搜索引擎策略——站点角度 212
12.1 引言 212
12.2 提高网站在搜索引擎中的排名位置的方法 213
12.2.1 了解不同的搜索引擎 213
12.2.2 关键词的选择 214
12.2.3 标题 217
12.2.4 Meta值的使用 217
12.2.5 提升自己网站排名的技巧 220
12.2.5.1 隐藏的表单input 220
12.3 如何提交自己的网站 221
12.3.1 提交工具 221
12.2.5.2 不可见关键词堆砌 221
12.3.2 如何跟踪 222
12.4 阻止网络检索器索引网页 222
12.4.1 阻止网络检索器的方法 223
12.4.2 文件Robots.txt的格式 224
12.4.3 Robots.txt使用实例分析 225
12.5 本章小结 226
第13章 搜索引擎策略——用户角度 227
13.1 引言 227
13.2 数学命令在搜索中应用 229
13.2.1 查询条件具体化 229
13.2.2 使用加号+ 229
13.2.3 使用减号- 230
13.2.4 使用引号“” 230
13.2.5 组合符号 231
13.3 增强的搜索命令 232
13.3.1 搜索标题 232
13.3.2 搜索网站 233
13.3.3 百搭命令(?) 233
13.4 搜索引擎的辅助功能 234
13.4.1 相关搜索 234
13.4.2 搜索结果重组 237
13.4.3 相近搜索 239
13.4.4 延伸搜索条件 241
13.5 搜索引擎功能特点分析图表 242
13.6 本章小结 245
附录1 搜索引擎导航 246
附录2 术语 250
参考文献 252