资源说明:前言(目录献上)
第一章引论......................................1
第一节 搜索引擎的概念...........................2
第二节 搜索引擎的发展历史.......................3
第三节 一些著名的搜索引擎.......................7
上篇 WEB搜索引擎基本原理和技术.................16
第二章 WEB搜索引擎工作原理和体系结构...........17
第一节 基本要求................................17
第二节 网页搜集................................18
第三节 预处理..................................20
第四节 查询服务................................22
第五节 体系结构................................25
第三章 WEB信息的搜集...........................29
第一节 引言....................................29
一、 超文本传输协议............................29
二、 一个小型搜索引擎系统......................31
第二节 网页搜集................................33
一、 定义URL类和Page类.........................34
二、 与服务器建立连接..........................39
三、 发送请求和接收数据........................41
四、 网页信息存储的天网格式....................42
第三节 多道搜集程序并行工作....................45
一、 多线程并发工作............................46
二、 控制对一个站点并发搜集线程的数目..........47
第四节 如何避免网页的重复搜集..................47
一、 记录未访问、已访问URL和网页内容摘要信息...47
二、 域名与IP的对应问题........................48
第五节 如何首先搜集重要的网页..................49
第六节 搜集信息的类型..........................52
第七节本章小结.................................54
第四章对搜集信息的预处理.......................55
第一节 信息预处理的系统结构....................55
第二节 索引网页库..............................56
第三节 中文自动分词............................58
第四节分析网页和建立倒排文件...................64
第五节本章小结.................................66
第五章信息查询服务.............................67
第一节 查询服务的系统结构......................67
第二节 检索的定义..............................68
第三节 查询服务的实现..........................69
一、 结果集合的形成............................69
二、 查询结果显示..............................70
第四节 本章小结................................72
中篇 对质量和性能的追求........................73
第六章可扩展搜集子系统.........................75
第一节 天网系统概述和集中式搜集系统结构........75
一、 天网系统结构..............................75
二、 集中式搜集系统............................76
第二节 利用并行处理技术高效搜集网页的一种方案..82
一、 节点间URL的划分策略.......................83
二、 关于性能的讨论............................86
三、 性能测试和评价............................88
四、 系统的动态可配置性设计....................91
第三节 本章小结................................93
第七章网页净化与消重............................95
第一节 网页净化与元数据提取.....................95
一、 引言.......................................95
二、 DocView模型................................98
三、 网页的表示.................................99
四、 提取DocView模型要素的方法.................103
五、 模型应用及实验研究........................108
第二节 网页消重算法............................112
一、 消重算法..................................112
二、 算法评测..................................115
第八章高性能检索子系统.........................120
第一节 检索系统基本技术........................121
一、 系统设计与结构............................121
二、 索引创建..................................124
三、 检索过程..................................126
第二节 倒排文件性能模型........................127
一、 引言......................................128
二、 倒排文件的概念............................129
三、 倒排文件的一种性能模型....................131
四、 结合计算机性能指标的考虑..................136
第三节 混合索引技术............................138
一、 引言......................................138
二、 混合索引原理..............................139
三、 混合索引实现..............................141
第四节 倒排文件缓存机制........................144
一、 引言......................................144
二、 倒排文件缓存..............................145
三、 负载特性..................................147
四、 缓存策略的选择............................149
第五节 本章小结................................149
第九章用户行为的特征及缓存的应用................151
第一节 用户查询与点击日志.......................152
第二节 用户行为特征的统计分析...................154
一、 用户查询词的分布情况.......................154
二、 雷同查询词的衰减统计.......................155
三、 相邻N项查询词的偏差分析....................156
四、 用户在输出结果中的翻页情况统计.............158
五、 用户点击URL的分布情况......................159
六、 考虑与不考虑查询项时点击URL分布的对比分析..160
七、 查询过程的自相似性.........................161
第三节 查询缓存的使用...........................164
一、 基于用户行为的启示.........................164
二、 缓存替换策略研究...........................165
第四节 用户行为与WEB信息的分布特征..............167
一、 基本术语...................................167
二、 海量Web信息的特征分析......................168
第十章相关排序与系统质量评估....................173
第一节 传统IR的相关排序技术.....................173
第二节 链接分析与相关排序.......................176
一、 链接分析...................................176
二、 Web查询模式下的新信息......................178
第三节 相关排序的一种实现方案...................182
一、 形成网页中词项的基本权重...................183
二、 利用链接的结构.............................185
三、 收集用户反馈信息...........................187
四、 计算最终的权重.............................189
第四节 搜索引擎系统质量评估.....................191
一、 引言.......................................191
二、 查询类别分析与查询集的构建.................192
三、 评估实验的建立与分析.......................193
下篇 面向主题和个性化的WEB信息服务..............196
第十一章中文网页自动分类技术....................197
第一节 引言.....................................197
第二节 文档自动分类算法的类型...................197
第三节 实现中文网页自动分类的一般过程...........199
第四节 影响分类器性能的关键因素分析.............201
一、 实验设置...................................201
二、 训练样本...................................202
三、 特征选取...................................207
四、 分类算法...................................210
五、 截尾算法...................................216
六、 一个中文网页分类器的设计方案...............218
第五节 天网目录导航服务.........................219
一、 问题的提出.................................219
二、 天网目录导航服务的体系结构.................220
三、 天网目录的运行实例.........................221
第六节 本章小结.................................221
第十二章搜索引擎个性化查询服务...................223
第一节 基于WEB挖掘的个性化技术...................223
一、 Web挖掘技术.................................224
二、 典型个性化Web服务系统的比较.225
三、 基于Web挖掘的个性化技术的发展...............226
第二节 天网知名度系统............................227
一、 系统结构....................................227
二、 网页与命名实体的相关度评价..................231
第十三章面向主题的信息搜集与应用.................235
第一节 主题信息的搜集............................235
一、 主题信息分布的局部性........................235
二、 一种主题信息搜集系统........................236
第二节 主题信息的一种搜集与处理模型及其应用......238
一、 模型设计....................................238
二、 应用实验:以“十六大”为主题................242
三、 总结与讨论..................................244
参考文献.........................................245
附录. 术语.......................................256
后记.............................................264
本源码包内暂不包含可直接显示的源代码文件,请下载源码包。