资源说明:第一章引言
第一节什么是搜索引擎
第二节搜索引擎的发展简史
搜索引擎的发展历史
第三节搜索引擎大事快览
第四节国内著名搜索引擎
百度(www.baidu.com)
中搜(www.zhongsou.com)
天网(e.pku.edu.cn)
搜狗(www.sogou.com)
参考文献
第二章搜索引擎概貌
第一节搜索引擎的主要需求
查得快
查得全
查得准
查得稳
第二节搜索引擎的大系统
搜索引擎的体系结构
第三章搜索引擎的下载系统
第一节爬虫的发展历史
世界上第个爬虫
爬虫的发展历程
第二节万维网及其网页分析
蝴蝶结型的万维网
万维网的直径
万维网的规模及变化特征
网页的特征
第三节有关爬虫的基本概念
爬虫
种子站点
URL
Backlinks
第四节网页抓取原理
telnet和wget
从种子站点开始逐层抓取
不重复抓取策略
网页抓取优先策略
网页重访策略★
Robots协议
其他应该注意的礼貌性问题
抓取提速策略(合作抓取策略)
第五节网页库
第六节下载系统回顾及未来发展
参考文献
第四章搜索引擎的分析系统
第一节知识准备
HTML语言
锚文本(anchortext)
半结构化数据(Semi-structureddata)
第二节信息抽取及网页信息结构化
网页结构化的目标
建立HTML标签树
通过投票方法得到正文
网页结构化过程回顾
第三节网页查重
网页查重技术发展历史
网页查重实现方法
第四节中文分词
什么是中文分词
通过字典实现分词
通过统计学方法实现分词
第五节PageRank
PageRank的来由
PageRank的基本想法
PageRank的计算公式
PageRank的计算方法★
第六节分析系统结构图
参考文献
本源码包内暂不包含可直接显示的源代码文件,请下载源码包。
English
