走进搜索引擎(上) 梁斌编著上中下 - 源码 - 源码 - 免费下载

走进搜索引擎(上) 梁斌编著上中下

文件大小： 9691k

源码售价： 10 个金币积分规则积分充值

资源说明：第一章引言　　第一节什么是搜索引擎　　第二节搜索引擎的发展简史　　搜索引擎的发展历史　　第三节搜索引擎大事快览　　第四节国内著名搜索引擎　　百度（www.baidu.com）　　中搜（www.zhongsou.com）　　天网（e.pku.edu.cn）　　搜狗（www.sogou.com）　　参考文献　　第二章搜索引擎概貌　　第一节搜索引擎的主要需求　　查得快　　查得全　　查得准　　查得稳　　第二节搜索引擎的大系统　　搜索引擎的体系结构　　第三章搜索引擎的下载系统　　第一节爬虫的发展历史　　世界上第个爬虫　　爬虫的发展历程　　第二节万维网及其网页分析　　蝴蝶结型的万维网　　万维网的直径　　万维网的规模及变化特征　　网页的特征　　第三节有关爬虫的基本概念　　爬虫　　种子站点　　URL 　　Backlinks 　　第四节网页抓取原理　　telnet和wget 　　从种子站点开始逐层抓取　　不重复抓取策略　　网页抓取优先策略　　网页重访策略★ 　　Robots协议　　其他应该注意的礼貌性问题　　抓取提速策略（合作抓取策略）　　第五节网页库　　第六节下载系统回顾及未来发展　　参考文献　　第四章搜索引擎的分析系统　　第一节知识准备　　HTML语言　　锚文本（anchortext）　　半结构化数据（Semi-structureddata）　　第二节信息抽取及网页信息结构化　　网页结构化的目标　　建立HTML标签树　　通过投票方法得到正文　　网页结构化过程回顾　　第三节网页查重　　网页查重技术发展历史　　网页查重实现方法　　第四节中文分词　　什么是中文分词　　通过字典实现分词　　通过统计学方法实现分词　　第五节PageRank 　　PageRank的来由　　PageRank的基本想法　　PageRank的计算公式　　PageRank的计算方法★ 　　第六节分析系统结构图　　参考文献

部分文件列表（点击文件名可查看文件内容）

					
									本源码包内暂不包含可直接显示的源代码文件，请下载源码包。