资源说明:规则定义:通过采集规则的定义,可以搜索所有网站采集几乎任何类型的信息。
数据保存:数据边采集边自动保存到关系数据库中,并且数据结构能够自动适应
计划任务:通过这个功能可以让你的采集任务定时或者一直循环执行。
网页正文提取:可以将正文从网页htm代码中提取出来并进行适当的格式转换,并自动删除无用的htm代码。
采集结果分类:可以根据用户定义的分类信息进行采集结果的自动分类。
过滤重复内容:自动删除重复内容。
数据发布:可以通过自定义接口,将已采集的结果数据发布到任意的内容管理系统和指定数据库中。
有问题请发送邮件:changyuan126@163.com
本源码包内暂不包含可直接显示的源代码文件,请下载源码包。