落伍者(三羊开泰)
我知道你不知道我知道你不知道!
- 贡献
- 1147
- 鲜花
- 4
- 注册时间
- 2005-1-20
|
发表于 2006-1-24 00:02:11
|
|阅读模式
来自 中国广东深圳
更新日期[2006-1.23]:
此次更新改动较大,更新了界面,功能更加强大!
更新日期[2006-1.13]:
1。采集到的内容不会自动处理链接
2。几处小BUG
3。更新了过滤模
Spr Collection .NET 2006 帮助文档
Spr Collection .NET 2006 V2.1.23.1230
软件使用说明文档
目录
1.软件界面说明
1.1.采集器
1.2.链接列表
1.3.用户设置
2.操作流程说明
1.软件界面说明
1.1采集器
1.2链接列表
1.3用户设置
2.操作流程说明
2.1 确认采集目标网站,我们以采集华军的软件新闻为例;
2.2 添加采集器
2.2.1 填上采集器的名称 (不能有同名的采集器)
2.2.2 连接索引
2.2.2.1 单页:
输入我们要采集的网址:http://news.newhua.com/html/Soft_news/index.shtml
图:
2.2.2.2 多页:
如果要采集后面的页面:
http://news.newhua.com/html/Soft_news/index_2.shtml
。。。。。。。。。。。。。。。。。。。。。。。
http://news.newhua.com/html/Soft_news/index_10.shtml
则填入http://news.newhua.com/html/Soft_news/index_[分页].shtml,在后面的文本框里分别填入2和10
图:
2.2.3 HTTP选项
2.2.3.1 GET方式
Cookie内容:
当一些网站需要登陆浏览的时候用到的功能。可以使用一些能捕捉cookies内容的软件。考虑以后版本加入登陆采集功能。推荐:TouchNet浏览器
2.2.3.1 POST方式
向CSDN这样的用POST传递数据的网站,可以以POST方式提交数据来获取内容。
2.2.4 链接和标题规则
2.2.4.1 链接规则
连接规则可用标签:[连接]和[变数],可以自己输入,也可以通过按钮插入。
打开http://news.newhua.com/html/Soft_news/index.shtml的源文件,就是在网页上点击鼠标右键,选择“查看源文件”.
在网页上随便找一条新闻,我找的是 《六大更新:腾讯QQ2006贺岁版火热发布!》
然后再源文件里查找 《六大更新:腾讯QQ2006贺岁版火热发布!》
下面就是在源文件里找到的连接地址了
CODE:
·<a Class="afont14px" href="/html/Soft_news/2006-1/20/0612016373961738_2.shtml" title="六大更新:腾讯QQ2006贺岁版火热发布!">六大更新:腾讯QQ2006贺岁版火热发布!</a>
然后利用标签,将上面地址改成下面这一个样子。
CODE:
·<a Class="afont14px" href="[连接]" title="[变数]”">[变数]</a>
2.2.4.2 标题规则
标题规则可用标签: [标题] [变数] 基本上连接地址都带有标题,所以将上面的改下就可以用了
CODE:
·<a Class="afont14px" href="[变数]" title="[变数]”">[标题]</a>
2.2.5 内容规则
打开 《六大更新:腾讯QQ2006贺岁版火热发布!》 的连接. 查看它的源文件。
文件开头的文字是 “腾讯QQ不仅仅是",在源码里查找它。
CODE:
<TD vAlign=top bgColor=#ffffff height=350><FONT class=fonttitle1 id=zoom style="FONT-SIZE: 15px"><BR> 腾讯QQ不仅仅是
在内容规则里先输入 <TD vAlign=top bgColor=#ffffff height=350><FONT class=fonttitle1 id=zoom style="FONT-SIZE: 15px">[内容]
好了,接下来找文章的结尾。
文章结尾文字 "点击下载QQ2006贺岁版" 在源文件里查找 它
找文章结尾 唯一的 文字 我选中了 “上一篇”, 把上面的内容规则补上。
TD vAlign=top bgColor=#ffffff height=350><FONT class=fonttitle1 id=zoom style="FONT-SIZE: 15px">[内容]上一篇 2.2.6 分页规则
如果文件没有分页,这里就留空
华军有些文章都有分页,所以还要填写分页区域规则。
找个有分页的网址:获取他的分页代码。
这里我用上版的分页介绍
CODE:
<div align="right">本新闻共<font color=red>2</font>页,当前在第<font color=red>1</font>页 <font color="red">1</font> <a href="061915560466099_5_2.shtml">2</a> </div>
把第1页后面的都设置为分页区域,把不确定的地方用[变数]替换,修改后如下:
CODE:
<div align="right">本新闻共<font color=red>[变数]</font>页,当前在第<font color=red>[变数]</font>页 <font color="red">[变数]</font> [分页区域] </div> 2.2.6 过滤规则
过滤的内容为 内容规则采集到的内容里进行过滤得,所以得在上面步骤都完成后再查找要过滤得内容。
通过右边的按钮进行添加,编辑,和删除,如果要删除一个过滤规则,只要点编辑,把内容清空就可以了。替换的操作也是一样
面内容规则里把 分页信息也包括了,所以这里先把分页信息给去掉。
CODE:
<div align="right">本新闻共<font color=red>[变数] </div> 2.2.7 内容替换
上一个版本中程序会自动把采集到的内容里的图片链接及文字链接自动进行处理.考虑到灵活性,去掉了自动处理的功能,使用了替换功能.
操作方法同过滤规则.
在这个网页中有图片,找到的图片地址是:<IMG src="/Newhua_Files/Net_pic/2006-1/20/43678701120qq2006_1.jpg">
添加一个替换:/Newhua_Files/Net_pic/|http://news.newhua.com/Newhua_Files/Net_pic/
2.2.8 探测软件地址
下载站点基本上都做了防盗链。这个功能可以探测到软件的真实下载地址。暂不开放这个功能。。
到这里就可以点击保存按钮了。
2.3 采集器列表
左边的采集器树,右边的为采集到的链接树。右边的按钮只有在采集到链接后才会自动激活。
左边下面的按钮对应左边的树,右边的按钮对应右边的树。
选择我们刚才添加的采集器。点击“采集”。采集过程根据你的网速及目标网站的网速。
选择一个链接,点击“测试链接”
满意后 把需要的链接前面勾起来或按“全选”,点击“导入链接”
2.4 数据浏览
对以导入的链接进行操作。
2.5 登陆设置
本版已经加入对PHPWind论坛的支持~~。支持需要验证码登陆的PHPWind论坛
输入登陆地址及登陆名称、密码等,点击登陆,会看到登陆成功
已经成功登陆论坛了。点击刷新分类.获取论坛的版块,也可以使用自定义分类。
设置好后点下保存设置~~敏感信息都经过加密处理了。
2.6 数据导入(需要登陆后才能打开本窗体)
选择你需要发帖的格式。如果发HTML格式的帖子,必须要能发HTML文章的帐号。
也可以选择UBB格式发帖,软件内置HTML - UBB的转换。
选择数据列表里要导入的数据集(打勾有效),支持多个数据集导入。
点击 开始导入 ,我们看到右边的状态栏已经开始在发表了。
下载
[ 本帖最后由 6sky 于 2006-1-24 00:37 编辑 ] |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?注册
x
|