注册 登录
落伍者 返回首页

lsd2015的个人空间 https://www.im286.net/?1293820 [收藏] [复制] [RSS]

日志

火车采集器V9:网页数据抓取之登录采集

已有 162 次阅读2015-11-10 09:51 |个人分类:火车采集器| 招聘信息, 采集器, 网页, 电话, 网页数据抓取

我们在进行网页数据抓取的过程中,会发现有些网页需要权限才能看到全部内容,这种网站是必须登录才能看到内容的,比如论坛内容采集,或者要采集招聘信息里的电话号码等等,这种情况大家应该都遇到过,所以在网页数据抓取时要用到登录采集,现在就这个问题我给大家分享下我的经验——如何实现登录采集功能。
    所用到的抓取工具是最常用的火车采集器V9,其实现原理为:我们手动操作要查看权限的内容只需要登录账号就可以了,那么火车采集器也是同理,只需要让采集器登录就能看到这个网站隐藏的信息。
如何在火车采集器里面登录网页?火车采集器采用的是内置浏览器登录采集,数据发布有时也需要登录,发布登录除浏览器登录之外,还有另一种登录方式是数据包登录,这里讲解采集登录:
第一步,找到登录的界面。

第二步,按照下图的说明登录你要采集的网站,使用浏览器获取网页登录信息。这里Cookie是指用户的登录信息,Useragent是客户端或浏览器标识。



    通过上面2步,已经让火车采集器成功登录网站了,效果如上图所示。操作还是比较简单的,大家这样操作就能轻松完成登录采集啦!需要注意的是,这里只能是处理登录可见的内容,那种要回复才可见的是没有办法处理的。

评论 (0 个评论)

论坛客服/商务合作/投诉举报:2171544 (QQ)
落伍者创建于2001/03/14,本站内容均为会员发表,并不代表落伍立场!
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论!
落伍官方微信:2030286 邮箱:(djfsys@gmail.com|tech@im286.com)
© 2001-2014

浙公网安备 33060302000191号

浙ICP备11034705号 BBS专项电子公告通信管[2010]226号

  落伍法律顾问: ITlaw-庄毅雄

手机版|找回帐号|不能发帖?|Archiver|落伍者

GMT+8, 2025-5-1 13:48 , Processed in 0.025318 second(s), 22 queries , Gzip On.

返回顶部