{
    分享网正式开通,我们为大家提供免费资源,欢迎大家踊跃投稿!

火车头采集器在列表页中采集文章相关数据的方法

在使用火车头采集器来采集文章的时候,一般都是按照采集列表网址——文章网址——内容的顺序来操作,而核心部分就是采集文章内容,这步都会在采集到文章网之后进行,而特殊情况下,比如我们采集果壳网的问答时,一些问答的重要数据都在列表页:

图中关注数、回答数、标签信息都在列表页中,问答详情页并无相关数据采集,那么如何把这三个信息采集到文章里呢?

今天,余斗就来教大家如何在列表中建立标签采集数据,以火车头采集器7.6版为例,在第一步:采集网址规则中——多级网址采集规则——网址获取选项——手动填写链接地址规则——脚本规则中这样写:


<li><a href="[参数]" title="(*)" class="title">(*)</a><span class="time">[标签:时间]</span><span class="num">[标签:回答数]/[标签:浏览数] </span></li>
 

如图:

注意,这个里边只能采集代码,不能下载文件.因为这个标签数据是在网址列表里获得的,所以你在测试规则时无法对它进行编辑,也就是无法执行一些过滤替换操作,设置完成后,文章内容采集界面就自动列出我们在列表页设置好的标签:


套路很深,不支持下载!


米微资源分享网 , 版权所有丨本站资源仅限于学习研究,严禁从事商业或者非法活动!丨本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:火车头采集器在列表页中采集文章相关数据的方法
喜欢 ()分享 (0)