在使用火车头采集器来采集文章的时候,一般都是按照采集列表网址——文章网址——内容的顺序来操作,而核心部分就是采集文章内容,这步都会在采集到文章网之后进行,而特殊情况下,比如我们采集果壳网的问答时,一些问答的重要数据都在列表页:
图中关注数、回答数、标签信息都在列表页中,问答详情页并无相关数据采集,那么如何把这三个信息采集到文章里呢?
今天,余斗就来教大家如何在列表中建立标签采集数据,以火车头采集器7.6版为例,在第一步:采集网址规则中——多级网址采集规则——网址获取选项——手动填写链接地址规则——脚本规则中这样写:
<li><a href="[参数]" title="(*)" class="title">(*)</a><span class="time">[标签:时间]</span><span class="num">[标签:回答数]/[标签:浏览数] </span></li>
如图:
注意,这个里边只能采集代码,不能下载文件.因为这个标签数据是在网址列表里获得的,所以你在测试规则时无法对它进行编辑,也就是无法执行一些过滤替换操作,设置完成后,文章内容采集界面就自动列出我们在列表页设置好的标签:
套路很深,不支持下载!