火车头采集器在列表页中采集文章相关数据的方法-米微资源分享网

在使用火车头采集器来采集文章的时候，一般都是按照采集列表网址——文章网址——内容的顺序来操作，而核心部分就是采集文章内容，这步都会在采集到文章网之后进行，而特殊情况下，比如我们采集果壳网的问答时，一些问答的重要数据都在列表页：

图中关注数、回答数、标签信息都在列表页中，问答详情页并无相关数据采集，那么如何把这三个信息采集到文章里呢？

今天，余斗就来教大家如何在列表中建立标签采集数据，以火车头采集器7.6版为例，在第一步：采集网址规则中——多级网址采集规则——网址获取选项——手动填写链接地址规则——脚本规则中这样写：

如图：

注意,这个里边只能采集代码,不能下载文件.因为这个标签数据是在网址列表里获得的,所以你在测试规则时无法对它进行编辑,也就是无法执行一些过滤替换操作，设置完成后，文章内容采集界面就自动列出我们在列表页设置好的标签：