我们在用火车头采集器采集文章页的内容时,一般遇到的都是不分页的情况,但是也会有很多网站的文章页是采用分页的形式做的,这个时候要采集完整的文章就需要进一步对文章页分页进行处理。
今天余斗就教大家如何运用火车头采集器对文章页的分页采集:
一、在采集规则的第二步里,找到采集内容规则左下方有个“分页获取规则”选项卡,这就是用来设置分页。如下图:
其中,全部列出模式适用于分页地址全部显示出来的文章分页,如下图:
而上下页上n页下n页适用于分页地址只列出了部分的,如下图;
二、上下页模式的分页中,我们采集下图源代码中的分页地址:
在第三页分页代码的情况如下:
在第五页分页代码的情况如下:
通过上面我们是否可以得到一个规律:当前页的源代码是
<strong>当前页码</strong></a>
然后紧接着的代码
<a href=下一页的地址>
就包含了下一页的地址,然后以
</a>
结束,也就是从页面源代码
<strong>当前页码</strong></a>
开始然后再以
</a>
结束,中间就包含了“下一页”的地址,这就是我们说的上下页模式,其原理就是找到当前页如何获取到下一页地址的源代码格式,然后我们把这个源代码格式填写到采集器里面如下图:
左侧空白框填写的是
<strong>(*)</strong></a>
其中当前页的页码我们用(*)代替,右侧的空白框我们写的是
</a>
来做为结束,中间的就是下一页地址。
功能释义:
“自动识别”:采集器会在上面的设置的范围内,自动匹配到分页地址。
“手动填写分页地址规则”:有的时候采集器识别分页的时候遇到无法识别或者识别的不是很准确,我们就可以把分页的格式写上去,来确保识别分页的正确性。
一般是我们先用“自动识别”如果获取不到我们就用“手动填写分页地址规则”。本例子中如果我们用“手动填写分页地址规则”可以设置如下:
因为上面我们说明了下一页的地址格式是
<a href=下一页的地址>
其中我们需要的部分用[参数]代替。下面用[参数1][参数2]等等按照顺序和上面的[参数]一一对应。
三、分页设置好了之后我们就可以设置采集内容的规则了:
设置的规则一定要适用于后面的分页,然后不要忘记勾选“该标签在分页中匹配”,如果不勾选是不会采集分页地址的。
如何实现采集到的分页发布到自己网站上也是同样的分页,设置如下:
标签循环处理选项卡下面有个“分页内容连接代码”,在这里设置了连接代码,采集到的每页的内容就会以这个连接码连接在一起。
我们手动在自己网站发布文章的时候,需要分页的时候,我们都设置一个分页代码各个网站系统是不一样的,遇到分页代码就会分页,那么我们就可以把自己网站上
生成分页的代码写到这个“分页内容连接代码”就能实现分页效果了。
我们看下采集的效果:
四、我们再来说下全部列出模式的分页,如下图:
设置下分页开始和结束。其他设置和上面上下页是一样的。
看完上面的教程,我们不难看出,其实所有的分页都是可以使用上下页模式的,无论分页地址是否全部或者部分列出,根据上面讲到的原理,找到规律就可以了。
套路很深,不支持下载!