火车头采集搜狐号自媒体教程方法!(已解决) -足球竞猜app

seo工具 12-19 15:52:00

====20210813更新====

搜狐新闻采集按照作者采集的目前还是比较好用的,有些朋友针对性的爬取某个作者的信息,效果很好,淘小白自己也经常使用搜狐按照作者采集的规则,效果也挺好,需要的朋友联系我

qq图片20210813092627.png

====20191109更新====

如果需要搜狐号作者采集规则的朋友,可以点击右侧的足球竞猜官方网站的联系方式,联系我qq


针对某一个搜狐号,进入其足球竞猜官方网站主页,进行采集,该足球竞猜官方网站主页网址无法采集到列表,不能采集到列表也就没法进行批量采集,所以,首先要解决该问题。

其次,搜狐自媒体号上的文章url都有一定的特点,如下:

http://www.s-o-h-u.com/a/变量_114778

我们只需要把这个变量找到就好了!然后用火车头拼接一下url就可以了。

难点:抓包找数据分析


案例如下:

1、目标搜狐号足球竞猜官方网站主页:http://mp.sohu.com/profile?xpt=chbhzzc5mjg1otg1mdkxnebzb2h1lmnvbq==&_f=index_pagemp_1

2、fiddler抓包,如下图所示:

抓包图1.png

查看大图

该网址就是列表url原来的地址: http://mp.so%h#u.com/apiv2/profile/newslistajax?xpt=chbhzzc5mjg1otg1mdkxnebzb2h1lmnvbq==&pagenumber=1&pagesize=10&categoryid=&_=1513670508722

在火车头中多页采集修改这个地方:pagenumber=1

3、采集文章页url

把上面的原址用浏览器打开,如下图所示:

抓包图2.png

我们把黑色圈中的部分采集下来即可。然后火车头采集规则这么编写:

点击查看原图


列表页采集到了,内页文章页可以直接看源码编写采集规则,上面是难点,简单的就不啰嗦了。

有问题q我:1290654348