广告投放

火车头使用Post方法采集Ajax页面教程

经验
3月20日
编辑

2哥互联网行业分析，SEOer，web前端

目录

前面有写过一篇瀑布流的采集方法，今天在添加一个POST方法来采集Ajax刷新页面的教程。

之前的文章请看：火车头采集动态加载Ajax数据（无分页瀑布流网站）

如果遇到POST方法来架子Ajax数据，这和我之前写的是两个类型，瀑布流是直接刷新出数据的页面。

采集网站分析

采集任何一个新站前我们都要对他进行一番分析才好下手。

列表页分析

这个网站的列表页，前面并不是通过Ajax加载的。CTRL+U可以直接看到列表内容，通过浏览器也看不到相关请求地址。

火车头使用Post方法采集Ajax页面教程

火车头使用Post方法采集Ajax页面教程

因为习惯原因，我直接看了下尾页列表页。然后顺手CTRL+U看看网站代码结构有没有大的变化。防止后期采集出错。结果就发现无法看到列表内容。浏览器可以看到一个通过post请求的地址。

火车头使用Post方法采集Ajax页面教程

火车头使用Post方法采集Ajax页面教程

这时候就意识到这网站列表页可能后面的应该全是通过Ajax加载的。

通过笨方法，手动访问页面看看Ajax加载大概是哪些。最后找到大概从2200页左右开始Ajax加载。

那我们采集的时候，前面的列表页就可以使用普通方式去采集（速度更快）。

2200页开始到尾页就通过post请求Ajax页面数据。

抓包获取Post数据

这个Ajax地址我在浏览器看不到任何跟页码有关的数据。最后只能使用抓包工具看一下详细的请求内容了。

火车头使用Post方法采集Ajax页面教程

使用抓包工具Fiddler

Fiddler下载地址：OneDrive-Fiddler-Setup_v5.0.20204.45441.zip

安装设置完成后我们打开浏览器。重新访问一下采集页面，Fiddler会抓到很多请求地址。

查看分析Post数据

Ctrl+F 我们搜索那个Ajax地址

火车头使用Post方法采集Ajax页面教程

Fiddler会以黄色将搜索到的结果显示出来，我们点击一下他。

火车头使用Post方法采集Ajax页面教程

在Fiddler右侧会显示这个请求地址的相关详细信息。

火车头使用Post方法采集Ajax页面教程

信息顶部可以看到是post请求方法。往下拉。

可以看到有我们请求的页码相关内容。

火车头使用Post方法采集Ajax页面教程

访问不同页码的页面，经过研究发现规律。

火车头使用Post方法采集Ajax页面教程

currentPageIndex的值和页码相关，值等于页码减一。我们访问6139页时，currentPageIndex值是6138。

这就找到了规律，我们打开火车头采集器。

火车头采集器配置

分页设置

起始网址填入Ajax请求地址

火车头使用Post方法采集Ajax页面教程

点“高级模式”。

火车头使用Post方法采集Ajax页面教程

点“分页设置”，http请求方式“post”。

火车头使用Post方法采集Ajax页面教程

把我们Fiddler抓包获取的内容填进去。

火车头使用Post方法采集Ajax页面教程

将currentPageIndex值的内容替换成火车头采集器的“分页”标签。

火车头使用Post方法采集Ajax页面教程

下面填入页码。

页面地址是从2200到6140，上面我们分析得出post请求内容的currentPageIndex值是实际页码减一。所以这里面我们填2199到6139.

火车头使用Post方法采集Ajax页面教程

网址获取选项设置

为了筛选出我们需要的内容，我们设置一下网址获取选项。

打开浏览器F12开发工具，预览一下Ajax获取的内容。

火车头使用Post方法采集Ajax页面教程

可以看到链接的形式是

<a href=\"/chengrenzikao/20200611152022.html\">自考成考报名条件有哪些？</a>

完整的链接地址是

https://域名/chengrenzikao/20200611152022.html

那我们就可以使用下面的规则提取地址。

火车头使用Post方法采集Ajax页面教程

我们测试一下网址采集。

测试网址采集

点击测试可能提示“post请求必须选择网页编码”我们在火车头其他设置中将编码选为“UTF8”即可。

火车头使用Post方法采集Ajax页面教程

可以看到已经正确获取到了链接。不放心可以复制链接实际访问一下看看是否正确。

火车头使用Post方法采集Ajax页面教程

注意事项

采集过程注意运行线程和请求间隔时间。教程在测试时因为开的线程较多，频率过高导致对方网站开启了防CC设置。拉黑了我一个服务器IP，此教程写完用了两台服务器。

我们实际采集可以只开1个线程，并设置合适的间隔时间，比如1000ms到1500ms左右。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

给TA打赏

共{{data.count}}人

人已打赏

广告位招租919838898

0 条回复 A文章作者 M管理员

暂无讨论，说说你的看法吧

❯

解锁会员权限

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部

本站由多途云提供高防CDN安全防护