25

高铁火车采集器如何采集JS分页/点击加载ajax列表内容

 2 years ago
source link: https://www.chenweiliang.com/cwl-1906.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

当前位置: 陈沩亮博客 » 建站 » 高铁火车采集器如何采集JS分页/点击加载ajax列表内容

高铁火车采集器如何采集JS分页/点击加载ajax列表内容

广告

2021年11月14日

常规的文章采集简单,但是高铁(火车)采集器采集JS分页、瀑布流比较困难,点击加载的JavaScript,下拉加载类似ajax的列表页面,让很多新手无法下手。

陈沩亮博客会在此分享高铁火车采集器如何采集JS分页、点击加载ajax的列表。

火车采集器采集内容页网址写在JS中

首先目标页面需要抓包,简单的从网站抓取json数据,比较难的网站需要post方法,还需要填cookies,随机值,比如蘑菇街等等……

今天就来一个简单的火车头采集器如何获取JS调用的内容,以果壳网为例。  

高铁火车头采集器如何获取JS调用的内容?

首先需要使用的是Chrome浏览器  ▼

1、首先在目标页面按F12Ctrl+Shift+C打开检查元素,然后点击Network选项卡 ▼

高铁火车采集器如何采集JS分页?采集点击加载ajax列表

2、点击XHR按钮,在页面上触发ajax加载,浏览器会监听页面数据的执行和变化 ▼

2、点击XHR按钮,在页面上触发ajax加载,浏览器会监听页面数据的执行和变化

红框是抓取数据的地址 ▲

3、点击数据地址,右侧出现详细信息。 注意请求地址url的规律。 比如下图中,有时间戳和页码 ▼

3、点击数据地址,右侧出现详细信息。 注意请求地址url的规律。 比如下图中,有时间戳和页码 

4、在火车采集器中添加如下捕获的地址,并设置地址规则,然后是常规火车采集器设置 ▼

4、在火车采集器中添加如下捕获的地址,并设置地址规则,然后是常规火车采集器设置

AddThis Recommended

发表评论 取消回复

您的电子邮箱地址不会被公开。 必填项已用*标注

显示名称 *

电子邮箱地址 *

网站地址


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK