当前位置:首页 > 站长经验 > 正文内容

火车头使用Post *** 采集Ajax页面教程,

a811625534个月前 (09-26)站长经验27

 

前面有写过一篇瀑布流的采集 *** ,今天在添加一个POst *** 来采集Ajax刷新页面的教程。

之前的文章请看:火车头采集动态加载Ajax数据(无分页瀑布流网站)

如果遇到POST *** 来架子Ajax数据,这和我之前写的是两个类型,瀑布流是直接刷新出数据的页面。

采集网站分析

采集任何一个新站前我们都要对他进行一番分析才好下手。

列表页分析

这个网站的列表页,前面并不是通过Ajax加载的。CTRL+U可以直接看到列表内容,通过浏览器也看不到相关请求地址。

因为习惯原因,我直接看了下尾页列表页。然后顺手CTRL+U看看网站代码结构有没有大的变化。防止后期采集出错。结果就发现无法看到列表内容。浏览器可以看到一个通过post请求的地址。

这时候就意识到这网站列表页可能后面的应该全是通过Ajax加载的。

通过笨 *** ,手动访问页面看看Ajax加载大概是哪些。最后找到大概从2200页左右开始Ajax加载。

那我们采集的时候,前面的列表页就可以使用普通方式去采集(速度更快)。

2200页开始到尾页就通过post请求Ajax页面数据。

抓包获取Post数据

这个Ajax地址我在浏览器看不到任何跟页码有关的数据。最后只能使用抓包工具看一下详细的请求内容了。

使用抓包工具Fiddler

Fiddler下载地址:OneDrive-Fiddler-Setup_v5.0.20204.45441.zip

安装设置完成后我们打开浏览器。重新访问一下采集页面,Fiddler会抓到很多请求地址。

查看分析Post数据

Ctrl+F 我们搜索那个Ajax地址

Fiddler会以黄色将搜索到的结果显示出来,我们点击一下他。

在Fiddler右侧会显示这个请求地址的相关详细信息。

信息顶部可以看到是post请求 *** 。往下拉。

可以看到有我们请求的页码相关内容。

访问不同页码的页面,经过研究发现规律。

currentPageIndex的值和页码相关,值等于页码减一。我们访问6139页时,currentPageIndex值是6138。

这就找到了规律,我们打开火车头采集器。

火车头采集器配置分页设置

起始网址填入Ajax请求地址

点“高级模式”。

点“分页设置”,http请求方式“post”。

把我们Fiddler抓包获取的内容填进去。

将currentPageIndex值的内容替换成火车头采集器的“分页”标签。

下面填入页码。

页面地址是从2200到6140,上面我们分析得出post请求内容的currentPageIndex值是实际页码减一。所以这里面我们填2199到6139.

网址获取选项设置

为了筛选出我们需要的内容,我们设置一下网址获取选项。

打开浏览器F12开发工具,预览一下Ajax获取的内容。

可以看到链接的形式是

<ahref=\"/chengrenzikao/20200611152022.html\">自考成考报名条件有哪些?

完整的链接地址是

https://域名/chengrenzikao/20200611152022.html

那我们就可以使用下面的规则提取地址。

我们测试一下网址采集。

测试网址采集

点击测试可能提示“post请求必须选择网页编码”我们在火车头其他设置中将编码选为“UTF8”即可。

可以看到已经正确获取到了链接。不放心可以复制链接实际访问一下看看是否正确。

注意事项

采集过程注意运行线程和请求间隔时间。教程在测试时因为开的线程较多,频率过高导致对方网站开启了防CC设置。拉黑了我一个服务器IP,此教程写完用了两台服务器。

我们实际采集可以只开1个线程,并设置合适的间隔时间,比如1000ms到1500ms左右。

本文来自2号站长网,转载请注明出处:https://www.zz2zz.com/331414.html

扫描二维码推送至手机访问。

版权声明:本文由2345好导航站长资讯发布,如需转载请注明出处。

本文链接:http://2345hao.cn/blog/index.php/post/15264.html

分享给朋友:

“火车头使用Post *** 采集Ajax页面教程,” 的相关文章

站长空间:专访驱动中国网站创始人苏杨,站长空间:专访驱动中国网站创始人苏杨

站长空间:专访驱动中国网站创始人苏杨,站长空间:专访驱动中国网站创始人苏杨

  一个大学生的建站创业之路 1999年,来北京上大学之前从未见过计算机的苏杨,很快对计算机和互联网着了迷,半年后便利用学到的知识来负担自己的学费和生活费。2002年,用手里仅有的几千元钱买了服务器做虚拟主机、网站,开始创业,2003年初成立公司,进入IDC行业。 到2005年,当在IDC行...

【征文精选】一个草根站长的梦,【征文精选】一个草根站长的梦

【征文精选】一个草根站长的梦,【征文精选】一个草根站长的梦

   各位网友朋友大家好,看到admin5的(草根站长故事征集活动),无意之间就有心里一种冲动,看着网络上的故事真是太多了,大千世界,无奇不有。现在还是饿着肚子,也没有什么事情可做,天天添加内容,都快累死了,有太多的时候都是这样度过的,早上10点起床,来到公司一天就是2顿饭,天天关注自...

站长网与百度知道互联网合作并担任知道专家,站长网与百度知道互联网合作并担任知道专家

站长网与百度知道互联网合作并担任知道专家,站长网与百度知道互联网合作并担任知道专家

  站长网(www.admin5.com) 与百度知道互联网(zhidao.baidu.com) 紧密合作,一起解决更多互联网方面的问题。给更多的站长和网络人解决问题。服务于互联网作努力本站站长 图王 也荣誉为百度知道知识专家团的一员。为更多的朋友解决网络问题 希望大家继续支持 站长网 支持 百...

一个站长和女孩之间不得不讲的故事,一个站长和女孩之间不得不讲的故事

一个站长和女孩之间不得不讲的故事,一个站长和女孩之间不得不讲的故事

  有个女孩叫君儿,男孩叫磊。他们通过QQ聊天认识了,然后经常写信聊天,到相识相知。03年的圣诞节他们见面了,彼此感觉应该还算 很不错,晚上在一起吃饭,在晚上一起去了我们学校过圣诞节。这一晚,君回学校宿舍了,2004年1月1日 元旦到了,磊磊非常想君儿,磊就打电话喊君一起出来玩,那一晚上我们都没有...

老子是个站长___连载(一),老子是个站长___连载(一)

老子是个站长___连载(一),老子是个站长___连载(一)

    “平子又把鞋脱了,怪不得这么臭......”   平子是我们这一带有名的人物,之所以有名,因为他在我们这边是大话西游级数最高的玩家。所以很多玩大话的人总是“慕名”前来拜访他 ---就是这个叫做“新浪”的网吧。先别笑,其实N个人都好奇:这个...

不会做网页的职业站长,不会做网页的职业站长

不会做网页的职业站长,不会做网页的职业站长

                   不会做网页的职业站长       &...