问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

爬虫实战：如何获取政府网站的政策法规数据

创作时间:

2025-01-21 18:56:16

作者:

@小白创作中心

爬虫实战：如何获取政府网站的政策法规数据

最近在学习爬虫，做个笔记吧

今天爬xx政府网站-政策法规栏目的数据

咱们首先需要找到数据从哪里来，鼠标右键->检查（或者快捷键一般为F12）检查元素，搜索关键词

eg.【违法案例】

回车，

如果没有的话，可以尝试刷新页面后重新回车搜索关键词

选中其中一个出现的搜索结果，

找到接口后，咱们看下是不是想要爬取的数据

找到接口了，就是它 http://www.whggzy.com/portal/category 请求方法是POST

接下来，咱们看下它的请求头Headers跟请求参数Data吧

Headers
POST请求方法的Data:

咱们到现在，直接按照这个Headers和Data构造，发送HTTP请求肯定没问题，但咱们要写爬虫代码，

第一步：看看Headers和Data里面哪些参数是必要的

第二步：有必要参数是加密的么【或者说，不能复制粘贴过来直接用的】

首先尝试下最基础的Referer和User-Agent够用不够用

运行爬虫程序结果如下：

咱们对照着Headers参数看看，可能是缺了Content-Type

加上后再次运行

O了，成功获取数据，这边我把他保存到文件里了，方便截屏给各位读者朋友看

Headers和Data中，没啥加密的，就一个时间戳_t会变，咱们再修改下代码，生成时间戳吧

注意：这里的时间戳要注意位数，原本的时间戳是13位的，咱们这里也得和它一样

运行后没得问题，能拿到数据

视频教程里，在确定Headers里必要的参数时，是采取的调试JS代码的方式，我这边是直接通过程序返回的结果判断了少Content-Type

这里，我也调试下JS代码，练练手。请各位看官看看吧。

咱们按照JS调试中获得的headers参数，修改下爬虫代码试试看

搜索路径 /portal/category

添加XHR断点，刷新页面，单步调试，直到出现headers

也可以成功获得数据

热门推荐

抗美援朝老兵李维波：用30年讲述志愿军故事

抗美援朝老兵李维波：用30年讲述志愿军故事

打破认知比亚迪第五代DM技术解析会成都站来袭

打破认知比亚迪第五代DM技术解析会成都站来袭

固态硬盘温度多少算正常的

固态硬盘温度多少算正常的

壬二酸的使用风险与注意事项

壬二酸的使用风险与注意事项

家电国补再加码，今年消费表现将如何？

家电国补再加码，今年消费表现将如何？

让古建在历史中苏醒：韩城状元府的保护与传承

让古建在历史中苏醒：韩城状元府的保护与传承

《百年孤独》：现实主义易解，魔幻文笔难习

《百年孤独》：现实主义易解，魔幻文笔难习

使用U盘PE重装Windows系统

使用U盘PE重装Windows系统

人民大道改善方案

人民大道改善方案

为什么男人总有那么多的屎要拉？你怎么看？

为什么男人总有那么多的屎要拉？你怎么看？

中医药科普——石斛篇

中医药科普——石斛篇

达古冰川适合几月份去

达古冰川适合几月份去

USB接口清洁指南：三种实用清洁方法

USB接口清洁指南：三种实用清洁方法

蓝牙与2.4G WiFi的区别：传输速度、距离及应用场景全解析

蓝牙与2.4G WiFi的区别：传输速度、距离及应用场景全解析

司美格鲁肽注射剂量怎么调整

司美格鲁肽注射剂量怎么调整

《冒牌上尉》：权力的幻象与人性的深渊

《冒牌上尉》：权力的幻象与人性的深渊

嘴周围一圈黑色素怎么去除

嘴周围一圈黑色素怎么去除

青光眼手术价格表：小梁切术2500元起，激光手术2200元起

青光眼手术价格表：小梁切术2500元起，激光手术2200元起

青光眼手术费用全解析：从3000元到30000元，这些因素影响手术价格

青光眼手术费用全解析：从3000元到30000元，这些因素影响手术价格

打开心窗 | 课堂上，我害怕被老师点名，怎么办？

打开心窗 | 课堂上，我害怕被老师点名，怎么办？

古典诗文中的“扁舟”意象

古典诗文中的“扁舟”意象

结合诗词起一个有美好寓意的女孩名字

结合诗词起一个有美好寓意的女孩名字

“觑”怎么读？学会这个观察动词发音！

“觑”怎么读？学会这个观察动词发音！

【实用技巧】夏日解决游戏卡顿技巧，不知道得赶紧来看！第二集

【实用技巧】夏日解决游戏卡顿技巧，不知道得赶紧来看！第二集

氮化镓充电器：一个充电头充所有电子设备，是噱头还是真事儿？

氮化镓充电器：一个充电头充所有电子设备，是噱头还是真事儿？

家用冰箱选择指南：不同家庭的容量需求

家用冰箱选择指南：不同家庭的容量需求

长期极低热量饮食的危害有哪些

长期极低热量饮食的危害有哪些

70%的热量消耗靠基础代谢，5个方法可以提高

70%的热量消耗靠基础代谢，5个方法可以提高

常见的松树种类及其特征与应用

常见的松树种类及其特征与应用

便检取样保存指南：2小时内送检，最长不超过24小时

便检取样保存指南：2小时内送检，最长不超过24小时

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号