Python爬虫：模拟JS生成动态x-apiKey解析实践

版权申诉

78 浏览量更新于2024-08-07 收藏 1.12MB DOC 举报

"这篇文档详细介绍了如何在Python爬虫中处理JS逆向，特别是针对动态生成请求头属性x-apiKey的问题。文档通过一个具体的案例，即爬取某个区块链网站的数据，来阐述解决策略。" 在Python爬虫实践中，经常会遇到网站使用JavaScript动态生成关键参数，如x-apiKey，以防止爬虫抓取数据。在这种情况下，JS逆向是必要的，它涉及到理解JS代码并用Python重新实现相关逻辑。文档中提供了两种主要方法，一是直接在Python中使用`execjs`调用JS文件执行，二是根据JS逻辑在Python中重写相应方法。本文重点讨论后者。以案例网站https://www.oklink.com/zh-cn/btc/tx-list为例，该网站的数据通过AJAX请求获取，请求头中的x-apiKey是动态生成的，基于时间戳。逆向的目标就是找出生成x-apiKey的方法并在Python中复现。首先，使用浏览器的开发者工具找到对应的API接口，例如：https://www.oklink.com/api/explorer/v1/btc/transactionsNoRestrict?，这是一个GET请求，需要包含动态生成的x-apiKey。接着，定位到x-apiKey的生成逻辑，发现它是通过`getApiKey()`方法得到的。进一步跟踪此方法，我们找到如下代码： ```javascript { key: "getApiKey", value: function() { var t = (new Date).getTime(), e = this.encryptApiKey(); return t = this.encryptTime(t), this.comb(e, t) } } ``` 1. 变量`t`代表当前时间戳。 2. 变量`e`是通过`encryptApiKey`方法加密后的结果。 3. `encryptTime(t)`对时间戳`t`进行加密。 4. `comb(e, t)`将加密后的`e`与`t`组合起来。为了在Python中模拟这个过程，你需要： - 实现`encryptApiKey`方法的逻辑，这可能涉及到解密网站的特定算法。 - 实现`encryptTime`函数，这可能包括对时间戳进行某种形式的加密操作。 - 最后，将这两个结果合并，以生成与JS端相同的x-apiKey。在实际应用中，你可能需要使用类似`requests`库发送HTTP请求，并在每次请求前计算新的x-apiKey。同时，注意模拟其他可能的请求头和参数，以确保请求的完整性和正确性。 JS逆向是Python爬虫中的一项重要技能，它需要对JavaScript有深入的理解，以及能够将JS逻辑转换为Python代码的能力。通过这种方式，我们可以绕过网站的反爬机制，成功获取所需数据。在进行JS逆向时，一定要遵循合法和道德的网络爬虫规则，尊重网站的robots.txt文件，并避免对网站造成过大负担。

python 爬虫之 JS 逆向

Python 爬虫之 JS 逆向案例

由于在爬取数据时，遇到请求头限制属性为动态生成，现将解决方式整理如下：

JS 逆向有两种思路：

一种是整理出 js 文件在 Python 中直接使用 execjs 调用 js 文件（可见我的另一篇文章

《python 爬虫之企某科技 JS 逆向》）。

一种是根据 JS 中的逻辑，使用 Python 重写相应的方法。

本文介绍的是第二种使用 Python 重写 JS 的方法

需求：爬取某区块链网站 https://www.oklink.com/zh-cn/btc/tx-list?limit=20&pageNum=1 数

据

遇到的问题：目标网站的数据是通过 ajax 请求相应的接口获取数据，在请求头中需要携

带 x-apiKey（根据时间动态生成的），我们需要解决的就是整理出动态生成 x-apiKey 的方法。

解决思路：根据关键字”x-apiKey”在网站的 JS 中找到相应的定义，然后使用 python 重写

方法，在请求接口时实时生成相应的 x-apiKey

第一步：在浏览器中使用开发者工具找到相应的接口

请求地址：

https://www.oklink.com/api/explorer/v1/btc/transactionsNoRestrict?t=1654916647499&limit=20

&offset=0

请求类型：GET

请求头：x-apiKey:

LWIzMWUtNDU0Ny05Mjk5LWI2ZDA3Yjc2MzFhYmEyYzkwM2NjfDI3NjYwMjc3NTg2MT

AzNjk=

下载后可阅读完整内容，剩余4页未读，立即下载

书博教育

粉丝: 1
资源: 2837

Python爬虫：模拟JS生成动态x-apiKey解析实践

基于python爬虫学习项目源码.zip

Python爬虫JS逆向进阶课程-课程网盘链接提取码下载 .txt

大三下学期期末复习.zip

Python中的网络爬虫：Requests与BeautifulSoup

网络爬虫技巧

【进阶篇】高级爬虫实战：爬取动态网页数据

Beautiful Soup动态内容抓取技巧：应对JavaScript渲染页面的利器

Vue2基础实例-实现移动端静态页面（CDN引入方式）

基于vb+access 实现的学籍管理系统毕业设计(论文+源代码)

基于MATLAB汽车框定代码面板GUI(1).zip

最新资源