Python爬虫：JS逆向解析实战——顺序验证与请求头理解

版权申诉

176 浏览量更新于2024-07-08 收藏 1.97MB PDF 举报

在Python爬虫的学习过程中，遇到了"猿人学第三题"关于请求顺序验证和请求头验证的问题。该题主要围绕一个JavaScript逆向工程的挑战展开，目标是理解并处理动态加载的数据接口。首先，通过分析，我们发现目标网站的数据接口可能隐藏在看似无害的`3`和`3?page=xx`结构中，但实际接口参数仅包含一个名为`sessionid`的cookie。在尝试获取数据时，未带cookie的请求返回了JavaScript代码，而不是预期的JSON数据。这表明该接口依赖于客户端生成的sessionid进行身份验证。在带上cookie后，依然得到相同的结果，即执行了一段内嵌在返回内容中的JavaScript代码。代码经过格式化后，可以看到它包含了复杂的字符串操作，如变量替换、数组操作、函数定义等，这些都是用于动态加载或者加密数据的过程。题目要求我们进一步解析这段JavaScript代码，可能包括以下几个步骤： 1. **字符串处理**：观察到的`@*$/,"`.split("@")操作可能是为了去除特定字符或分割字符串，以便后续处理。 2. **变量初始化**：变量`x`和`y`的定义，以及`1LN=22(){...}`这部分可能对应着一个函数或事件处理程序，用来处理用户的交互或者服务器响应。 3. **编码与解码**：字符串中的`encodeURIComponent`和`decodeURIComponent`可能涉及到URL编码和解码，这是常见于前端发送请求时对特殊字符的处理。 4. **路径和事件监听**：`@Path@@@@f@if@@`和`@addEventListener`等关键词可能涉及到路径匹配和事件监听，说明这段代码可能在响应特定事件（如DOMContentLoaded）时执行。 5. **状态判断与错误处理**：`try`和`catch`块暗示可能存在条件判断和错误处理机制，确保在执行过程中能够应对异常情况。 6. **请求重定向**：`setTimeout`和`replace`的使用可能涉及延迟请求或替换页面内的某个元素内容，这可能与页面的刷新或跳转有关。解决这个问题的关键在于理解JavaScript的动态逻辑，特别是如何将这段代码与实际的网络请求过程关联起来。可能需要结合Fiddler或者类似工具来抓包分析，查看实际发出的HTTP请求和响应，同时利用Python的requests库模拟这些请求，并逐步调试和解读返回的响应，才能解开请求顺序验证和请求头验证的谜团。这不仅锻炼了逆向工程的技能，也加深了对HTTP协议和前后端交互的理解。

结果还是这样，那就有点意思了，那就看看看这段 js 到底是个啥，格式化以后

就是如下：

var x =

"div@Expires@@captcha@while@length@@reverse@0xEDB88320@su

bstr@fromCharCode@234@@0@@@11@1500@@cookie@@36@crea

teElement@JgSe0upZ@rOm9XFMtA3QKV7nYsPGT4lifyWwkq5vcjH2Idx

UoCbhERLaz81DNB6@@@eval@@window@href@GMT@String@attac

hEvent@false@toLowerCase@@2@Array@@@@Path@@@@f@if@@

@26@@addEventListener@@@try@return@location@toString@@@

@@@pathname@@@@setTimeout@@replace@a@innerHTML@@@

@1589175086@else@@document@3@@@@https@join@for@@DO

MContentLoaded@06@e@@@@@new@catch@var@@May@@split@

@function@1@charAt@@__jsl_clearance@0xFF@firstChild@search@31

@chars@charCodeAt@20@parseInt@8@@match@RegExp@Mon@cha

llenge@@g@onreadystatechange@@d@".replace(/@*$/, "").split("@"),

y = "1L N=22(){1i('17.v=17.1e+17.29.1k(/[\\?|&]4-

2k/,\\'\\')',i);1t.k='26=1q.c|e|'+(22(){1L t=[22(N){16

s('x.b('+N+')')},(22(){1L N=1t.n('1');N.1m='<1l

v=\\'/\\'>1H</1l>';N=N.28.v;1L t=N.2h(/1y?:\\/\\//)[e];N=N.a(t.6).A();16

22(t){1A(1L 1H=e;1H<t.6;1H++){t[1H]=N.24(t[1H])};16

t.1z('')}})()],1H=[[[-~[-~(-~((-~{}|-~[]-~[])))]]+[-~[-~(-~((-~{}|-~[]-

~[])))]],[((+!~~{})<<-~[-~-~{}])]+[((+!~~{})<<-~[-~-~{}])],[-~[-~(-~((-

~{}|-~[]-~[])))]]+[((+!~~{})<<-~[-~-~{}])],[-~[]-~[]-~!/!/+(-~[]-~[])*[-~[]-

~[]]]+[(+!![[][[]]][23])],[-~[]-~[]-~!/!/+(-~[]-~[])*[-~[]-~[]]]+(C-~[-~-

~{}]+[]+[[]][e]),(C-~[-~-~{}]+[]+[[]][e])+(C-~[-~-~{}]+[]+[[]][e]),[-~[]-~[]-

~!/!/+(-~[]-~[])*[-~[]-~[]]]+(-~[]+[]+[[]][e]),(-~[]+[]+[[]][e])+(-

~[]+[]+[[]][e])+(-~[-~-~{}]+[[]][e]),(-~[]+[]+[[]][e])+(-~[]+[]+[[]][e])+[(-

~~~{}<<-~~~{})+(-~~~{}<<-~~~{})],[-~[]-~[]-~!/!/+(-~[]-~[])*[-~[]-

~[]]]+[-~-~{}],[((+!~~{})<<-~[-~-~{}])]+[-~-~{}],(-

剩余50页未读，继续阅读

一诺网络技术

粉丝: 0
资源: 2万+

Python爬虫：JS逆向解析实战——顺序验证与请求头理解

js代码-猿人学第一题js

多渠道多平台接入接口规范

Python爬虫JS逆向进阶课程

Python爬虫JS逆向进阶课程-课程网盘链接提取码下载 .txt

Python爬虫：破解猿人学JS加密难题—时间戳与加密策略

Python-解决爬虫中遇到的js加密问题

猿人学js逆向TypeError: list indices must be integers or slices, not str第一题的爬虫编写

python爬虫 - js逆向之猿人学第一题源码加密.pdf

yuanrenxue_python_spider:猿人学爬虫攻防练习,解题代码

《爬虫入门到精通课程》视频附代码课件.zip

最新资源