本帖最后由 漁滒 于 2021-8-26 13:10 编辑
测试网站:aHR0cHM6Ly93d3cuZS1mb29kLmdyL2RlbGl2ZXJ5 和 aHR0cHM6Ly93d3cuZm9yb2NvY2hlcy5jb20=
在正常浏览器打开网页时,会显示类似【Please allow up to 5 seconds】的文字
使用fd抓包查看一下
第一次访问的是【编号4】,会返回一个503的响应码,里面包含了需要提交的表单,以及其他的js内容
第二次访问的是【编号11】,返回第一层js,使用了ob混淆中的字符串混淆以及控制流平坦化,里面主要是通用函数,例如请求体的加解密函数等等
第三次访问的是【编号14】,返回的是第二层js,也是有混淆的,这是整个反爬框架最核心的部分,他的链接来源于上一个js,这个js运行后获得一个用于后面请求的上下文
第四次访问的是【编号15】,返回的是第三层js,也是有混淆,里面会返回上一层提交参数的结果,如果通过,则会激活第一次请求的表单,不通过,则会自动刷新,从第一步重新开始
第二层的js我通过三个层面来处理
获取第二层js -> ast反混淆与函数前置 -> js层运行拦截结果 -> python修改拦截结果部分内容 -> 发送请求
js运行过程中大量的检测了dom,nodejs,以及其他自动化工具,需要自己补浏览器环境头
如果校验通过,就会进行第五次访问【编号16】,此时的响应码就是200
通过的记录,目前在5次内最少有一次成功的
待优化问题:
1.网站:aHR0cHM6Ly93d3cudG9ya2l0dHkuY29tL3NlYXJjaA== 在浏览器环境中是5秒,但是在python中会出现带有hcaptcha的5秒。但是如果将其改为http,则必定会出现带有hcaptcha的5秒
2.网站:aHR0cHM6Ly9mb3J1bS5sb3d5YXQubmV0Lw== 搜索页在浏览器和python中均出现带有hcaptcha的5秒,如何通过人工智能进行打码通过