使用火车头采集器
采集一个网站的下载地址的时候,采集不到链接,不是保存在HTML里面的,使用Charles
工具抓包后发现他是 302 条状后跳转到百度网盘的分享链接
返回的头信息
302 Redirect
HTTP/1.1 302 Redirect
Server:nginx
Date:Fri, 18 Aug 2023 21:52:25 GMT
Content-Type:text/html; charset=gb2312
Transfer-Encoding:chunked
Connection:keep-alive
location:https://pan.baidu.com/s/18Ua1vSEhdTqN3VUfFrZMMM
Strict-Transport-Security:max-age=31536000
Content-Length:0
最终采集的代码是在location里面,只能使用关联多页
数据来源:关联多页
,网盘下载
,返回的头信息中
提取方式:正则提取
匹配内容:
^(?<content>[\s\S]*?)$
数据处理:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
暂无评论内容