爬虫：1.HTTP协议

发布于：2025-06-26 ⋅ 阅读:(14) ⋅ 点赞:(0)

url：
在这里插入图片描述

常见的请求方式：
get——url地址是有长度限制的
post——表单提交；提交长参数
post可以提交url更长的地址

相应状态码：
200：成功
302：临时转移到新的url（重定向referer），想访问A网址，实际上给你转到B网址去了，比如钓鱼网站
404：not found
500：服务器内部错误（不是我的问题）
在这里插入图片描述
浏览器去服务器请求的发送格式：

请求方式GET 访问路径/
host是服务器的地址
user-agent是访问的电脑类型，浏览器类型版本（服务器可以判断是不是爬虫）
accept 服务器允许你发送的数据格式
accept-language 支持的语言
accept-encoding 支持的代码
connection：keep-alive 长连接

服务器返回给浏览器的格式：
HTTP/1.1 200 OK
Bdpagetype: 1
Bdqid: 0xdf5ece9700273bbe
Connection: keep-alive
Content-Encoding: gzip
Content-Type: text/html; charset=utf-8
Date: Wed, 25 Jun 2025 10:22:25 GMT
Server: BWS/1.1 （百度自己的服务器，一般服务器用阿帕奇Apache或恩吉尼克斯Nginx）
Set-Cookie: H_PS_PSSID=62327_62832_63148_63402_63560_63564_63584_63579_63622_63638_63642_63646_63657_63694_63724_63718_63748_63752_63274; path=/; expires=Thu, 25-Jun-26 10:22:25 GMT; domain=.baidu.com
Set-Cookie: BDSVRTM=3; path=/
Set-Cookie: BD_HOME=1; path=/
Strict-Transport-Security: max-age=172800
Traceid: 1750846945089831629816095529266206686142
X-Ua-Compatible: IE=Edge,chrome=1
X-Xss-Protection: 1;mode=block
Transfer-Encoding: chunked

session存在服务器上 cookie存客户端上
通过cookie将客户端的用户访问足迹发送给服务器，下次服务器就可以推送类似的东西给你，所以记得定时清理浏览器缓存，毕竟cookie不够安全，存在客户端上。

模拟登录时候，可能会用到host、user-agent、cookie，比如有些要爬的页面是要登录之后才能访问到的，直接爬爬不到，要带上登录信息。

爬虫需要关注http的点：
-URL
-headers
-Referer
-Use-Agent
-cookies
-参数，get/post参数

爬虫：1.HTTP协议

网站公告

今日签到

热门文章

最新发布