url:
常见的请求方式:
get——url地址是有长度限制的
post——表单提交;提交长参数
post可以提交url更长的地址
相应状态码:
200:成功
302:临时转移到新的url(重定向referer),想访问A网址,实际上给你转到B网址去了,比如钓鱼网站
404:not found
500:服务器内部错误(不是我的问题)
浏览器去服务器请求的发送格式:
请求方式GET 访问路径/
host是服务器的地址
user-agent是访问的电脑类型,浏览器类型版本(服务器可以判断是不是爬虫)
accept 服务器允许你发送的数据格式
accept-language 支持的语言
accept-encoding 支持的代码
connection:keep-alive 长连接
服务器返回给浏览器的格式:
HTTP/1.1 200 OK
Bdpagetype: 1
Bdqid: 0xdf5ece9700273bbe
Connection: keep-alive
Content-Encoding: gzip
Content-Type: text/html; charset=utf-8
Date: Wed, 25 Jun 2025 10:22:25 GMT
Server: BWS/1.1 (百度自己的服务器,一般服务器用阿帕奇Apache或恩吉尼克斯Nginx)
Set-Cookie: H_PS_PSSID=62327_62832_63148_63402_63560_63564_63584_63579_63622_63638_63642_63646_63657_63694_63724_63718_63748_63752_63274; path=/; expires=Thu, 25-Jun-26 10:22:25 GMT; domain=.baidu.com
Set-Cookie: BDSVRTM=3; path=/
Set-Cookie: BD_HOME=1; path=/
Strict-Transport-Security: max-age=172800
Traceid: 1750846945089831629816095529266206686142
X-Ua-Compatible: IE=Edge,chrome=1
X-Xss-Protection: 1;mode=block
Transfer-Encoding: chunked
session存在服务器上 cookie存客户端上
通过cookie将客户端的用户访问足迹发送给服务器,下次服务器就可以推送类似的东西给你,所以记得定时清理浏览器缓存,毕竟cookie不够安全,存在客户端上。
模拟登录时候,可能会用到host、user-agent、cookie,比如有些要爬的页面是要登录之后才能访问到的,直接爬爬不到,要带上登录信息。
爬虫需要关注http的点:
-URL
-headers
-Referer
-Use-Agent
-cookies
-参数,get/post参数