HTTP/2概览及内核解析

发布于:2025-05-11 ⋅ 阅读:(12) ⋅ 点赞:(0)

目录

1. HTTP/2特性概览

1.1. 兼容 HTTP/1

1.2. “语法”层面的改造

1.3. 协议栈

1.4. HTTP/2实验环境

1.5. Question:

2. HTTP/2内核剖析

2.1. 连接前言

2.2. 头部压缩

2.3. 二进制帧

2.4. 流与多路复用

2.5. 流状态转换


1. HTTP/2特性概览

  1. HTTP 协议取消了小版本号,所以 HTTP/2 的正式名字不是 2.0;
  2. HTTP/2 在“语义”上兼容 HTTP/1,保留了请求方法、URI 等传统概念;
  3. HTTP/2 使用“HPACK”算法压缩头部信息,消除冗余数据节约带宽;
  4. HTTP/2 的消息不再是“Header+Body”的形式,而是分散为多个二进制“(Frame)”;
  5. HTTP/2 使用虚拟的“(Stream)”传输消息,解决了困扰多年的“队头阻塞”问题,同时实现了“多路复用”,提高连接的利用率;
  6. HTTP/2 也增强了安全性,要求至少是 TLS1.2,而且禁用了很多不安全的密码套件。

1.1. 兼容 HTTP/1

HTTP/2 把 HTTP 分解成了“语义”和“语法”两个部分,“语义”层不做改动,与 HTTP/1 完全一致(即 RFC7231)。

比如请求方法、URI、状态码、头字段等概念都保留不变,这样就消除了再学习的成本,基于 HTTP 的上层应用也不需要做任何修改,可以无缝转换到 HTTP/2。

与 HTTPS 不同,HTTP/2 没有在 URI 里引入新的协议名,仍然用“http”表示明文协议,用“https”表示加密协议。

1.2. “语法”层面的改造

1. 头部压缩

HTTP/2 把“头部压缩”作为性能改进的一个重点, HTTP/2 没有使用传统的压缩算法,而是开发了专门的“HPACK”算法,在客户端和服务器两端建立“字典”,用索引号表示重复的字符串,还釆用哈夫曼编码来压缩整数和字符串,可以达到 50%~90% 的高压缩率。

2. 二进制格式

HTTP/2 的报文不再使用肉眼可见的 ASCII 码,而是向下层的 TCP/IP 协议“靠拢”,全面采用二进制格式。

HTTP/2把 TCP 协议的部分特性挪到了应用层,把原来的“Header+Body”的消息“打散”为数个小片的二进制“帧”(Frame),用“HEADERS”帧存放头数据、“DATA”帧存放实体数据。

3. 虚拟的“流”

HTTP/2 定义了一个“流”(Stream)的概念,它是二进制帧的双向传输序列,同一个消息往返的帧会分配一个唯一的流 ID。你可以想象把它成是一个虚拟的“数据流”,在里面流动的是一串有先后顺序的数据帧,这些数据帧按照次序组装起来就是 HTTP/1 里的请求报文和响应报文。

因为“流”是虚拟的,实际上并不存在,所以 HTTP/2 就可以在一个 TCP 连接上用“流”同时发送多个“碎片化”的消息,这就是常说的“多路复用”( Multiplexing)——多个往返通信都复用一个连接来处理。

在“流”的层面上看,消息是一些有序的“帧”序列,而在“连接”的层面上看,消息却是乱序收发的“帧”。多个请求 / 响应之间没有了顺序关系,不需要排队等待,也就不会再出现“队头阻塞”问题,降低了延迟,大幅度提高了连接的利用率。

为了更好地利用连接,加大吞吐量,HTTP/2 还添加了一些控制帧来管理虚拟的“流”,实现了优先级和流量控制,这些特性也和 TCP 协议非常相似。

HTTP/2 还在一定程度上改变了传统的“请求 - 应答”工作模式,服务器不再是完全被动地响应请求,也可以新建“流”主动向客户端发送消息。比如,在浏览器刚请求 HTML 的时候就提前把可能会用到的 JS、CSS 文件发给客户端,减少等待的延迟,这被称为“服务器推送”(Server Push,也叫 Cache Push)。

4. 强化安全

出于兼容的考虑,HTTP/2 延续了 HTTP/1 的“明文”特点,可以像以前一样使用明文传输数据,不强制使用加密通信,不过格式还是二进制,只是不需要解密。

但由于 HTTPS 已经是大势所趋,而且主流的浏览器 Chrome、Firefox 等都公开宣布只支持加密的 HTTP/2,所以“事实上”的 HTTP/2 是加密的。也就是说,互联网上通常所能见到的 HTTP/2 都是使用“https”协议名,跑在 TLS 上面。

为了区分“加密”和“明文”这两个不同的版本,HTTP/2 协议定义了两个字符串标识符:“h2”表示加密的 HTTP/2,“h2c”表示明文的 HTTP/2,多出的那个字母“c”的意思是“clear text”。

在 HTTP/2 标准制定的时候(2015 年)已经发现了很多 SSL/TLS 的弱点,而新的 TLS1.3 还未发布,所以加密版本的 HTTP/2 在安全方面做了强化,要求下层的通信协议必须是 TLS1.2 以上,还要支持前向安全和 SNI,并且把几百个弱密码套件列入了“黑名单”,比如 DES、RC4、CBC、SHA-1 都不能在 HTTP/2 里使用,相当于底层用的是“TLS1.25”。

1.3. 协议栈

HTTP/2 是建立在“HPack”“Stream”“TLS1.2”基础之上。

1.4. HTTP/2实验环境

实验环境在新的域名“www.metroid.net”上启用了 HTTP/2 协议。

可以用开发者工具或抓包去实验之前的测试用例。

本节使用http://www.metroid.net/30-1,可以看到服务器输出了 HTTP 的版本号“2”和标识符“h2”,表示这是加密的 HTTP/2,如果改用“https://www.chrono.com/30-1”访问就会是“1.1”和空。

注意到 URI 里的一个小变化,端口使用的是“8443”而不是“443”。这是因为 443 端口已经被“www.chrono.com”的 HTTPS 协议占用,Nginx 不允许在同一个端口上根据域名选择性开启 HTTP/2,所以就不得不改用了“8443”。

1.5. Question:

对比一下 HTTP/2 与 HTTP/1、HTTPS 的相同点和不同点:

相同点:

特性

HTTP/1.1

HTTP/2

HTTPS

基础协议

基于 TCP 传输

基于 TCP 传输

在 HTTP 基础上增加 SSL/TLS 加密层

核心功能

客户端-服务器请求/响应模型

客户端-服务器请求/响应模型

客户端-服务器安全通信

请求方法

GET、POST 等标准方法

支持相同的方法

支持相同的方法

状态码

200、404、500 等状态码

相同的状态码

相同的状态码

URL 格式

使用 http://

https://

通常通过 https://

使用

强制使用 https://

不同点:

  1. 协议设计目标

特性

HTTP/1.1

HTTP/2

HTTPS

核心目标

文本传输,兼容早期 Web 需求

高性能传输(多路复用、头部压缩等)

安全传输(加密、身份验证、数据完整性)

性能优化

多路复用、二进制分帧、头部压缩、服务器推送

无(但加密可能影响性能)

  1. 传输特性

特性

HTTP/1.1

HTTP/2

HTTPS

连接复用

需要多个 TCP 连接(默认 6-8 个)

单 TCP 连接支持多路复用(虚拟流)

复用底层 TCP 连接(与 HTTP 版本无关)

数据格式

明文文本传输

二进制分帧传输

加密传输(HTTP 协议内容被加密)

队头阻塞

存在(一个请求阻塞后续请求)

通过多路复用解决

与 HTTP 版本相关(若使用 HTTP/1.1 仍存在)

  1. 安全性

特性

HTTP/1.1

HTTP/2

HTTPS

加密

无(明文传输)

通常与 HTTPS 结合使用(非强制)

强制加密(SSL/TLS)

身份验证

依赖 HTTPS 的证书机制

通过数字证书验证服务器身份

数据完整性

依赖 HTTPS 的 MAC 机制

防止数据篡改(哈希校验)

  1. 性能与兼容性

特性

HTTP/1.1

HTTP/2

HTTPS

握手开销

TCP 三次握手

同 HTTP/1.1

额外 SSL/TLS 握手(增加 1-2 往返延时(RTT))

兼容性

广泛支持

需服务器和客户端支持 HTTP/2

需服务器配置证书,客户端支持 SSL/TLS

实际应用

仍广泛使用

现代网站主流(需 HTTPS)

所有现代网站的强制安全标

2. HTTP/2内核剖析

  1. HTTP/2 必须先发送一个“连接前言”字符串,然后才能建立正式连接;
  2. HTTP/2 废除了起始行,统一使用头字段,在两端维护字段“Key-Value”的索引表,使用“HPACK”算法压缩头部;
  3. HTTP/2 把报文切分为多种类型的二进制帧,报头里最重要的字段是流标识符,标记帧属于哪个流;
  4. 流是 HTTP/2 虚拟的概念,是帧的双向传输序列,相当于 HTTP/1 里的一次“请求 - 应答”;
  5. 在一个 HTTP/2 连接上可以并发多个流,也就是多个“请求 - 响应”报文,这就是“多路复用”。
  6. 课下作业

实验环境的 URI 是“/31-1”,使用wireshark抓包:

2.1. 连接前言

HTTP/2“事实上”是基于 TLS,所以在正式收发数据之前,会有 TCP 握手和 TLS 握手。

TLS 握手成功之后,客户端必须要发送一个“连接前言”(connection preface),用来确认建立 HTTP/2 连接。

这个“连接前言”是标准的 HTTP/1 请求报文,使用纯文本的 ASCII 码格式,请求方法是特别注册的一个关键字“PRI”,全文只有 24 个字节:

PRI * HTTP/2.0\r\n\r\nSM\r\n\r\n

在 Wireshark 里,HTTP/2 的“连接前言”被称为“Magic”,意思就是“不可知的魔法”。

只要服务器收到这个“有魔力的字符串”,就知道客户端在 TLS 上想要的是 HTTP/2 协议,而不是其他别的协议,后面就会都使用 HTTP/2 的数据格式。

2.2. 头部压缩

确立了连接之后,HTTP/2 就开始准备请求报文。

“HPACK”算法来压缩头部数据。

“HPACK”算法是专门为压缩 HTTP 头部定制的算法,与 gzip、zlib 等压缩算法不同,它是一个“有状态”的算法,需要客户端和服务器各自维护一份“索引表”,也可以说是“字典”(这有点类似 brotli),压缩和解压缩就是查表和更新表的操作。

为了方便管理和压缩,HTTP/2 废除了原有的起始行概念,把起始行里面的请求方法、URI、状态码等统一转换成了头字段的形式,并且给这些“不是头字段的头字段”起了个特别的名字 —“伪头字段”(pseudo-header fields)。而起始行里的版本号和错误原因短语也废除了。

为了与“真头字段”区分开来,这些“伪头字段”会在名字前加一个“:”

HTTP 报文头就变成了“Key-Value”形式的字段,于是 HTTP/2 就为一些最常用的头字段定义了一个只读的“静态表”(Static Table)。

动态表”(Dynamic Table),它添加在静态表后面,结构相同,但会在编码解码的时候随时更新。

比如说,第一次发送请求时的“user-agent”字段长是一百多个字节,用哈夫曼压缩编码发送之后,客户端和服务器都更新自己的动态表,添加一个新的索引号“65”。那么下一次发送的时候就不用再重复发那么多字节了,只要用一个字节发送编号就好。

随着在 HTTP/2 连接上发送的报文越来越多,两边的“字典”也会越来越丰富,最终每次的头部字段都会变成一两个字节的代码,原来上千字节的头用几十个字节就可以表示了,压缩效果比 gzip 要好得多。

2.3. 二进制帧

头部数据压缩之后,HTTP/2 就要把报文拆成二进制的帧准备发送。

帧结构:

1. 帧开头是 3 个字节的长度;

默认上限是 2^14,最大是 2^24,也就是说 HTTP/2 的帧通常不超过 16K,最大是 16M。

2. 第4个字节是帧类型,大致可以分成数据帧和控制帧两类;

HEADERS 帧和 DATA 帧属于数据帧,存放的是 HTTP 报文,而 SETTINGS、PING、PRIORITY 等则是用来管理流的控制帧。

HTTP/2 总共定义了 10 种类型的帧,但一个字节可以表示最多 256 种,所以也允许在标准之外定义其他类型实现功能扩展。

3. 第 5 个字节是非常重要的帧标志信息,可以保存 8 个标志位,携带简单的控制信息;

常用的标志位有END_HEADERS表示头数据结束,相当于 HTTP/1 里头后的空行(“\r\n”),END_STREAM表示单方向数据发送结束(即 EOS,End of Stream),相当于 HTTP/1 里 Chunked 分块结束标志(“0\r\n\r\n”)。

4. 报文头里最后 4 个字节是流标识符,也就是帧所属的“流”,接收方使用它就可以从乱序的帧里识别出具有相同流 ID 的帧序列,按顺序组装起来就实现了虚拟的“流”。

流标识符虽然有 4 个字节,但最高位被保留不用,所以只有 31 位可以使用,也就是说,流标识符的上限是 2^31,大约是 21 亿。

Wireshark抓包实例:

注意:1字节=8位,这里的1个字节为2位16进制数

在这个帧里,开头的三个字节是“00010a”,表示数据长度是 266 字节。

帧类型是 1,表示 HEADERS 帧,负载(payload)里面存放的是被 HPACK 算法压缩的头部信息。

标志位是 0x25,转换成二进制有 3 个位被置 1。PRIORITY 表示设置了流的优先级,END_HEADERS 表示这一个帧就是完整的头数据,END_STREAM 表示单方向数据发送结束,后续再不会有数据帧(即请求报文完毕,不会再有 DATA 帧 /Body 数据)。

最后 4 个字节的流标识符是整数 1,表示这是客户端发起的第一个流,后面的响应数据帧也会是这个 ID,也就是说在 stream[1] 里完成这个请求响应。

2.4. 流与多路复用

流与多路复用是 HTTP/2 最核心的部分。

流是二进制帧的双向传输序列。

在 HTTP/2 连接上,虽然帧是乱序收发的,但只要它们都拥有相同的流 ID,就都属于一个流,而且在这个流里帧不是无序的,而是有着严格的先后顺序。

比如在这次的 Wireshark 抓包里,就有“0、1、3”一共三个流,实际上就是分配了三个流 ID 号,把这些帧按编号分组,再排一下队,就成了流。

在概念上,一个 HTTP/2 的流就等同于一个 HTTP/1 里的“请求 - 应答”。在 HTTP/1 里一个“请求 - 响应”报文来回是一次 HTTP 通信,在 HTTP/2 里一个流也承载了相同的功能。

HTTP/2 的流的特点:

  1. 流是可并发的,一个 HTTP/2 连接上可以同时发出多个流传输数据,也就是并发多请求,实现“多路复用”;
  2. 客户端和服务器都可以创建流,双方互不干扰;
  3. 流是双向的,一个流里面客户端和服务器都可以发送或接收数据帧,也就是一个“请求 - 应答”来回;
  4. 流之间没有固定关系,彼此独立,但流内部的帧是有严格顺序的;
  5. 流可以设置优先级,让服务器优先处理,比如先传 HTML/CSS,后传图片,优化用户体验;
  6. 流 ID 不能重用,只能顺序递增,客户端发起的 ID 是奇数,服务器端发起的 ID 是偶数;
  7. 在流上发送“RST_STREAM”帧可以随时终止流,取消接收或发送;
  8. 第 0 号流比较特殊,不能关闭,也不能发送数据帧,只能发送控制帧,用于流量控制。

深层知识点:

HTTP/2 在一个连接上使用多个流收发数据,那么它本身默认就会是长连接,所以永远不需要“Connection”头字段(keepalive 或 close)。

因为客户端和服务器两端都可以创建流,而流 ID 有奇数偶数和上限的区分,所以大多数的流 ID 都会是奇数,而且客户端在一个连接里最多只能发出 2^30,也就是 10 亿个请求。

流ID 用完了可以再发一个控制帧“GOAWAY”,真正关闭 TCP 连接。

2.5. 流状态转换

HTTP/2 借鉴了 TCP,根据帧的标志位实现流状态转换。当然,这些状态也是虚拟的,只是为了辅助理解。

流的状态转换过程:

1. 最开始的时候流都是“空闲”(idle)状态,也就是“不存在”,可以理解成是待分配的“号段资源”。

2. 当客户端发送 HEADERS 帧后,有了流 ID,流就进入了“打开”状态,两端都可以收发数据,然后客户端发送一个带“END_STREAM”标志位的帧,流就进入了“半关闭”状态。

这个“半关闭”状态很重要,意味着客户端的请求数据已经发送完了,需要接受响应数据,而服务器端也知道请求数据接收完毕,之后就要内部处理,再发送响应数据。

3. 响应数据发完了之后,也要带上“END_STREAM”标志位,表示数据发送完毕,这样流两端就都进入了“关闭”状态,流就结束了。

刚才也说过,流 ID 不能重用,所以流的生命周期就是 HTTP/1 里的一次完整的“请求 - 应答”,流关闭就是一次通信结束。

4. 下一次再发请求就要开一个新流(而不是新连接),流 ID 不断增加,直到到达上限,发送“GOAWAY”帧开一个新的 TCP 连接,流 ID 就又可以重头计数。

Question: HTTP/2 是如何基本解决“队头阻塞”问题的?

HTTP/2 通过引入多路复用(Multiplexing) 和 流优先级(Stream Prioritization) 机制,显著缓解了 HTTP/1.x 中的“队头阻塞”(Head-of-Line Blocking, HoL)问题。

HTTP/1里的请求都是排队处理的,所以有队头阻塞。HTTP/2的请求是乱序的,彼此不依赖,所以没有队头阻塞。