Redis原理篇之网络模型

发布于:2024-10-16 ⋅ 阅读:(68) ⋅ 点赞:(0)

Redis原理篇之网络模型

1 用户空间和内核空间

任何Linux发行版,其系统内核都是Linux。我们的应用都需要通过Linux内核与硬件交互。

在这里插入图片描述

为了避免用户应用导致冲突甚至内核崩溃,用户应用与内核是分离的:

  • 进程的寻址空间会划分为两部分:内核空间、用户空间

    • 不管哪一种空间都无法直接访问物理内存,而是直接分配虚拟内存空间,映射到不同的物理内存,就像前面提到的页表。所以内核、用户空间访问虚拟空间的时候就需要去访问虚拟地址了。
    • 这个地址是无符号的整数,从0开始,最大值取决于CPU的地址总线和寄存器的带宽,比如一个32位系统,带宽也就是32,所以地址的最大值就是232 ,寻址范围0~232 ,一个地址对应一个字节,所以存储空间有232字节,4GB。

在这里插入图片描述

  • 用户空间 只能执行受限的命令(Ring3),而且不能直接调用系统资源,必须通过内核提供的接口来访问

  • 内核空间 可以执行特权命令(Ring0),调用一切系统资源

在这里插入图片描述

Linux系统为了提高I0效率,会在用户空间和内核空间都加入缓冲区

  • 写数据时,要把用户缓冲数据拷贝到内核缓冲区,然后写入设备
  • 读数据时,要从设备读取数据到内核缓冲区,然后拷贝到用户缓冲区

在这里插入图片描述

在《UNIX网络编程》一书中,总结归纳了5种I0模型:

  • 阻塞IO (Blocking IO)
  • 非阻塞IO (Nonblocking IO)
  • IO多路复用 (IO Multiplexing)
  • 信号驱动IO (Signal Driven IO)
  • 异步IO (Asynchronous IO)

2 阻塞IO

在这里插入图片描述
在这里插入图片描述

可以看到,阻塞I0模型中,用户进程在两个阶段都是阻塞状态。

3 非阻塞IO

顾名思义,非阻塞IO的recvfrom操作会立即返回结果而不是阻塞用户进程。

在这里插入图片描述

  • 在一阶段等待数据的过程中,IO是非阻塞的,不断反复调用recvfrom。
  • 在二阶段,当数据准备就绪时,IO是阻塞的,等待数据从内核拷贝到用户空间。

可以看到,非阻塞IO模型中,用户进程在第一个阶段是非阻塞,第二个阶段是阻塞状态。虽然是非阻塞,但性能并没有得到提高。而且忙等机制会导致CPU空转,CPU使用率暴增。

4 IO多路复用

无论是阻塞I0还是非阻塞10,用户应用在一阶段都需要调用recvfrom来获取数据,差别在于无数据时的处理方案:

  • 如果调用recvfrom时,恰好没有数据,阻塞10会使进程阻塞,非阻塞10使CPU空转,都不能充分发挥CPU的作用
  • 如果调用recvfrom时,恰好有数据,则用户进程可以直接进入第二阶段,读取并处理数据

比如服务端处理客户端Socket请求时,在单线程情况下,只能依次处理每一个socket,如果正在处理的socket恰好未就绪(数据不可读或不可写),线程就会被阻塞,所有其它客户端socket都必须等待,性能自然会很差。

在这里插入图片描述

要提高效率有几种办法?

  • 方案一:增加更多服务员(多线程
  • 方案二:不排队,谁想好了吃什么(数据就绪了),服务员就给谁点餐(用户应用就去读取数据)

文件描述符(File Descriptor) :简称FD,是一个从0开始递增的无符号整数,用来关联Linux中的一个文件。在Linux中一切皆文件,例如常规文件、视频、硬件设备等,当然也包括网络套接字(Socket)。

I0多路复用: 是利用单个线程来同时监听多个FD,并在某个FD可读、可写时得到通知,从而避免无效的等待,充分利用CPU资源。

在这里插入图片描述

  • 首先使用select去监听多个sockets,等待其中一个或多个数据准备就绪,然后返回
  • 调用recvfrom指向数据就绪的sockets,将数据从内核空间拷贝到用户空间,此过程仍然阻塞

既然两个过程还是会出现阻塞,那性能比前两节IO模型高在哪里呢?

  • 前两节调用的是recvfrom去监听socket,它只能监听一个

  • 而IO多路复用高就高在不只是在等待一个socket的时候阻塞,而是同时监听多个socket,阻塞时间会减少,因为等待的时间是数据准备就绪最慢的那个socket,减少了无效等待。

不过监听FD的方式、通知的方式又有多种实现,常见的有:

  • select
  • poll
  • epoll

差异:

差异:

  • select和poll只会通知用户进程有FD就绪,但不确定具体是哪个FD,需要用户进程逐个遍历FD来确认
  • epoll则会在通知用户进程FD就绪的同时,把已就绪的FQ写入用户空间

4.1 IO多路复用-select

select是Linux中最早的I/0多路复用实现方案:

在这里插入图片描述

4.2 IO多路复用-poll

poll模式对select模式做了简单改进,但性能提升不明显,部分关键代码如下:

在这里插入图片描述

4.3 IO多路复用-epoll

在这里插入图片描述

4.4 总结

在这里插入图片描述

5 信号驱动IO

信号驱动I0 是与内核建立SIGI0的信号关联并设置回调,当内核有FD就绪时,会发出SIGIO信号通知用户,期间用户应用可以执行其它业务,无需阻塞等待。

在这里插入图片描述

当有大量10操作时,信号较多,SIGIO处理函数不能及时处理可能导致信号队列溢出

而且内核空间与用户空间的频繁信号交互性能也较低。

6 异步IO

在这里插入图片描述

异步I0 的整个过程都是非阻塞的,用户进程调用完异步API后就可以去做其它事情,内核等待数据就绪并拷贝到用户空间后才会递交信号,通知用户进程。

可以看到,异步10模型中,用户进程在两个阶段都是非阻塞状态。

7 同步和异步

I0操作是同步还是异步,关键看数据在 内核空间与用户空间的拷贝过程 (数据读写的IO操作),也就是阶段二
是同步还是异步:

在这里插入图片描述

由于只有异步I/O的第二个阶段是异步的,所以只有异步I/O才是真的异步。

8 Redis网络模型

8.1 Redis是单线程吗?为什么要用单线程

Redis到底是单线程还是多线程?

  • 如果仅仅聊Redis的核心业务部分(命令处理),答案是单线程
  • 如果是聊整个Redis,那么答案就是多线程

在Redis版本迭代过程中,在两个重要的时间节点上引入了多线程的支持

  • Redis v4.0:引入多线程异步处理一些耗时较长的任务,例如异步删除命令unlink
  • Redis v6.0:在核心网络模型中引入 多线程,进一步提高对于多核CPU的利用率

思考:

1.为什么Redis要选择单线程?

  • 抛开持久化不谈,Redis是纯内存操作,执行速度非常快,它的性能瓶颈是网络延迟而不是执行速度,因此多线程并不会带来巨大的性能提升。
  • 多线程会导致过多的上下文切换,带来不必要的开销
  • 引入多线程会面临线程安全问题,必然要引入线程锁这样的安全手段,实现复杂度增高,而且性能也会大打折扣

8.2 Redis单线程及多线程网络模型变更

Redis通过 IO多路复用 来提高网络性能,并且支持各种不同的多路复用实现,并且将这些实现进行封装,提供了统一的高性能事件库API库 AE:

在这里插入图片描述

在这里插入图片描述

这里的ssfd是否可读有两种条件

  • 可读就是有客户端连接来了:此时先建一个监听FD
  • 非可读就是 web已有的客户端请求接口进行数据访问的(数据就绪可以读了)

创建epoll_create实例,得到ssfd,一旦ssfd可读,就说明有客户端链连接来了,用accept()接收,并监听此FD。此过程中,如果有监听的FD就绪了。就会记录在list_head中,list_head有数据,就会不断取出里面的数据进行读取操作,然后作出相应响应。

看Redis单线程网络模型的整个流程

在这里插入图片描述

在这里插入图片描述

两种Socket

  • 一开始只有Server Socket,绑定的是连接应答处理器,一旦有客户端连接就会响应,接收客户端socket并注册客户端FD。所以aeEventLoop注册的FD就有个了。
  • 注册了客户端socket,就有client socket,绑定的是命令请求处理器,一旦数据准备就绪,则开始读取对应FD的数据并做出响应。

在这里插入图片描述

这里实现不想听 听不懂了。

在这里插入图片描述

Redis 6.0版本中引入了多线程,目的是为了提高IO读写效率。因此在 解析客户端命令、写响应结果时 采用了多线程。 核心的命令执行IO多路复用模块依然是由主线程执行。

在这里插入图片描述

  • 命令请求处理器:主线程会将多个不同的客户端分发给多个不同的线程,由他们去并行的解析请求当中的数据,把它解析成命令。真正执行命令还是主线程一个人执行。
  • 命令回复处理器:当写结果的时候也会多线程回复事件,从队列中取出命令多线程写。