TCP协议之《延迟ACCEPT》

发布于:2023-01-25 ⋅ 阅读:(643) ⋅ 点赞:(0)

通常情况下,在一个新的TCP连接完成三次握手之后,监听端的accept系统调用就可返回与此对应的子套接口。然而,TCP的延迟ACCEPT功能,允许TCP监听端仅在接收到客户端的数据报文后才去唤醒服务端应用的ACCEPT请求。

一、延迟ACCEPT开启
应用层通过setsockopt系统调用的选项TCP_DEFER_ACCEPT控制延迟ACCEPT功能。用户层下发以秒为单位的数值,内核转换为重传次数值使用,赋值于rskq_defer_accept变量。设置为0秒将关闭此功能。

static int do_tcp_setsockopt(struct sock *sk, int level, int optname, char __user *optval, unsigned int optlen)
{
    switch (optname) {
    case TCP_DEFER_ACCEPT:
        /* Translate value in seconds to number of retransmits */
        icsk->icsk_accept_queue.rskq_defer_accept = secs_to_retrans(val, TCP_TIMEOUT_INIT / HZ, TCP_RTO_MAX / HZ);
        break;
}
#define TCP_TIMEOUT_INIT ((unsigned)(1*HZ)) /* RFC6298 2.1 initial RTO value    */
#define TCP_RTO_MAX ((unsigned)(120*HZ))
转换函数secs_to_retrans的第一个参数为用户层下发的秒值,后两个分别为以秒为单位的TCP初始重传超时时长和最大重传超时时长RTO,参见宏定义两者的值为别为1秒和120秒。

如果用户层下发值大于0的话,最终得到的重传次数值在1到255之间。以重传初始时长timeout开始,每次重传时长递增一倍,知道重传超时的最大值rto_max,之后的重传超时不变使用最大值,知道超时时长大于用户下发值为止,推算出对应的重传次数。

/* Convert seconds to retransmits based on initial and max timeout */
static u8 secs_to_retrans(int seconds, int timeout, int rto_max)
{
    if (seconds > 0) {
        int period = timeout;
 
        res = 1;
        while (seconds > period && res < 255) {
            res++;
            timeout <<= 1;
            if (timeout > rto_max)
                timeout = rto_max;
            period += timeout;
        }
    }
    return res;
}

在用户层使用系统调用getsockopt的选项TCP_DEFER_ACCEPT获取当前的延迟ACCEPT时长值时,内核使用retrans_to_secs函数将重传次数转换为以秒为单位的时间值,返回给用户层。其实现与以上函数secs_to_retrans的逻辑正相反。

static int do_tcp_getsockopt(struct sock *sk, int level, int optname, char __user *optval, int __user *optlen)
{
    switch (optname) {
    case TCP_DEFER_ACCEPT:
        val = retrans_to_secs(icsk->icsk_accept_queue.rskq_defer_accept, TCP_TIMEOUT_INIT / HZ, TCP_RTO_MAX / HZ);
        break;
}
/* Convert retransmits to seconds based on initial and max timeout */
static int retrans_to_secs(u8 retrans, int timeout, int rto_max)
{
    if (retrans > 0) {
        period = timeout;
        while (--retrans) {
            timeout <<= 1;
            if (timeout > rto_max)
                timeout = rto_max;
            period += timeout;
        }
    }
    return period;
}

二、服务端接收检查

当处于TCP_NEW_SYN_RECV的请求套接口,接收到对端的报文(通常为ACK)之后,调用函数tcp_check_req进行检查。如果此报文的结束序号end_seq等于请求套接口记录的初始接收序号(rcv_isn)加1,通常rcv_isn为SYN报文使用的序列号,意味着当前报文为无数据的单纯ACK确认报文。并且,超时重传的次数还未超出设定的rskq_defer_accept次数值。内核将请求套接口的acked置位,表明已接收到对端ACK报文,但是并不创建相应的子套接口。

struct sock *tcp_check_req(struct sock *sk, struct sk_buff *skb, struct request_sock *req, bool fastopen)
{
    /* While TCP_DEFER_ACCEPT is active, drop bare ACK. */
    if (req->num_timeout < inet_csk(sk)->icsk_accept_queue.rskq_defer_accept && TCP_SKB_CB(skb)->end_seq == tcp_rsk(req)->rcv_isn + 1) {
        inet_rsk(req)->acked = 1;
        __NET_INC_STATS(sock_net(sk), LINUX_MIB_TCPDEFERACCEPTDROP);
        return NULL;
    }
    child = inet_csk(sk)->icsk_af_ops->syn_recv_sock(sk, skb, req, NULL, req, &own_req);
    
    return inet_csk_complete_hashdance(sk, child, req, own_req);
}
 

三、服务端发送超时
当服务端回复给客户端SYN+ACK报文之后,会启动一个(rsk_timer)超时定时器,以便在超时之后还未能接收到客户端相应的ACK报文,重新发送SYN+ACK报文。由以上的函数tcp_check_req的结束可知,如果延长ACCEPT发挥了作用,内核未能创建子套接口,也没调用到能够停止超时定时器的函数inet_csk_complete_hashdance。所以到时间后,超时处理函数reqsk_timer_handler得到运行。

static void reqsk_timer_handler(struct timer_list *t)
{
    struct request_sock *req = from_timer(req, t, rsk_timer);
    struct sock *sk_listener = req->rsk_listener;
    struct net *net = sock_net(sk_listener);
    struct inet_connection_sock *icsk = inet_csk(sk_listener);
    struct request_sock_queue *queue = &icsk->icsk_accept_queue;
 
    max_retries = icsk->icsk_syn_retries ? : net->ipv4.sysctl_tcp_synack_retries;
    thresh = max_retries;
 
    defer_accept = READ_ONCE(queue->rskq_defer_accept);
    if (defer_accept)
        max_retries = defer_accept;
    syn_ack_recalc(req, thresh, max_retries, defer_accept, &expire, &resend);
 
    if (!expire && (!resend || !inet_rtx_syn_ack(sk_listener, req) || inet_rsk(req)->acked)) {
 
        if (req->num_timeout++ == 0)
            atomic_dec(&queue->young);
        timeo = min(TCP_TIMEOUT_INIT << req->num_timeout, TCP_RTO_MAX);
        mod_timer(&req->rsk_timer, jiffies + timeo);
        return;
    }
drop:
    inet_csk_reqsk_queue_drop_and_put(sk_listener, req);
}

关键判断函数syn_ack_recalc,根据重传次数阈值、延迟ACCEPT次数等参数来确定是否过期以及是否重新发送SYN+ACK报文。如果当前的超时重传次数num_timeout已经大于等于阈值,并且还未接收到对端ACK确认报文,内核认为此连接已失败置位expire。或者即使接收到了ACK报文,但是重传次数已经大于等于最大的重传次数max_retries,内核也认为此连接已失败置位expire变量。

如果为接收到对端的ACK确认报文(acked为零),或者当前的超时重传次数与延迟ACCEPT次数仅相差1次时,置位resend变量重新发送SYN+ACK报文。后一判断条件可为对端建立TCP连接提供保障。

如果expire为真,超时处理函数reqsk_timer_handler将消耗此连接(实际上连接还未真正建立)。否则,如果置位了resend变量,内核使用inet_rtx_syn_ack函数执行SYN+ACK报文的重传。下一次的超时时间设置为初始超时时长TCP_TIMEOUT_INIT左移当前超时次数得到的值,但是不超过最大的超出时长TCP_RTO_MAX。

/* Decide when to expire the request and when to resend SYN-ACK */
static inline void syn_ack_recalc(struct request_sock *req, const int thresh, const int max_retries, const u8 rskq_defer_accept,
                  int *expire, int *resend)
{
    *expire = req->num_timeout >= thresh && (!inet_rsk(req)->acked || req->num_timeout >= max_retries);
    /*
     * Do not resend while waiting for data after ACK, start to resend on end of deferring period to give
     * last chance for data or ACK to create established socket.
     */
    *resend = !inet_rsk(req)->acked || req->num_timeout >= rskq_defer_accept - 1;
}
 

四、客户端检查

TCP客户端接收到服务端回复的SYN+ACK报文之后,进入函数tcp_rcv_synsent_state_process的处理逻辑。如果当前套接口有数据等待发送,或者开启了延迟ACCEPT功能,或者ACK策略设置为pingpong模式,客户端不会立即回复ACK确认报文。对于第一种情况,客户端尝试将数据与ACK一同发送,可减少一次报文发送。但是ACK的延迟时长不能超过TCP_DELACK_MAX定义的时长(200毫秒),如果超时之后,由ACK超时处理函数tcp_delack_timer负责ACK的发送。

static int tcp_rcv_synsent_state_process(struct sock *sk, struct sk_buff *skb, const struct tcphdr *th)
{
    struct inet_connection_sock *icsk = inet_csk(sk);
    struct tcp_sock *tp = tcp_sk(sk);
 
    if (th->ack) {
        if (!th->syn)
            goto discard_and_undo;
 
        if (sk->sk_write_pending || icsk->icsk_accept_queue.rskq_defer_accept || icsk->icsk_ack.pingpong) {
            inet_csk_schedule_ack(sk);
            tcp_enter_quickack_mode(sk);
            inet_csk_reset_xmit_timer(sk, ICSK_TIME_DACK, TCP_DELACK_MAX, TCP_RTO_MAX);
discard:
            tcp_drop(sk, skb);
            return 0;
        } else {
            tcp_send_ack(sk);
        }
        return -1;
    }
}
#define TCP_DELACK_MAX  ((unsigned)(HZ/5))  /* maximal time to delay before sending an ACK */

感谢redwingz博主分享优等文章