如何创建一个自己连自己的TCP连接
能不能建立一个tcp连接, src-ip:src-port 等于dest-ip:dest-port 呢?
最近有同时找我,说是发现了一个奇怪的问题,他的 MySQLD listen 28350 端口, Sysbench 和 MySQLD 部署在同一台机器上,然后压 MySQL,只要 MySQL 一挂掉就再也起不来,起不来是因为 28350 端口被 Sysbench 抢走了,如下图,对 Sysbench 来说他已经连上 28350 的 MySQL 了(注意 ESTABLISHED 状态):
所以问题就是能不能建立一个自己连自己的连接呢?建立后有什么现象和后果?
测试
执行
1 | # nc 192.168.0.79 18082 -p 18082 |
然后就能看到
1 | # netstat -ant |grep 18082 |
比较神奇,这个连接的srcport等于destport,并且完全可以工作,也能收发数据。这有点颠覆大家的理解,端口能重复使用?
port range
我们都知道linux下本地端口范围由参数控制
1 | # cat /proc/sys/net/ipv4/ip_local_port_range |
所以也经常看到一个误解:一台机器上最多能创建65535个TCP连接
到底一台机器上最多能创建多少个TCP连接
在内存、文件句柄足够的话可以创建的连接是没有限制的,那么/proc/sys/net/ipv4/ip_local_port_range指定的端口范围到底是什么意思呢?
一个TCP连接只要保证四元组(src-ip src-port dest-ip dest-port)唯一就可以了,而不是要求src port唯一,比如:
1 | # netstat -ant |grep 18089 |
从前三行可以清楚地看到18089被用了三次,第一第二行src-ip、dest-ip也是重复的,但是dest port不一样,第三行的src-port还是18089,但是src-ip变了。
所以一台机器能创建的TCP连接是没有限制的,而ip_local_port_range是指没有bind的时候OS随机分配端口的范围,但是分配到的端口要同时满足五元组唯一,这样 ip_local_port_range 限制的是连同一个目标(dest-ip和dest-port一样)的port的数量(请忽略本地多网卡的情况,因为dest-ip为以后route只会选用一个本地ip)。
但是如果程序调用的是bind函数(bind(ip,port=0))这个时候是让系统绑定到某个网卡和自动分配的端口,此时系统没有办法确定接下来这个socket是要去connect还是listen. 如果是listen的话,那么肯定是不能出现端口冲突的,如果是connect的话,只要满足4元组唯一即可。在这种情况下,系统只能尽可能满足更强的要求,就是先要求端口不能冲突,即使之后去connect的时候4元组是唯一的。
bind()的时候内核是还不知道四元组的,只知道src_ip、src_port,所以这个时候单网卡下src_port是没法重复的,但是connect()的时候已经知道了四元组的全部信息,所以只要保证四元组唯一就可以了,那么这里的src_port完全是可以重复使用的。
自己连自己的连接
我们来看自己连自己发生了什么
1 | # strace nc 192.168.0.79 18084 -p 18084 |
抓包看看,正常三次握手,但是syn的seq和syn+ack的seq是一样的
这个连接算是常说的TCP simultaneous open,simultaneous open指的是两个不同port同时发syn建连接。而这里是先创建了一个socket,然后socket bind到18084端口上(作为local port,因为nc指定了local port),然后执行 connect, 连接到的目标也是192.168.0.79:18084,而这个目标正好是刚刚创建的socket,也就是自己连自己(连接双方总共只有一个socket)。因为一个socket充当了两个角色(client、server),握手的时候发syn,自己收到自己发的syn,就相当于两个角色simultaneous open了。
正常一个连接一定需要两个socket参与(这两个socket不一定要在两台机器上),而这个连接只用了一个socket就创建了,还能正常传输数据。但是仔细观察发数据的时候发放的seq增加(注意tcp_len 11那里的seq),收方的seq也增加了11,这是因为本来这就是用的同一个socket。正常两个socket通讯不是这样的。
那么这种情况为什么没有当做bug被处理呢?
TCP simultanous open
在tcp连接的定义中,通常都是一方先发起连接,假如两边同时发起连接,也就是两个socket同时给对方发 syn 呢? 这在内核中是支持的,就叫同时打开(simultaneous open)。
摘自《tcp/ip卷1》
可以清楚地看到这个连接建立用了四次握手,然后连接建立了,当然也有 simultanous close(3次挥手成功关闭连接)。如下内核代码 net/ipv4/tcp_input.c 的5924行中就说明了允许这种自己连自己的连接(当然也允许simultanous open). 也就是允许一个socket本来应该收到 syn+ack(发出syn后), 结果收到了syn的情况,而一个socket自己连自己又是这种情况的特例。
1 | static int tcp_rcv_synsent_state_process(struct sock *sk, struct sk_buff *skb, |
也就是在发送syn进入SYN_SENT状态之后,收到对端发来的syn包后不会RST,而是处理流程如下,调用tcp_set_state(sk, TCP_SYN_RECV)进入SYN_RECV状态,以及调用tcp_send_synack(sk)向对端发送syn+ack。
自己连自己的原理解释
第一我们要理解Kernel是支持simultaneous open(同时打开)的,也就是说socket发走syn后,本来应该收到一个syn+ack的,但是实际收到了一个syn(没有ack),这是允许的。这叫TCP连接同时打开(同时给对方发syn),四次握手然后建立连接成功。
自己连自己又是simultaneous open的一个特例,特别在这个连接只有一个socket参与,发送、接收都是同一个socket,自然也会是发syn后收到了自己的syn(自己发给自己),然后依照simultaneous open连接也能创建成功。
这个bind到18084 local port的socket又要连接到 18084 port上,而这个18084 socket已经bind到了socket(也就是自己),就形成了两个socket 的simultaneous open一样,内核又允许这种simultaneous open,所以就形成了自己连自己,也就是一个socket在自己给自己收发数据,所以看到收方和发放的seq是一样的。
可以用python来重现这个连接连自己的过程:
1 | import socket |
这里connect前如果没有bind那么系统就会从 local port range 分配一个可用port。
bind成功后会将ip+port放入hash表来判重,这就是我们常看到的 Bind to *** failed (IOD #1): Address already in use 异常。所以一台机器上,如果有多个ip,是可以将同一个port bind多次的,但是bind的时候如果不指定ip,也就是bind(‘0’, port) 还是会冲突。
connect成功后会将四元组放入ehash来判定连接的重复性。如果connect四元组冲突了就会报如下错误
1 | # nc 192.168.0.82 8080 -p 29798 -s 192.168.0.79 |
问题解决
知道原因就好解决了,有如下两个方案
- 正常应该通过 port_range 限制随机端口的使用范围(就是给 Sysbench 这些客户端使用的),而 Listen 使用的端口在 port_range 之外,这样就不会出现自己连自己的连接了
- 将 listen 端口添加到 /proc/sys/net/ipv4/ip_local_reserved_ports 中
方案2示例(推荐方案2)如下:
1 | # echo 3306,32768,1024-3000,32769-65535 >/proc/sys/net/ipv4/ip_local_reserved_ports |
以上两个方法都可以解决这个问题,方案2 简直是为这种情况量身打造的
bind 和 connect、listen
当对一个TCP socket调用connect函数时,如果这个socket没有bind指定的端口号,操作系统会为它选择一个当前未被使用的端口号,这个端口号被称为ephemeral port, 范围可以在/proc/sys/net/ipv4/ip_local_port_range里查看。假设30000这个端口被选为ephemeral port。
如果这个socket指定了local port那么socket创建后会执行bind将这个socket bind到这个port。比如:
1 | socket(AF_INET, SOCK_STREAM, IPPROTO_TCP) = 3 |
listen
参考资料
https://segmentfault.com/a/1190000002396411
linux中TCP的socket、bind、listen、connect和accept的实现
How Linux allows TCP introspection The inner workings of bind and listen on Linux.