最近负责的项目生产环境久不久会报响应异常的错误,查看相应的NGINX有持续几分钟的连接超时的日志,如下:
upstream timed out (110: Connection timed out) while reading response header from upstream, client
查看相应的access日志,相应时间的请求没有响应码,再看没有响应前的请求日志,发现有几笔持续请求超过设定时长5S的响应时间的请求。查看应用服务器的TCP请求状态,发现有很多是处于CLOSE_WAIT的状态。在不处理的情况下,应用在几分钟后自动恢复。
问题解决方案:
1.个别接口处理耗时较长;
通过排查相应时间段的接口的处理时长,找出耗时超时的接口进行优化,优化思路是看代码逻辑和SQL执行情况,是否数据太多或者查询未走索引。
2.通过以下配置调整,优化应用服务器的TCP请求;
sudo sysctl -a | grep conntrack sudo sysctl -w net.netfilter.nf_conntrack_max=262144 sudo sysctl -w net.nf_conntrack_max=262144 sudo sysctl -w net.ipv4.tcp_tw_reuse=1 sudo sysctl -w net.ipv4.tcp_tw_recycle=1 sudo sysctl -w net.ipv4.tcp_fin_timeout=30
执行以下命令生效.
sudo sysctl -p
后面通过增加配置备用节点解决该问题,配置如下:
upstream gin_server{ #主节点 server 127.0.0.1:8000; server 127.0.0.1:8001 backup;#备用节点 }
上一篇:IOC和AOP