12

一次单节点单个pod网络问题排查过程

 4 years ago
source link: https://zhangguanzhang.github.io/2021/04/30/kubernetes-sec-agent-node-network-error/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

about

现场反馈客户环境上业务不正常,根据调用链去看某个业务A日志,发现无法请求另一个业务B,把业务 A 的探针取消了,加上

tty: true
command: ["bash"]

起来后进去 curl 了下 B 对应的 svcIP 接口是能通的。然后手动起业务进程,再开个窗口 exec 进去 curl 发现就不通了,只有一个节点,并且只有这一个 pod 有问题。后面排查到是用户的安全软件导致的。软件名是

$ ps aux | grep agent
root 6349 0.3 0.1 21046316 116820 ? Sl 11:08 0:02 /CloudResetPwdUpdateAgent/depend/jre1.8.0_232/bin/java -Dorg.tanukisoftware.wrapper.WrapperSimpleApp.maxStartMainWait=40 -Djava.library.path=../lib -classpath ../lib/resetpwdupdateagent.jar:../lib/wrapper.jar:../lib/json-20160810.jar:../lib/log4j-api-2.8.2.jar:../lib/log4j-core-2.8.2.jar -Dwrapper.key=osxWGEBk6yYtP6sr -Dwrapper.backend=pipe -Dwrapper.disable_console_input=TRUE -Dwrapper.pid=6019 -Dwrapper.version=3.5.26 -Dwrapper.native_library=wrapper -Dwrapper.arch=x86 -Dwrapper.service=TRUE -Dwrapper.cpu.timeout=10 -Dwrapper.jvmid=1 org.tanukisoftware.wrapper.WrapperSimpleApp CloudResetPwdUpdateAgent
root 13860 76.1 0.3 796288 253072 ? Sl 11:08 8:27 /usr/local/dbappsecurity/edr/agent_service runservice
root 14188 0.0 0.0 46004 6000 ? S 11:08 0:00 /usr/local/dbappsecurity/edr/agent_daemon
root 17399 0.0 0.0 112712 976 pts/0 S+ 11:19 0:00 grep --color=auto agent
root 22206 0.0 0.0 22496 1448 ? S 11:08 0:00 vm-agent
root 22215 0.1 0.0 628744 4104 ? Sl 11:08 0:01 vm-agent

杀掉 dbappsecurity 两个进程后重建业务 A 的 pod 后就正常了。

之前也遇到过安全软件导致 pod 网络通信异常 eof 的,列举一些国产遇到过的软件软件:

ds_agent
qaxsafed # 奇安信,查qax看看有没有其他的
secdog
YDservice
Symantec

Recommend

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK