

一次单节点单个pod网络问题排查过程
source link: https://zhangguanzhang.github.io/2021/04/30/kubernetes-sec-agent-node-network-error/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

about
现场反馈客户环境上业务不正常,根据调用链去看某个业务A日志,发现无法请求另一个业务B,把业务 A 的探针取消了,加上
tty: true
command: ["bash"]
起来后进去 curl 了下 B 对应的 svcIP 接口是能通的。然后手动起业务进程,再开个窗口 exec 进去 curl 发现就不通了,只有一个节点,并且只有这一个 pod 有问题。后面排查到是用户的安全软件导致的。软件名是
$ ps aux | grep agent
root 6349 0.3 0.1 21046316 116820 ? Sl 11:08 0:02 /CloudResetPwdUpdateAgent/depend/jre1.8.0_232/bin/java -Dorg.tanukisoftware.wrapper.WrapperSimpleApp.maxStartMainWait=40 -Djava.library.path=../lib -classpath ../lib/resetpwdupdateagent.jar:../lib/wrapper.jar:../lib/json-20160810.jar:../lib/log4j-api-2.8.2.jar:../lib/log4j-core-2.8.2.jar -Dwrapper.key=osxWGEBk6yYtP6sr -Dwrapper.backend=pipe -Dwrapper.disable_console_input=TRUE -Dwrapper.pid=6019 -Dwrapper.version=3.5.26 -Dwrapper.native_library=wrapper -Dwrapper.arch=x86 -Dwrapper.service=TRUE -Dwrapper.cpu.timeout=10 -Dwrapper.jvmid=1 org.tanukisoftware.wrapper.WrapperSimpleApp CloudResetPwdUpdateAgent
root 13860 76.1 0.3 796288 253072 ? Sl 11:08 8:27 /usr/local/dbappsecurity/edr/agent_service runservice
root 14188 0.0 0.0 46004 6000 ? S 11:08 0:00 /usr/local/dbappsecurity/edr/agent_daemon
root 17399 0.0 0.0 112712 976 pts/0 S+ 11:19 0:00 grep --color=auto agent
root 22206 0.0 0.0 22496 1448 ? S 11:08 0:00 vm-agent
root 22215 0.1 0.0 628744 4104 ? Sl 11:08 0:01 vm-agent
杀掉 dbappsecurity
两个进程后重建业务 A 的 pod 后就正常了。
之前也遇到过安全软件导致 pod 网络通信异常 eof 的,列举一些国产遇到过的软件软件:
ds_agent
qaxsafed # 奇安信,查qax看看有没有其他的
secdog
YDservice
Symantec
Recommend
-
76
最近生产上上线了一个新的功能,在业务人员使用过程中,通过查看日志我们发现一个诡异的问题。这篇文章记录一下这个问题的排查过程以及解决方法。存在问题的程序使用了 C 语言的 Redis 客户端 hiredis 来连接和操作 Redis。由于处于分布式的环境,所以我们使用了 R...
-
15
巡山小汪1周前 最近发现线上出现一个奇葩的问题,这问题让笔者定位了好长时间,期间排查问题的过程还是挺有意思的,正好博客也好久不更新了,就以此为素材写出...
-
4
一次有趣的 Docker 网络问题排查文章>一次有趣的 Docker 网络问题排查一次有趣的 Docker 网络问题排查挖...
-
3
一次有趣的 Docker 网络问题排查经历 ...
-
10
记录一次线上502排查过程 nanjingfm · 大约3小时之前 · 42 次点击 · 预计阅读时间 8 分钟 ·...
-
8
一次诡异的内存泄露排查过程,背后原因令人深思 ...
-
14
一次TailScale网络问题的调试过程FrankMay 6, 2022前文提到,我使用TailScale将我的所有设备组成了一个Mes...
-
7
记一次排查线上MySQL死锁过程,不能只会curd,还要知道加锁原理 ...
-
9
记录一次数据库CPU被打满的排查过程 近期随着数据...
-
8
一次JVM GC长暂停的排查过程 推荐 原创 京东云官方 2023-01-10 09:40:37...
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK