Kubernetes节点之间的ping监控

在诊断Kubernetes集群问题的时候，我们经常注意到集群中某一节点在闪烁*，而这通常是随机的且以奇怪的方式发生。这就是为什么我们一直需要一种工具，它可以测试一个节点与另一个节点之间的可达性，并以Prometheus度量形式呈现结果。有了这个工具，我们还希望在Grafana中创建图表并快速定位发生故障的节点（并在必要时将该节点上所有Pod进行重新调度并进行必要的维护）。

“闪烁”这里我是指某个节点随机变为“NotReady”但之后又恢复正常的某种行为。例如部分流量可能无法到达相邻节点上的Pod。

为什么会发生这种情况？常见原因之一是数据中心交换机中的连接问题。例如，我们曾经在Hetzner中设置一个vswitch，其中一个节点已无法通过该vswitch端口使用，并且恰好在本地网络上完全不可访问。

我们的最后一个要求是可直接在Kubernetes中运行此服务，因此我们将能够通过Helm图表部署所有内容。（例如在使用Ansible的情况下，我们必须为各种环境中的每个角色定义角色：AWS，GCE，裸机等）。由于我们尚未找到针对此环境的现成解决方案，因此我们决定自己来实现。

脚本和配置

我们解决方案的主要组件是一个脚本，该脚本监视每个节点的 .status.addresses 值。如果某个节点的该值已更改（例如添加了新节点），则我们的脚本使用Helm value方式将节点列表以ConfigMap的形式传递给Helm图表：

apiVersion: v1

kind: ConfigMap

metadata:

name: ping-exporter-config

namespace: d8-system

data:

nodes.json: >

{{ .Values.pingExporter.targets | toJson }}

.Values.pingExporter.targets 类似以下：

"cluster_targets":[{"ipAddress":"192.168.191.11","name":"kube-a-3"},{"ipAddress":"192.168.191.12","name":"kube-a-2"},{"ipAddress":"192.168.191.22","name":"kube-a-1"},{"ipAddress":"192.168.191.23","name":"kube-db-1"},{"ipAddress":"192.168.191.9","name":"kube-db-2"},{"ipAddress":"51.75.130.47","name":"kube-a-4"}],"external_targets":[{"host":"8.8.8.8","name":"google-dns"},{"host":"youtube.com"}]}

下面是Python脚本：

!/usr/bin/env python3

import subprocess

import prometheus_client

import re

import statistics

import os

import json

import glob

import better_exchook

import datetime

better_exchook.install()

FPING_CMDLINE = "/usr/sbin/fping -p 1000 -C 30 -B 1 -q -r 1".split(" ")

FPING_REGEX = re.compile(r"^(\S*)\s*: (.*)$", re.MULTILINE)

CONFIG_PATH = "/config/targets.json"

registry = prometheus_client.CollectorRegistry()

prometheus_exceptions_counter = \

prometheus_client.Counter('kube_node_ping_exceptions', 'Total number of exceptions', [], registry=registry)

prom_metrics_cluster = {"sent": prometheus_client.Counter('kube_node_ping_packets_sent_total',

'ICMP packets sent',

['destination_node', 'destination_node_ip_address'],

registry=registry),

"received": prometheus_client.Counter('kube_node_ping_packets_received_total',

'ICMP packets received',

['destination_node', 'destination_node_ip_address'],

registry=registry),

"rtt": prometheus_client.Counter('kube_node_ping_rtt_milliseconds_total',

'round-trip time',

['destination_node', 'destination_node_ip_address'],

registry=registry),

"min": prometheus_client.Gauge('kube_node_ping_rtt_min', 'minimum round-trip time',

['destination_node', 'destination_node_ip_address'],

registry=registry),

"max": prometheus_client.Gauge('kube_node_ping_rtt_max', 'maximum round-trip time',

['destination_node', 'destination_node_ip_address'],

registry=registry),

"mdev": prometheus_client.Gauge('kube_node_ping_rtt_mdev',

'mean deviation of round-trip times',

['destination_node', 'destination_node_ip_address'],

registry=registry)}

prom_metrics_external = {"sent": prometheus_client.Counter('external_ping_packets_sent_total',

'ICMP packets sent',