zabbix监测主机温度触发告警后温度降下来却没有自动解除告警的原因和解决办法

发布于:2022-12-21 ⋅ 阅读:(1400) ⋅ 点赞:(1)

zabbix监测主机温度触发告警后温度降下来却没有自动解除告警的原因和解决办法

本文zabbix模板: Huawei VRP SNMP
zabbix模板中的温度监测和报警主要依靠模板宏和触发器组合运行,其中模板宏预定义了告警温度、临界温度等,触发器用来检测实际数值是否达到设定值,实现自动判断触发或自动恢复。
温度监测相关模板宏:
查看路径: 配置 - 模板 - 模板名称 - 宏
宏名称
说明
模板预设值
{#TEMP_WARN}
预定义告警温度(℃)
50
{#TEMP_CRIT}
预定义临界温度(℃)
60
温度监测相关触发器:
查看路径: 配置 - 模板 - 模板名称 - 自动发现规则 - MPU Discovery - 触发器类型
类型
名称
动作
触发条件
触发条件说明
告警
{#ENT_NAME}: Temperature is above warning threshold
问题触发
avg(/Huawei VRP SNMP/sensor.temp.value[hwEntityTemperature.{#SNMPINDEX}],5m)>{$TEMP_WARN:"{#ENT_NAME}"}
5分钟平均温度大于设定告警温度
问题恢复
max(/Huawei VRP SNMP/sensor.temp.value[hwEntityTemperature.{#SNMPINDEX}],5m)<{$TEMP_WARN:"{#ENT_NAME}"}-3
5分钟内最大温度大于告警温度-3
严重
{#ENT_NAME}: Temperature is above critical threshold
问题触发
avg(/Huawei VRP SNMP/sensor.temp.value[hwEntityTemperature.{#SNMPINDEX}],5m)>{$TEMP_CRIT:"{#ENT_NAME}"}
5分钟平均温度大于设定临界温度
问题恢复
max(/Huawei VRP SNMP/sensor.temp.value[hwEntityTemperature.{#SNMPINDEX}],5m)<{$TEMP_CRIT:"{#ENT_NAME}"}-3
5分钟内最大温度大于临界温度-3

被测主机的温度假如达到告警温度线后降下来却不会自动解除告警(问题恢复)的原因:

答:根据模板预设告警温度和告警触发条件看,触发告警条件是5分钟内平均温度超过50℃,但告警恢复的条件是5分钟内最大温度高于47℃(告警温度-3),也就是说假如实际温度超过50度后想要解除告警,就必须连续5分钟温度低于47℃,5分钟内只要有任何监测周期超过47都不会解除告警状态。

假如实际设备温度确实需要工作在47-50度的尴尬范围,那么解决办法是:

答:查看zabbix对该设备的温度监测历史数据,假如温度平均值为52℃,那么为了同时兼顾能实现温度告警触发和告警自动恢复,可以推算合适并有效的恢复温度为53℃(如果日常温度波动比较大也可以设置更高一点,但需保证设备在可承受范围),推算告警温度=恢复温度+3=56,最终将temp_warn改为56即可。

设置方法:

方法1说明,直接修改并覆盖相关主机的模板继承宏的值,优点是不影响其他使用相同模板的设备,缺点是有相关需求的设备都要一一手工修改(当然也可以复制一份模板,然后相关设备都指定到这份新模板上)。
方法2说明,直接修改相关模板内的预设宏的值,优点是只需要改一个模板即可影响全部使用本模板的设备,缺点也是修改一个模板就会影响全部使用本模板的设备。

方法1.操作步骤:

  1. 点击“配置 - 主机 - 相关主机名”
  2. 点击“宏 - 继承以及主机宏”
  3. 找到要修改的宏名称,点击“更改”,填入要修改的新值,点击“更新”
  4. 说明:修改继承宏值后生效时间一般依据该检测项的周期时间和触发器的条件,例如默认设备温度监测项的更新间隔是3分钟,温度告警条件和恢复条件的函数取值是5分钟内。

方法2.操作步骤:

  1. 点击“配置 - 模板 - (本例为Huawei VRP SNMP)”
  2. 点击“宏”,修改对应的宏值,点击“更新”

网站公告

今日签到

点亮在社区的每一天
去签到