解决salt-master部分僵尸子进程问题

saltstack在线上稳定的运行了一段时间,最近发现时不时master的少量的子进程变成了僵尸进程,最快的解决方法是重启master,但是治标不治本,一段时间后又会出现少量的僵尸进程。
开始还以为是master的子进程启少了,如是修改/etc/salt/master配置文件增加子线程的数量,但是还是会发现僵尸进程。 经过一段时间的摸索,发现master端的超时时间默认是5s 。由于运维平台有更多的采集任务需要master来执行,master在有任务突发的情况下,有些配置的下发或者脚本的执行很容易超时,超时的最直接结果是配置和操作步骤都没有问题,但是批量执行时会随机的报错,把报错的任务单独执行又完全正确”。
解决方法是更改/etc/salt/master配置文件,将timeout项的注释取消,改成5s的倍数试试(其它也行,只要比5s大合适就行)。然后重启master没有出现僵尸进程了。

----------------本文结束 感谢阅读----------------