解决salt-master部分僵尸子进程问题

saltstack在线上稳定的运行了一段时间,最近发现时不时 master 的少量的子进程变成了僵尸进程,最快的解决方法是重启master,但是治标不治本,一段时间后又会出现少量的僵尸进程。开始还以为是master的子进程启少了,如是修改 /etc/salt/master 配置文件增加子线程的数量,但是还是会发现僵尸进程。
经过一段时间的摸索,发现master端的超时时间默认是 5s 。由于运维平台有更多的采集任务需要master来执行,master在有任务突发的情况下,有些配置的下发或者脚本的执行很容易超时,超时的最直接结果是“配置和操作步骤都没有问题,但是批量执行时会随机的报错,把报错的任务单独执行又完全正确”。
解决方法是更改 /etc/salt/master 配置文件,将 timeout 项的注释取消,将时间改成 5s 的倍数(这只是我改参数的习惯。其它也行,只要比5s大合适就行)。然后重启 master 就不会出现僵尸进程了。
转载请注明出处 http://www.xiaomastack.com/2014/06/30/saltstackmasterz/ 谢谢!

发表评论:

你的电子邮件地址将不会被公开.

8 × 1 =