Странная отработка SYS_SERVICE_DOWN (event есть, почты нет)

Started by Mikhail V. Platonov, December 25, 2007, 11:06:10 AM

Previous topic - Next topic

Mikhail V. Platonov

И снова здравствуйте.
Столкнулся с ситуацией, всю голову сломал.
Есть некий сервер с апачем на борту, у него два интерфейса (внутренний и внешний). В NetXMS он добавлен дважды, в разные подсети, как vhost-inner и vhost-outer. На оба объекта добавлен сервис проверки httpd (т.е. 80-й порт). На event SYS_SERVICE_DOWN повешен action ServiceAlert, который отсылает письмо о том, что "Ахтунг и Алярм!", а на event SYS_SERVICE_UP соответственно action ServiceUnalert, который говорит, что все ок, тоже письмом. Впринципе всё логично, всё работает. Если потушить апач, оба объекта переводятся в статус Critical, в Event log появляются записи про оба сервиса, уходит письмо о проблеме. Но только для vhost-inner! Потом, я поднимаю апач и объекты становятся Normal, и тут уже приходит два письма, и про vhost-inner, и про vhost-outer. Единственное различие между двумя интерфейсами в том, что на внешнем закрыт пинг. Но я выключил проверку на пинг. В чем может быть проблема, не подскажите?

Victor Kirhenshtein

Neskol'ko dopolnitel'nih voprosov:
1. Na etom servere est' agent?
2. Esli agenta net, to est' fiktivnij interfeis lan0 - kakoj u nego status u hosta vhost-outer?

Mikhail V. Platonov

Quote from: Victor Kirhenshtein on December 27, 2007, 11:53:39 AM
Neskol'ko dopolnitel'nih voprosov:
1. Na etom servere est' agent?
2. Esli agenta net, to est' fiktivnij interfeis lan0 - kakoj u nego status u hosta vhost-outer?
1. Нет, агент не установлен.
2. У lan0 статус Unknown (т.е. значок вопроса на интерфейсе).

weec

просто сделай pool > configuration в свойствах ноды

Mikhail V. Platonov

Сделал, ага. Существенно ничего не изменилось. NetXMS так и говорит, что Node configuration не изменилась. И шлёт письма, что check-httpd нормал. Это уже после того, как я апач поднял. А вот про то, что апач падал, писем не шлет.

Victor Kirhenshtein

Проблема в логике определения того, что нода полностью down. Сервер считает, что если все сервисы и интерфейсы недоступны, то нода полностью недоступна и посылает только один event SYS_NODE_DOWN (точнее все события SYS_SERVICE_DOWN и SYS_IF_DOWN коррелируются к SYS_NODE_DOWN и не проходят через event processing policy). При этом интерфейсы и сервисы в статусе UNKNOWN из рассмотрения исключаются, что и создает проблему в нашем случае. Надо будет эту логику подправить, я только не знаю пока как лучше.

Mikhail V. Platonov

Т.е., если упросить владельца машина открыть файервол на пинг, то отработка будет корректной?

Victor Kirhenshtein