Menu

Show posts

This section allows you to view all posts made by this member. Note that you can only see posts made in areas you currently have access to.

Show posts Menu

Messages - Anth0ny

#211
??? я уже решительно не понимаю что происходит...
за ночь проблема рассосалась сама собой: после сегодняшнего утреннего сброса статуса "Critical" с дисков сервера, теперь как "Critical" помечается только тот диск, на котором и правда реально есть проблема с местом... и ничего дурацкого... но ведь вчера-то помечались все, Вы же видели скрины... я это не придумал...

сейчас: в Alarm'ах всё корректно, извещения приходят только по реально проблемным дискам.
мда. дела.

склоняюсь к мысли, что чудил Агент.
так что проблема конечно есть, вот только где она зарыта....

вот интересные данные для размышления:

1. запрошенная история полученных значений выглядит странно, см. атач export_c.txt, я как-то сразу и не догадался туда заглянуть...  даю данные экспорта только по одному диску, так как при ближайшем рассмотрении все остальные ЯКОБЫ проблемные DCI тоже получали 0 вместо реальных цифр...

я про это: https://www.netxms.org/forum/index.php?action=dlattach;topic=422.0;attach=137;image

2. по поводу настроек DCI: я практически закончил руководство и даю фрагмент, относящийся именно к указанному случаю (я всё ещё жду от Вас ответ на приват, там был запрос на несколько примеров, прошу по возможности помочь :)).

Quote
Пример: создаём 4 Пороговых значения с внутренней связью для отслеживания перехода Объекта из одного Тревожного состояния в другое и возврата в Нормальное состояние (каждое Пороговое значение вводится как отдельный объект, т.е. имеет свои свойства).

Поле Thresholds list, кнопка Add.

- Раздел "Condition" (Условие)
Пункты "will be" и "than" - условия для проведения Сравнения получаемых Сборщиком и Пороговых эталонных данных

Примечание: указан не порядок ввода, а порядок окончательного положения Порогов в списке Thresholds list; пункты с 1) по 4) - 4 повторяющихся действия по созданию каждого Порога отдельно, которые нужно выполнить как 1)->1)[а-б]->1), 2)->2)[а-б]->2) и т.д. до 4)

Вводим данные:

1) will be less than 5.000000
2) will be less than 10.000000
3) will be less than 15.000000
4) will be less than 20.000000

- Раздел "Event" (Событите)
Пункт а) "If condition is TRUE, generate the following event"
Пункт б) "When condition becames FALSE again, generate the following event"

Вводим данные:

1) а) DISK_CAPACITY_CRITICAL   б) DISK_CAPACITY_MAJOR
2) а) DISK_CAPACITY_MAJOR      б) DISK_CAPACITY_MINOR
3) а) DISK_CAPACITY_MINOR      б) DISK_CAPACITY_WARNING
4) а) DISK_CAPACITY_WARNING      б) DISK_CAPACITY_OK

- Раздел "Repeat Event" (Повтор События)

Пункт "Every".

Вводим данные:

1) 600
2) 900
3) 1800
4) 3600

Т.е. таким образом мы постепенно переводим Объект из одного из 4ёх состояний в другое по мере заполнения (или освобождения) диска и извещения о состоянии заполнения диска чаще приходят при более критических уровнях заполнения.
#212
Quote from: Victor Kirhenshtein on July 21, 2008, 05:07:57 PM
Дополнительный вопрос: а в Last Values данные показываются правильно? А то у меня есть подозрение что в момент отсылки таких писем сервер получает от агента пустую строку вместо данных и честно ее подставляет...

ээ... да вроде всё выглядит корректно... за исключением статуса.
я уже ничего не понимаю: по непонятной причине Агент (или сервер??) помечает нормальные диски как будто на них кончается место... думал - глюк, сбросил состояние... а оно вновь и вновь выставляется... я не могу понять в чём дело =((.

цифры вроде правильные в Last DCI Values, а вот в ALARM'ах...

данные получены, вот, судите сами: (даю скрины)
#213
Great! Thanks!
#214
Обновление по предыдущему посту: похоже что это одна и та же ошибка.. не другая... или не совсем другая....

я перезапустил Агента на сервере, с которого не мог получить данные по диску.
теперь результат есть, но он такой же, как и в случае с температурами:

по некоторым дискам нормальный ответ

ВРЕМЯ ВОЗНИКНОВЕНИЯ:    21-Jul-2008 16:25:51
МЕСТО ВОЗНИКНОВЕНИЯ:    test.server.ru[10.150.16.11]
ИСТОЧНИК СОБЫТИЯ:       Свободное место на диске S: (в %)
СТАТУС СОБЫТИЯ:         Major

ОПАСНО: опасное превышение параметра "Свободное место на диске S: (в %)"! Текущее значение: 5.006286 (пороговое значение: 10.000000)

а по некоторым - аномальный результат

ВРЕМЯ ВОЗНИКНОВЕНИЯ:    21-Jul-2008 16:25:51
МЕСТО ВОЗНИКНОВЕНИЯ:    test.server.ru[10.150.16.11]
ИСТОЧНИК СОБЫТИЯ:       Свободное место на диске T: (в %)
СТАТУС СОБЫТИЯ:         Major

ОПАСНО: опасное превышение параметра "Свободное место на диске T: (в %)"! Текущее значение:  (пороговое значение: 0x0000077C)
#215
you right.  :)

but how about if i don't want to poll every 60 seconds and want to change an interval to (for example) 600 or more seconds?

how can i use an advanced scheduling with non-standard poll interval?
#216
и вдогонку ещё одна найденная мной сегодня ошибка, походу всё из той же оперы:

опять использованы все те же настройки как написано ранее в теме (отличие есть, мереем не температуру а дисковое пространство, но это различие совершенно не значительно).

что имеем: при обработке события со статусом Critical не обрабатывается макрос, подставляющий текущее полученное DCI значение (Текущее значение:).

примечание: и в Alarm Browser'е та же ситуация: нет текущих значений.

т.е. как мы можем наблюдать, эталонное значение (с которым сравниваем) есть - 5.000000, а вот то, которое получаем и которое сравниваем- нет. не подставляется.

и это только в случае с Severity = Critical.

Event configuration:

Name: DISK_CAPACITY_CRITICAL
Message template: АХТУНГ: критическое состояние параметра "%2"! Текущее значение: %4 (допустимое значение: %3)
Severity = Critical (write to Event Log)

Quote
ВРЕМЯ ВОЗНИКНОВЕНИЯ:    21-Jul-2008 10:25:45
МЕСТО ВОЗНИКНОВЕНИЯ:    test.server.ru[10.100.1.11]
ИСТОЧНИК СОБЫТИЯ:       Свободное место на диске C: (в %)
СТАТУС СОБЫТИЯ:         Critical

АХТУНГ: критическое состояние параметра "Свободное место на диске C: (в %)"! Текущее значение:  (допустимое значение: 5.000000)

у меня на нескольких серверах в выходные начало кончаться место. ВСЕ сообщения с severity = Critical, полученные от всех серверов за 2 выходных дня, не содержат текущих данных по свободному объёму диска.

т.е. ошибка не единичная, подстановка не работает в принципе.

И есть подозрение что данные по текущему показателю ПРИ Severity = Critical вообще не попадают в базу и дальнейшая обработка приостанавливается (на серверах со временем место пришло в норму, но статус Critical с DCI дисков не снялся).

+ ВОПРОС: применительно к мониторингу ресурсов и степени их занятости (заполненности).

Если используется несколько степеней важности (Warning, Minor, Major, Critical) загруженности ресурса, КАК можно указывать автоматом (через макрос) применительно к указанным выше шаблонам текста, что для всех степеней важности Эталонное пороговое значение (Threshold) - своё (понятно, что для каждого статуса - отдельное), а вот при подстановке в текст нужно иметь ввиду, что ОБЩЕЕ эталонное значение- отдельное и для всех одинаковое (нужно брать из статуса Normal)?

объясню:

сободно на диске (Threshold Condition) => 10 гб - Normal
при Threshold Condition =< 9 гб = Warning
при Threshold Condition =< 8 гб = Minor
при Threshold Condition =< 7 гб = Major
при Threshold Condition =< 6 гб = Critical

Соответственно Threshold Condition для каждого Threshold - свой. Но суть в том, что для всех них есть один единый ЛОГИЧЕСКИЙ Threshold, 10 гб. Который определяет НОРМАЛЬНОЕ состояние диска.

Было бы совсем неплохо иметь возможность размер этого базового Threshold подставить в текст... А то получается что в текст сейчас можно подставить только Текущий показатель и его эталонный Threshold.

вопрос возник потому, что у меня используется несколько разных схем мониторинга дисков, где-то - в %, где-то - в абсолютных величинах, при этом к разным серверам - разные требования (у сервером сильно различается объём дисков). а добиться хочется максимальной универсализации...
#217
1. По этой ошибке с разбором макросов что-нибудь есть? Странно оно выглядит...  ???
2. Понял... А можно привести пример формирования текста при помощи скрипта? а то чтото совсем не очевидно, как это делается...  :)

#218
i can help with SNMP, i use it for DELL & HP Servers for thermal monitoring.
if you have concrete questions, i will try to help you.
#219
General Support / Re: External program from action
July 18, 2008, 09:30:01 AM
please provide us a full information about your configuration, step-by-step..
#220
Виктор, спасибо! =)
Усиленно ждём 0.2.22.
#221
It is possible to add a new option for Scheduler (Polling and storage)?

Add an "Exclusion Time" option (for direct adding one or more exclusions)

OR

Split field to two parts at "Use advanced shedule" tab and stay one as "Schedules" and add new with name "Exclusions" for adding exclusions intervals
#222
Хмм.. вроде нет.

Сейчас пересоздал DCI и всё заработало. Чудеса....

Создавал на контейнере Кластера новый DCI (как и в прошлый раз так):

Описание: Кластер - Свободное место на Диске С: (в %)
Параметр: Disk.FreePerc(C:)

Интервал: 600 секунд

Только теперь оно заработало... Чудеса...

По поводу Событий и Терминологии: да, всё так. Очевидно у меня произошла логическая подмена понятия События и Шаблона События... =) Хотя мне почему-то кажется что мы объясняем одно и тоже только с разных точек зрения и суть от этого не меняется. Да, вопрос терминологии... =))

Просто получается так, что часть DCI с Threshold'ами зашита в движок (как например в случае с кластером), и События для этого случая уже заранее предопределены. И другие не задействовать. А часть (бОльшая) Событий создаётся Оператором вручную и без DCI и сопутствующего ему Threshold'а - смысла не имеет, просто запись в Базе.

Я именно от этого и отталкивался.
#223
Дополнение по Шаблонам:

просьба при Дублировании или Перемещении индивидуального DCI в Шаблон по умолчанию выставлять для него состояние Выключено (Disabled) и менять имя на Dublicate of: Название оригинального DCI.
#224
Quote from: Victor Kirhenshtein
Proshu proshenija za bol'shie zaderzki s otvetami, bil ochen' bol'shoj zaval na rabote. Sejchas postarajus' v techenii dnja otvetit' na vse voprosi na forume.

Спасибо Вам Виктор за Вашу работу! =)
Очень жду помощь... Проблема в том, что далеко не все подробности настройки и работы NetXMS освещены в Документации. И поэтому приходится изводить Вас вопросами.. =(

Quote from: Victor Kirhenshtein
Eto bilo-bi interesno, no ja poka ploho predstavljaju chto i kak tam mozno bilo bi uluchshit'. Mozno sdelat' otdel'noe obsuzdenie v feature request i pridti k novoj sheme monitoringa klasterov. Togda mozno budet ee i realizovat'.

Оки! Я сам- не великий специалист по кластерам. Вот мой начальник- другое дело. Я попросил его накидать (эскизно) предложение по улучшению мониторинга кластеров, я потом напишу в Предложения. Кстати, прошу заметить, что только в Вашем мониторинге реализован прямой метод контроля кластеров (я перебрал много разных перед тем, как остановился на NetXMS. Т.е. NetXMS - в своём роде уникальный продукт. Вот ежели бы ещё добавить парсинг логов, так и вообще ничего другого не нужно будет (тот же самый Nagios всё равно использует отдельный внешний модуль для контроля логов, встроенного у него нет).

Quote from: Victor Kirhenshtein
Ja segodnja/zavtra proverju etot funkcional, pohoze tam kakie-to strashnie bagi...

Да, пожалуйста =). А то как-то странно оно работает.... А ведь функция полезна и как раз решает (ну не на 100% но близко) проблему реагирования на продолжительность событий.

Вот ещё бы именно этот пункт улучшить и добавить в него подсчёт кол-ва полученных негативных Событий и запускать дополнительное Событие не по таймауту, а по этому заданному количеству... Я уже оформлял нечто подобное в Предложениях, https://www.netxms.org/forum/index.php/topic,404.0.html, пункт 1.

Но дальнейший анализ показал что создавать свойство "Duration" (или можно ещё наверное сказать "Counting events") лучше всего именно в связке с Timeout'ом. Как мне кажется- вполне логично. Т.е. нужен выбор (radio button) или одного, или другого параметра. Или же вообще отказаться от параметра Timeout и заменить его на Counting events... Почему? Мы же уже имеем возможность контролировать параметр Времени при помощи указания интервала опроса для каждой DCI? А значит второй контроль по времени но уже со стороны Timeout'а мне кажется немного эээ... нелогичным... Поскольку События продолжают собираться по мере запуска DCI с указанным ему интервалом, в этом разделе (Timeout) лучше наверное было бы подсчитывать количество полученных Событий. А время их получения (интервал) нами уже задан в DCI.

Очень надеюсь что пишу терминологически правильно и понятно... Стараюсь.

Quote from: Victor Kirhenshtein
Zdes' kakoe-to nesovpadenie terminov pohoze :) Nel'zja zapustit'/ostanovit' obrabotku sobitija - ona vsegda proishodit (t.e. kazdoe sobitie obrabativaetsja). Mozno po sobitiju zapuskat' vneshnie processi - cherez Actions, sozdavat' u ubirat' alarmi, menjat' sostojanija situacij.

Виктор, попробую объяснить, почему я использую данные термины именно так...

Если смотреть на просто Событие, то оно - вещь статическая и по сути никакой динамикой не обладает. Динамичным его делает Threshold, который помечает DCI указанным ему Событием при наступлении указанных в Threshold'е условии.

Далее: когда DCI помечается Threshold'ом указанным ему Событием, происходит Обработка События в Event Processing Policy.

Именно поэтому я использую оборот "Запуск События на обработку".

Если Вам интересно, могу выложить свой вариант Документации по NetXMS. Он ориентирован не на Администратора системы, а на Оператора. И потому там есть детальное (по возможности, информация к сожалению есть не на всё, часть пришлось додумать самому) описание Интерфейса и элементной базы NetXMS но отсутствуют некоторые пункты официальной Документации. Плюс - поступенчатое руководство по созданию объектов и мониторингу. Сейчас я заканчиваю документ, он почти отформатирован, там строк примерно 500...

Quote from: Victor Kirhenshtein
DCI nado sozdavat' na urovne klastera, ukazivaja dlja kazdogo DCI k kakomu resursu on otnositsja. (Esli etogo ne delat', to skazem DCI na status servisa Exchange'a na neaktivnoj node vizovet srabativanie thresholda na to, chto servis ostanovlen, pojavlenie alarma, etc., hotja eto normal'naja situacija). Privjazka DCI k resursu vizivaet sbor dannih tol'ko s toj nodi, gde sejchas nahoditsja resurs.

Quote from: Victor Kirhenshtein
Dannie smotreli na node ja nadejus'? Poskol'ku na ob'ekte klastera dannih net - eto virtual'nij ob'ekt, tak-ze kak i template. Real'nie dannie sobirajutsja dlja uzlov - ob'ekt klastera s tochki zrenija nastrojki DCI rabotaet kak template + dopolnitel'nie pravila kogda sobirat' dannie a kogda net.

Понял, проверил. Действительно всё так, Вы правы. Правда есть некоторые странности: при создании на уровне Кластера DCI для мониторинга диска С:, этот DCI почему-то обслуживает не обе ноды, а только одну. Не пойму почему. На второй ноду ошибки не выдаёт, но и данные не собирает...

В заключение хочу отметить, что я пристаю к Вам с расспросами далеко не из праздного любопытства: на начало августа у нас запланировано промышленное внедрение NetXMS. Вот я и как главный по мониторингу и готовлюсь.... =)
#225
Спасибо за ответ, Виктор. =)
А я-то решил, что отсутствие реакции = отсутствию интереса.

Понял.