News:

We really need your input in this questionnaire

Main Menu
Menu

Show posts

This section allows you to view all posts made by this member. Note that you can only see posts made in areas you currently have access to.

Show posts Menu

Messages - headcraft

#1
Добрый день!
  • В сеть добавляются микротики и tp-линки с преднастроенным SNMPv3 USM 
  • В NetXMS во вкладке Network Discovery выбран Active and passive discovery
  • В NetXMS во вкладке Network Credentials заведены параметры SNMP USM Credentials
  • Объект ноды не дискаверится. Но при этом в логе на устройствах видны обращения к SNMP

Дальнейшие поиски при помощи tcpdump показали следующее:
  • tcpdump при использовании команды:
    nxsnmpget -v 3 -a SHA1 -e AES -u user -A password -E password 10.0.0.1 .1
  • tcpdump при использовании NetXMS Network Discovery:

Получается SNMP USM Credentials во вкладке Network Credentials вовсе игнорируется?
#2
Quote from: Victor Kirhenshtein on April 01, 2021, 11:21:41 AM
Там где агент падает - поставьте пожалуйста еще -dbg пакеты (netxms-agent-dbg, netxms-dbdrv-sqlite-dbg, и т.д.) - тогда дамп будет сильно более полезным.
Наконец рухнул агент опять, собрал дамп (ещё старой версии 3.8.250)
#3
Quote from: Victor Kirhenshtein on April 07, 2021, 05:52:42 PM
В списке файлов очень много раз встречается /var/log/auth.log.1, /var/log/mail.log.1, и /var/log/apcupsd.events. На агенте не настроен мониторинг этих файлов через logwatch?
Настроен
Quote from: headcraft on March 23, 2021, 10:25:41 AM
Я использую logparser , мониторю всего-то 4 лог файла, на них настроен logrotate по умолчанию.
Logparser настроен через Policy template, вот часть xml (без rules):

<parser trace="0" name="LogParser Linux">
   <macros/>
   <file>/var/log/auth.log</file>
   <file>/var/log/apcupsd.events</file>
   <file>/var/log/mail.log</file>
   <file>/var/log/proftpd/proftpd.log</file>
   <rules>
   </rule>
       .....
   </rules>
</parser>
#4
Quote from: Victor Kirhenshtein on April 01, 2021, 11:21:41 AM
Там где агент падает - поставьте пожалуйста еще -dbg пакеты (netxms-agent-dbg, netxms-dbdrv-sqlite-dbg, и т.д.) - тогда дамп будет сильно более полезным.

По поводу дескрипторов - пришлите пожалуйста вывод lsof -p для процесса агента.

Как поставил пакет netxms-base-dbg, всё не могу дождаться падения...

Вывод lsof -p команды в приложении.
#5
С одного стянул coredump:

[New LWP 15239]
[New LWP 7395]
[New LWP 7391]
[New LWP 7392]
[New LWP 7415]
[New LWP 7413]
[New LWP 7423]
[New LWP 7419]
[New LWP 15236]
[New LWP 7411]
[New LWP 7416]
[New LWP 7408]
[New LWP 7409]
[New LWP 7417]
[New LWP 7400]
[New LWP 7390]
[New LWP 7398]
[New LWP 15237]
[New LWP 15238]
[New LWP 7402]
[New LWP 7399]
[New LWP 7414]
[New LWP 7410]
[New LWP 7396]
[New LWP 7394]
[New LWP 7393]
[New LWP 7421]
[New LWP 7425]
[New LWP 7412]
[New LWP 7401]
[New LWP 7397]
[New LWP 7418]
[New LWP 7420]
[New LWP 7424]
[Thread debugging using libthread_db enabled]
Using host libthread_db library "/lib/x86_64-linux-gnu/libthread_db.so.1".
Core was generated by `/usr/bin/nxagentd -d'.
Program terminated with signal SIGSEGV, Segmentation fault.
#0  __wcscasecmp (s1=0x7f83ff7e3384 L"gent.Restart", s2=0x0) at wcscasecmp.c:57
57      wcscasecmp.c: No such file or directory.

Вывод команды thread apply all bt full в приложении.

На остальных серверах процесс nxagentd уже открыл 470 дескрипторов
#6
Обновил до версии 3.8.226-1. Есть вероятность, что теперь не дождусь того дня когда дескрипторы кончатся.. На двух разных серверах под управлением убунты 16.04 и 18.04 segmentaion fault уже 2 раза за день. Вся надежда на убунту 20.04 теперь.

Description:    Ubuntu 18.04.5 LTS
Release:        18.04
4.15.0-135-generic

Mar 25 09:09:01 SRV-HeadCraft kernel: [4471532.229875] nxagentd[31637]: segfault at 0 ip 00007f8465d989de sp 00007f845c0b9cb0 error 4 in libc-2.27.so[7f8465ccd000+1e7000]
Mar 25 09:09:03 SRV-HeadCraft systemd[1]: nxagentd.service: Main process exited, code=killed, status=11/SEGV
Mar 25 09:09:03 SRV-HeadCraft systemd[1]: nxagentd.service: Failed with result 'signal'.

Mar 25 13:00:34 SRV-HeadCraft kernel: [4485424.685005] nxagentd[19452]: segfault at 0 ip 00007f24fb5829de sp 00007f24f1da5cb0 error 4 in libc-2.27.so[7f24fb4b7000+1e7000]
Mar 25 13:00:34 SRV-HeadCraft systemd[1]: nxagentd.service: Main process exited, code=killed, status=11/SEGV
Mar 25 13:00:34 SRV-HeadCraft systemd[1]: nxagentd.service: Failed with result 'signal'.


Description:    Ubuntu 16.04.7 LTS
Release:        16.04
4.4.0-200-generic

Mar 25 12:04:23 mail kernel: [134243.963129] nxagentd[13092]: segfault at 0 ip 00007fae5a1f8e8e sp 00007fae517cfc00 error 4 in libc-2.23.so[7fae5a13f000+1c0000]
Mar 25 12:04:23 mail systemd[1]: nxagentd.service: Main process exited, code=killed, status=11/SEGV
Mar 25 12:04:23 mail systemd[1]: nxagentd.service: Unit entered failed state.
Mar 25 12:04:23 mail systemd[1]: nxagentd.service: Failed with result 'signal'.

Mar 25 15:36:11 mail kernel: [146951.767623] nxagentd[10509]: segfault at 0 ip 00007f28f8e18e8e sp 00007f28f1795c00 error 4 in libc-2.23.so[7f28f8d5f000+1c0000]
Mar 25 15:36:11 mail systemd[1]: nxagentd.service: Main process exited, code=killed, status=11/SEGV
Mar 25 15:36:11 mail systemd[1]: nxagentd.service: Unit entered failed state.
Mar 25 15:36:11 mail systemd[1]: nxagentd.service: Failed with result 'signal'.
#7
День добрый!
После продолжительного времени работы netxms agent на ubuntu linux, агент перестаёт работать. Он не собирает статистику. Все значения замирают, при этом timestamp всех dci обновляется. Графики превращаются в линии, соединение не рвётся, агент никак не сообщает в Management console что он мёртв.  В логе агента сыпятся ошибки
*E* [                   ] Unable to accept incoming connection (24 Too many open files)
Временное лечение это перезагрузить сервис агента. Хватит примерно на неделю в моём случае
Я использую logparser , мониторю всего-то 4 лог файла, на них настроен logrotate по умолчанию.
при запуске сервиса nxagentd по умолчанию стоит ограничение ulimit soft limit 1024. При повышении данного параметра до 2048 проблема повторится не через неделю, а через 2 недели.

При запуске агента, его процесс открывает 16 дескрипторов файлов в моём случае. Вывод делал командой:
ls /proc/<nxagentd_pid>/fd/ | wc -l
На следующее утро цифра увеличивается уже до 82
Когда замечаю что агент не работает, и валятся ошибки Too many open files вывод команды показывает число soft limit
Очень похоже на open files descriptor leak. На всех серверах где стоит ubuntu и netxms agent последней версии есть проблема. К сожаление точно не могу сказать с какой версии это началось, но точно в 2020 году. То ли в версии  3.1 то ли в 3.2 этого ещё не было. Сейчас стоит 3.8.193-1
#8
С версии Netxms 3.2 стала проявляться следующая проблема:
Имеем сервер на базе HP с iLO. На нём стоит VMWare ESXi. Добавляем на мониторинг две ноды по SNMP:
srv-esxi 192.168.10.10
srv-ilo 192.168.10.11
Через какое-то время srv-ilo бесследно пропадает, а открытые вкладки ругаются на unknown objectID.

В логе говорится что srv-esxi является дубликатом srv-ilo. Происходит это, судя по логам, из-за одинакового примарного IP адреса srv-esxi и IP адреса объекта ИНТЕРФЕЙСА srv-ilo (что логично, ведь ilo видит все интерфейсы физического сервера и его адреса) и далее удаляет целиком объект srv-ilo как дубликат (что нелогично).

Лог:

13:54:21.281 *D* [poll.conf          ] Checking subnet bindings for node srv-esxi [5952]
13:54:21.281 *D* [poll.conf          ] Node::checkSubnetBinding(srv-esxi [5952]): checking address 192.168.10.10/32
13:54:21.281 *D* [poll.conf          ] Node::checkSubnetBinding(srv-esxi [5952]): found subnet 192.168.10.0/24 [101]
13:54:21.289 *D* [poll.conf          ] Primary IP address 192.168.10.10 of node srv-esxi [5952] found on interface HP Ethernet 1Gb 2-port 332i Adapter of node srv-ilo [8576]
13:54:21.290 *D* [poll.conf          ] Node srv-esxi [5952] is a duplicate of node srv-ilo [8576]
13:54:21.290 *D* [poll.conf          ] Removing node srv-ilo [8576] as duplicate



Проблема наблюдается и в версии 3.4-310-g981f4f1cbe

Проблему повторил на тестовом стенде
#9
Announcements / Re: NetXMS 2.2.5 released
May 18, 2018, 02:45:20 PM
Still have an issue with agent crash without any logs about crash when polling DCI "PhysicalDisk.Model(0)".
iGodunoff already mentioned it in 2.2.2 release topic.

And I think I have some thoughts about it. Like example, vmware virtual machine do not crash, when polling DCI it shows:
HDD 0 model = VMware Virtual SATA Hard Drive
But in physical workstation in version 2.1 it had a value with some garbage
HDD 0 model = KINGSTON SV300S37A120G                  ,Ӕ瞒墑⿧瞖뚱獊⿧瞖뚉獊
Maybe it is a cause?
#10
С версии 2.1 появился раздел при создании Policies: Create -> Log Parser Policy.
Вопрос, в чём разница между "Agent Configuration Policy" и "Log Parser Policy"? После создания оба имеют один и тот же Object class и оба создают файл с расширением .conf в папке conf.d

Как этим пользоваться, в чём идея?
#11
Я сегодня заметил что перестал правильно отрабатывать CapabilityExpirationTime. Настроен он у меня на 7 дней, а я нашёл кучу нод у которых isAgent = yes хотя последний раз они мониторились летом и весной (сейчас октябрь). Признаюсь, у меня не очень свежая версия сервера/агента (2.0.2), но вроде в changeloge нету заметок на эту тему.
#12
Идея в том что хочу выносить неработающие ноды с агентами более "n" времени в отдельный контейнер. Самый правильный атрибут для фильтра был бы "Last agent contact". Можно ли его получить в скрипте?
#13
Решил проблему повырубав на агентах опцию watchdog
#14
у нас довольно много компьютеров для обновления, и у кого обновление не проходило (30% от общего количества) у них не был открыт eventlog. Я пробовал перед процессом обновления включать Process Monitor, чтобы найти в чём причина. Но каждый раз с включенным монитором всё проходило хорошо (25 раз пробовал), На 26-ой без мониторинга опять была ошибка. Вот думаю как бы ещё продебагить
#15
Общие вопросы / Agent Upgrade Failed
May 06, 2015, 05:02:21 PM
Добрый день!

Проблема висит довольно таки давно, проверял на версии 1.2.11 вплоть до 2.0-M3. Если обновлять агентов через management console Package Manager, раз на раз некоторые компы не обновляются. Вот что пишет лог:

Communication session broken: A request to send or receive data was disallowed because the socket had already been shut down in that direction with a previous shutdown call.

Source: NetXMS Win32 Agent
Event ID: 14
Level: Warning

-------
WINPERF: Collector thread for counter set A terminated

Source: NetXMS Win32 Agent
Event ID: 23
Level: Information
-------
WINPERF: Collector thread for counter set B terminated

Source: NetXMS Win32 Agent
Event ID: 23
Level: Information
-------
WINPERF: Collector thread for counter set C terminated

Source: NetXMS Win32 Agent
Event ID: 23
Level: Information
-------
NetXMS Agent stopped

Source: NetXMS Win32 Agent
Event ID: 2
Level: Information

Тоесть агент начинает обновляться, что то происходит, и сервис NetXMS Agent выключается, нужно вручную его поднимать, и остаётся старая версия.
Симптомы одинаковые как на Windows XP так и на Windows 7 64bit