Очень медленно работает обнаружение нового оборудования.
Стоит режим Active and passive.
Фильтр 10.0.0.0/255.0.0.0
ActiveDiscoveryInterval 1200
DiscoveryPollingInterval 600.
За 3 дня найдено только 780 устройств. Устройств в сети на порядок больше.
Как можно ускорить?
А можно включить debug 6 (не останавливая сервер) и прислать мне кусок лога за минут 5-10. Плюс результат команд на дебаг консоли сервера
sh q
sh po
К сожалению лог на данном уровне debug скинуть не смогу по причинам безопасности.
Попробовал самостоятельно проанализировать - выборочно проверял ip напротив которых был "rejected".
Обнаружил несколько с таким статусом, которые не находятся под мониторингом.
Большинство из них не отвечают по snmp.
На данный момент, все, которые отвечают -
Enterasys Networks, Inc. Matrix N7 Platinum Rev 05.42.04 06/07/2007--17:19 ofc
Enterasys Networks, Inc. B2G124-48P Rev 04.02.10.0003
Enterasys Networks, Inc. B3G124-48P Rev 06.42.01.0046
Enterasys Networks, Inc. B2H124-48 Rev 04.02.12.0006
Enterasys Networks, Inc. B2H124-48 Rev 04.02.08.0006
Enterasys Networks, Inc. Matrix N7 Platinum Rev 06.12.03.0003 04/22/2009--12:42 ofc
Enterasys Networks, Inc. B2H124-48 Rev 01.01.41
Enterasys Networks, Inc. Matrix N7 Platinum Rev 06.12.03.0003 04/22/2009--12:42 ofc
На всех из них выскакивает "Node name is an IP address and need to be resolved" при опросе. Синхронизация имени с ДНС включена.
так же заметил, что не вытягивается LLDP с данных устройств.
sh po - показывает что очереди работают, устройства опрашиваются.
Вывод sh qu:
$ nxadm -c " sh qu "
Condition poller : 0
Configuration poller : 386
Topology poller : 0
Data collector : 0
Database writer : 0
Database writer (IData) : 0
Event processor : 0
Network discovery poller : 276
Node poller : 6852
Routing table poller : 0
Status poller : 0
$ nxadm -c " sh qu "
Condition poller : 0
Configuration poller : 371
Topology poller : 0
Data collector : 0
Database writer : 0
Database writer (IData) : 0
Event processor : 0
Network discovery poller : 332
Node poller : 7015
Routing table poller : 0
Status poller : 0
$ nxadm -c " sh qu "
Condition poller : 0
Configuration poller : 343
Topology poller : 0
Data collector : 0
Database writer : 0
Database writer (IData) : 0
Event processor : 0
Network discovery poller : 331
Node poller : 7031
Routing table poller : 0
Status poller : 0
Node poller иногда падает в ноль. Большое значение связано с параметром:
ConfigurationPollingInterval 4000
Начал более детально изучать вывод
nxadm -c " sh po "
Обнаружил:
S 27/Mar/2014 11:27:40 poll: dev1 [10954] - wait for lock
S 26/Mar/2014 11:12:42 poll: dev2 [6578] - wait for lock
S 27/Mar/2014 11:39:00 poll: dev3 [11487] - wait for lock
S 27/Mar/2014 11:44:45 poll: dev4 [12020] - wait for lock
Причем в выводе опроса статуса (в nxmc):
...
[2014-03-27 11:43:07] **** Poll request sent to server ****
[2014-03-27 11:43:07] Poll request accepted
[2014-03-27 11:45:07] POLL ERROR: Request timed out[2014-03-27 11:45:07] **** Poll failed ****
[2014-03-27 11:43:09] **** Poll request sent to server ****
[2014-03-27 11:43:09] Poll request accepted
[2014-03-27 11:45:09] POLL ERROR: Request timed out[2014-03-27 11:45:09] **** Poll failed ****
[2014-03-27 11:43:15] **** Poll request sent to server ****
[2014-03-27 11:43:15] Poll request accepted
[2014-03-27 11:45:15] POLL ERROR: Request timed out[2014-03-27 11:45:15] **** Poll failed ****
....
Наблюдение за
nxadm -c " sh po "
Показало что регулярно зависает
S 27/Mar/2014 14:41:51 poll: router [10169] - wait for lock
Девайс:
System Description=Enterasys Networks, Inc. N3 Chassis Rev 07.62.07.0002 11/01/2013--17:00 ofc
SNMP Object ID=.1.3.6.1.4.1.5624.2.1.53
Driver=GENERIC
Подскажите, на что в данной ситуации обратить внимание в логе?
Сегодня обнаружил:
$ nxadm -c " sh po " | grep -v 'wait'
T 27/Mar/2014 18:06:50 poll: Enterasys1 [11487]
T 27/Mar/2014 18:07:00 poll: Enterasys2 [11722]
T 27/Mar/2014 18:06:20 poll: Enterasys3 [10954]
T 27/Mar/2014 16:44:04 poll: Enterasys4 [6578]
T 27/Mar/2014 21:58:48 poll: Enterasys5 [12020]
T 27/Mar/2014 18:06:10 poll: Enterasys6 [10629]
Висим со вчера.
:(
Можете подцепить gdb к процессу и сделать stack trace всех потоков?
Сделал следующее:
gdb attach NETXMSPID
set logging on
backtrace full
thread apply all backtrace
Результат в аттаче.
Чуть не забыл:
$ nxadm -c " sh po " | grep -v 'wait'
PT TIME STATE
S 31/Mar/2014 13:48:40 poll: Enterasys5 [10954] - cleanup
C 31/Mar/2014 13:50:55 poll: other [3174] - interface check
C 31/Mar/2014 13:48:59 poll: other [3166] - capability check
C 31/Mar/2014 13:49:31 poll: other [3170] - capability check
C 31/Mar/2014 13:48:43 poll: other [3139] - capability check
C 31/Mar/2014 13:50:34 poll: other [3172] - capability check
C 31/Mar/2014 13:49:06 poll: other [3168] - capability check
C 31/Mar/2014 13:48:46 poll: other [3164] - capability check
C 31/Mar/2014 13:48:36 poll: other [3114] - capability check
C 31/Mar/2014 13:48:34 poll: other [3110] - capability check
C 31/Mar/2014 13:48:35 poll: other [3112] - capability check
T 31/Mar/2014 13:40:48 poll: Enterasys4 [10629]
T 31/Mar/2014 13:40:53 poll: Enterasys3 [10954]
T 31/Mar/2014 13:39:07 poll: Enterasys1 [10169]
T 31/Mar/2014 13:40:43 poll: Enterasys2 [6578]
Все ли правильно?
Что странно, все topology pollers сидят на ожидании ответа на SNMP запрос. Есть ли возможность посмотреть tcpdump'ом, как быстро приходят ответы на запросы, есть ли повторы?
Как можно проверить Topology poller?
Он по snmp работает?
Да, по SNMP. Можно с консоли запустить Poll -> Topology и посмотреть что там происходит.
С консоли запустить не могу.
Консоль вылетает с ошибкой протокола (сервер из исходников, из snapshoot)...
Буду ждать новой версии...
А какой OID вытягивается?
Есть предположение, что может подвисать при попытке использования Cisco Discovery Protocol. Здесь все-таки используется Cabletron Discovery Protocol. Они разные. :(
Есть новости по прогнозам выхода новой версии?
Сделал topology pool
[2014-06-10 13:36:15] **** Poll request sent to server ****
[2014-06-10 13:36:15] Poll request accepted
[2014-06-10 13:36:15] Starting topology poll for node router_______________
[2014-06-10 13:38:15] POLL ERROR: Request timed out[2014-06-10 13:38:15] **** Poll failed ****
Как можно проверить то же самое через snmpwalk?