Первое что заметил:
Если зайти в Network Maps из Control Panel, то окно Network Maps закрыть невозможно... Опять же рядом с меню (минимизировать, восстановить, закрыть) начинают плодиться дубликаты кнопок.
Опять же нельзя редактировать названия карт. В меню есть только Create Map и Delete Map.
Win2008 (32bit)
после обновления с 0.2.21 до 0.2.22 сервер валится через 2-3-5 минуты после запуска.
не сразу, а именно по прошествии от 2 до 5 минут.
Quote
Faulting application netxmsd.exe, version 0.0.0.0, time stamp 0x48931a95, faulting module nxcore.dll, version 0.0.0.0, time stamp 0x48931a85, exception code 0xc0000005, fault offset 0x00024d0f, process id 0x75c, application start time 0x01c8f6040cfb45c4.
может быть конфликт между сервером 0.2.22 и клиентами 0.2.21?
откатился до версии сервера 0.2.21.
A mozno bilo bi zapustit' v debug rezime server? Prosto s konsoli
netxmsd --debug=7
Pered etim v netxmsd.conf postavit' LogFile v kakoj-nibud' fail, i prislat' etot fail mne posle crash'a.
V ljubom sluchae budu segodnja razbiratsja. Sledujuschij raz v onlin'e budu vecherom.
сейчас проведу ещё один тест.
по результатам отпишу.
странное дело...
у меня 2 сервера, один- тестовый, физический. второй- продуктивный, виртуальный (сделано через Intel VT и MS Hyper-V).
на тестовом всё работает нормально, обновляется до 2.22 и крутится дальше. а продуктивный через некоторое время после после обновления валится, как подкошенный...
Quote
Problem Event Name: APPCRASH
Application Name: netxmsd.exe
Application Version: 0.0.0.0
Application Timestamp: 48931a95
Fault Module Name: nxcore.dll
Fault Module Version: 0.0.0.0
Fault Module Timestamp: 48931a85
Exception Code: c0000005
Exception Offset: 00024d0f
OS Version: 6.0.6001.2.1.0.272.7
Locale ID: 1049
разница между ними в том что тестовый - Win2003 а продуктивный- Win2008 (ну и несколько различаются конфиги: на продуктивном, так как он помощнее, увеличено число poller'ов).
собственно на этом разница кончается.
debug-лог на продуктивном сервере получил, но там никакого криминала нет. просто в какой-то момент прекращается запись в лог-файл (обрывается на обычной строке) и демон сервера вылетает с ошибкой. причём вылетает довольно быстро, минут через 3-5 как я уже писал. я лог весь просмотрел, но, повторяюсь, ничего странного там не увидел. Виктор, если лог всё же нужен- готов выслать мылом (не готов запостить сюда, сами понимаете почему).
вот концовка лога:
Quote
[04-Aug-2008 14:31:30] DEBUG: Name for node 77 was resolved to quantuma.test.net
[04-Aug-2008 14:31:30] DEBUG: Finished configuration poll for node quantuma.test.net (ID: 77)
[04-Aug-2008 14:31:30] DEBUG: Starting configuration poll for node f01.test.net (ID: 129)
[04-Aug-2008 14:31:30] DEBUG: ConfPoll(f01.test.net): trying SNMP GET
[04-Aug-2008 14:31:30] DEBUG: SnmpCheckCommSettings: trying version 1 community 'public'
[04-Aug-2008 14:31:30] DEBUG: ConfPoll(h01.test.net): checking for NetXMS agent - finished
[04-Aug-2008 14:31:30] DEBUG: Name for node 79 was resolved to b4.test.net
[04-Aug-2008 14:31:30] DEBUG: Finished configuration poll for node b4.test.net (ID: 79)
[04-Aug-2008 14:31:30] DEBUG: Starting configuration poll for node samanta.test.net (ID: 132)
[04-Aug-2008 14:31:30] DEBUG: ConfPoll(s01.test.net): trying SNMP GET
[04-Aug-2008 14:31:30] DEBUG: SnmpCheckCommSettings: trying version 1 community 'public'
[04-Aug-2008 14:31:30] DEBUG: ConfPoll(f01.test.net): checking for CheckPoint SNMP on port 260
[04-Aug-2008 14:31:30] DEBUG: ConfPoll(g01.test.net): checking for NetXMS agent - finished
[04-Aug-2008 14:31:30] DEBUG: ConfPoll(r01.test.net): checking for NetXMS agent - connected
[04-Aug-2008 14:31:30] DEBUG: ConfPoll(f01.test.net): checking for NetXMS agent Flags={00000003} DynamicFlags={00000002}
[04-Aug-2008 14:31:30] DEBUG: ConfPoll(f01.test.net): checking for NetXMS agent - connecting
[04-Aug-2008 14:31:30] DEBUG: ConfPoll(s01.test.net): checking for CheckPoint SNMP on port 260
[04-Aug-2008 14:31:30] DEBUG: ConfPoll(s01.test.net): checking for NetXMS agent Flags={00000003} DynamicFlags={00000002}
[04-Aug-2008 14:31:30] DEBUG: ConfPoll(s01.test.net): checking for NetXMS agent - connecting
[04-Aug-2008 14:31:30] DEBUG: ConfPoll(r01.test.net): checking for NetXMS agent - finished
[04-Aug-2008 14:31:30] DEBUG: ConfPoll(f01.test.net): checking for NetXMS agent - connected
Esche odna pros'ba - esli est' vozmoznost' esche raz zapustit' 0.2.22, dobavte v netxmsd.conf takie stroki:
CreateCrashDumps = yes
DumpDirectory = C:\dump
C:\dump dolzen suschestvovat' ili ego mozno zamenit' na ljuboj drugoj suschestvujushij katalog. Pri sboe tam dolzen pojavitsja dump. Otpravte ego na
[email protected].
Хм.. Что-то все мои вопросы почему-то остаются без ответа.. Интересно, к чему бы это?
Quote from: Alex on August 06, 2008, 09:34:50 AM
Хм.. Что-то все мои вопросы почему-то остаются без ответа.. Интересно, к чему бы это?
Виктор сейчас в Лихтенштейне; когда доберется до нормального интернета - ответит.
Появилась новая проблема.
У меня NetXMS с агентом стоит в Frankfurt am Main, Germany. Я мониторю узлы в Гон-Конге. В итоге последние 3 дня у меня расколбас начался. Средний пинг с сервера до гон-конгского узла 385 мс. Это в принципе нормально. А NetXMS мне по 2-3 раза вдень сообщения о том что узел падал на одну-две секунды. Т.е. все железки и голосовые потоки в начале в статусе DOWN присылает и тут же в догонку шлет UP. Что за проблема могла возникнуть? Сделал тест. На этом же серваке в screen запустил ping до железки в Hong-Kong-е. И в тот момент когда NetXMS сказал что все плохо, я смотрел реальные данные с Ping_а. Так вот выяснилось что NetXMS ме соврал и не было ни каких проблем с каналом.
Izvinjajus' za bol'shie pauzi, u menja dejstvitel'no redko sejchas dostup k kompu s internetom. Na sledujuschej nedele vernus' v Rigu i budu otvechat' v obichnom rezime.
Problemu s Control Panel -> Network Maps ja ispravil, tak-ze kak i crash servera. Kak budet vozmoznost', vilozu obnovlenij build.
Po povodu ping'ov: a kak nastroen monitoring cherez NetXMS - cherez ping subagent? Kakimi imenno parametrami?
Нет.. Я не ставил ping subagent.
Статус железки меняется с 0 на 4 и через 1-2 минуты восстанавливается а 0. Причем никаких проблем со стороны collocation-а, ни со стороны сервера замечено не было. Проблема началась после переустановки с 0.2.21 на 0.2.22.
Quote from: Victor Kirhenshtein on August 09, 2008, 11:43:27 AM
Problemu s Control Panel -> Network Maps ja ispravil, tak-ze kak i crash servera. Kak budet vozmoznost', vilozu obnovlenij build.
Виктор, очень, очень ждём... =)
Виктор очень жду ответа на предыдущее свое сообщение.. Я не могу сейчас мониторить целый узел :(
Ну вот, вернулся домой, теперь буду отвечать в обычном режиме :)
Quote from: Alex on August 08, 2008, 02:16:09 PM
Появилась новая проблема.
У меня NetXMS с агентом стоит в Frankfurt am Main, Germany. Я мониторю узлы в Гон-Конге. В итоге последние 3 дня у меня расколбас начался. Средний пинг с сервера до гон-конгского узла 385 мс. Это в принципе нормально. А NetXMS мне по 2-3 раза вдень сообщения о том что узел падал на одну-две секунды. Т.е. все железки и голосовые потоки в начале в статусе DOWN присылает и тут же в догонку шлет UP. Что за проблема могла возникнуть? Сделал тест. На этом же серваке в screen запустил ping до железки в Hong-Kong-е. И в тот момент когда NetXMS сказал что все плохо, я смотрел реальные данные с Ping_а. Так вот выяснилось что NetXMS ме соврал и не было ни каких проблем с каналом.
Quote from: Alex on August 09, 2008, 03:55:07 PM
Нет.. Я не ставил ping subagent.
Статус железки меняется с 0 на 4 и через 1-2 минуты восстанавливается а 0. Причем никаких проблем со стороны collocation-а, ни со стороны сервера замечено не было. Проблема началась после переустановки с 0.2.21 на 0.2.22.
Я просто фразу "У меня NetXMS с агентом стоит в Frankfurt am Main" понял так, что там стоит ping субагент, а сам сервер в другом месте. Стало быть, там стоит именно сервер?
Код для поллинга интерфейсов не менялся. Если используется ping, то сервер делает три попытки с timeout 1500ms. А на узлах в Гонконге стоит агент или SNMP?
Quote from: Victor Kirhenshtein on August 18, 2008, 09:42:31 AM
Я просто фразу "У меня NetXMS с агентом стоит в Frankfurt am Main" понял так, что там стоит ping субагент, а сам сервер в другом месте. Стало быть, там стоит именно сервер?
Код для поллинга интерфейсов не менялся. Если используется ping, то сервер делает три попытки с timeout 1500ms. А на узлах в Гонконге стоит агент или SNMP?
В Гон-Конге стоят Cisco соответствено с SNMP. Все интерфейсы по SNMP отваливаются и статус железки меняется на 4.. Минуты через 3-4 возвращается на 0 и все интерфейсы поднимаются. По логам самих железок связь не падала, интерфейсы тоже в норме. Куда копать ума не приложу. Причем с предыдущей версией таких проблем не наблюдалось :(
Похоже на проблему с SNMP - если на устройстве есть SNMP, то статус интерфейсов получаем через него, а не пингом.
SNMP часть менялась от 0.2.21 к 0.2.22, сейчас подумаю что там могло быть. Сервер на Linux'e стоит?
Да. CentOS release 5 (Final)
На всякий случай - netxmsd под root'ом работает?
Ja, Ja, naturlich ;)
О! Виктор появился и жизнь закипела =)
Ждём 0.2.22 (патченную с учётом обнаруженных проблем)
И по возможности ответы на вопросы.
2 Anth0ny
Огромная просьба, хва флудить и оффтопить. В итоге Виктор временами в связи с ограниченным временем читает последний пост, а не описанную проблему, в итоге все остаются без ответов. Если хотите пофлудить, то плз, создайте новую тему и флудите там на здоровье. Не в обидку плз.... :(
Выложил 0.2.22 - Windows installer и исходники:
https://www.netxms.org/download/netxms-0.2.22.exe (https://www.netxms.org/download/netxms-0.2.22.exe)
https://www.netxms.org/download/netxms-0.2.22.tar.gz (https://www.netxms.org/download/netxms-0.2.22.tar.gz)
все замеченные глюки вроде исправил. Если ни у кого ничего серьезного не будет, то сделаю пакеты для обновления агентов и официальный анонс на сайте.
Alex: попробуйте поставить последний вариант сервера и запустить с параметром --debug 7 - я добавил дополнительный отладочный вывод, поскольку теоретически не могу понять, чем могла быть вызвана проблема с пропадающими хостами при переходе на 0.2.22. Потом или пришлите мне лог целиком, или расскажите, что он пишет про проблемные ноды в строчках, содержащих текст StatusPoll.
С дебагом продолжает работать со вчерашнего дня. Ни одного левого падения до сих пор не увидел :( Жду пока что.
проверка новой сборки 0.2.22 на Win2008Srv
2 часа, полёт нормальный. падения сервера прекратились.
проблемы?
1. централизованное обновление
прошу подтвердить, что в 0.2.22 работает Package manager: не могу продеплоить новую версию (0.2.22) на win2003-сервера.всегда получаю одну и ту же ошибку:
Deployment job finished with errors.
Status: Failed.
Message: File transfer failed.
И размер файла C:\Program Files\NetXMS\var\nxagent-0.2.22.exe на той машине, на которую деплою, всегда равен 32 кило.
Хочу понять, мой ли это косяк.
2. валится сервер
пока только один раз. разместил issue (https://www.netxms.org/bugtrack/view.php?id=236) на багтрекере.
Pro deployment: est' takoj bug, kotorij mozet pojavljatsja na nekotorih sistemah. Dlja ego ustranenija neobhodimo zamenit' libnetxms.dll na servere na prilozennij.
Quote from: Victor Kirhenshtein on August 27, 2008, 11:12:24 AM
Pro deployment: est' takoj bug, kotorij mozet pojavljatsja na nekotorih sistemah. Dlja ego ustranenija neobhodimo zamenit' libnetxms.dll na servere na prilozennij.
Виктор, спасибо!
Подтверждаю: после замены dll-ки всё продеплоилось успешно!
После обновления до 0.2.22 с 0.2.20 и выбора параметра 3 для алиасов интерфейсов, в именах интерфейсов отображаются только первые 2 символа ( Tunnel - Tu, loop - Lo и т.п.). Так задумано?
Созданные для контейнеров карты не удаляются (где-то уже писалось об этом) и не отрисовывается автоматом топология. Не должна?
Quote from: isherim on August 27, 2008, 12:20:44 PM
После обновления до 0.2.22 с 0.2.20 и выбора параметра 3 для алиасов интерфейсов, в именах интерфейсов отображаются только первые 2 символа ( Tunnel - Tu, loop - Lo и т.п.). Так задумано?
a mozno screenshot object browser'a?
Quote from: isherim on August 27, 2008, 12:20:44 PM
Созданные для контейнеров карты не удаляются (где-то уже писалось об этом) и не отрисовывается автоматом топология. Не должна?
Topologija risujetsja tol'ko dlja kart s root object Entire Network. Esli root object - container, to risovat' vse nado rukami.
Quote from: Victor Kirhenshtein on August 27, 2008, 12:52:48 PM
Quote from: isherim on August 27, 2008, 12:20:44 PM
После обновления до 0.2.22 с 0.2.20 и выбора параметра 3 для алиасов интерфейсов, в именах интерфейсов отображаются только первые 2 символа ( Tunnel - Tu, loop - Lo и т.п.). Так задумано?
a mozno screenshot object browser'a?
вот отрывок
Quote from: Victor Kirhenshtein on August 27, 2008, 11:12:24 AM
Pro deployment: est' takoj bug, kotorij mozet pojavljatsja na nekotorih sistemah. Dlja ego ustranenija neobhodimo zamenit' libnetxms.dll na servere na prilozennij.
странная ситуация...
не могу понять что не так.
на некоторые сервера деплоится, на некоторые- нет.
никакой связи пока не уловил... но факт остаётся фактом: инсталлер копируется с подменённой dll'кой успешно, сервис агента на удалённом сервере останавливается, и... тишина. в консоли это выглядит как Job running \ Installing. и всё. тишина.
По истечению срока деплоя получаю сообщение: "Deployment job failed: Request timed out."
Ок, пытаюсь вручную снести агента и поставить нового. Получаю ошибку типа "LIBEXEPAT.dll не найден" и чтото там ещё, похожее... Всё файлы сносятся НО один остаётся, так как он заблокирован (чем??? разблокировщик Unlocker не находит держащий его процесс!) : nxagentd.exe.
Виктор, как можно вызвать дополнительную отладочную информацию по процессу удалённой установки, инициированному из консоли NXMS?
привет.
в этой версии централизованый дэплой не проходит, не на один из серваков под Дебиан (другие не пробывал).
выдаёт "File transfer failed".
Quote from: zan on August 28, 2008, 11:21:32 AM
привет.
в этой версии централизованый дэплой не проходит, не на один из серваков под Дебиан (другие не пробывал).
выдаёт "File transfer failed".
A na kakoj operacionke stoit server?
Quote from: Anth0ny on August 28, 2008, 10:49:34 AM
Quote from: Victor Kirhenshtein on August 27, 2008, 11:12:24 AM
Pro deployment: est' takoj bug, kotorij mozet pojavljatsja na nekotorih sistemah. Dlja ego ustranenija neobhodimo zamenit' libnetxms.dll na servere na prilozennij.
странная ситуация...
не могу понять что не так.
на некоторые сервера деплоится, на некоторые- нет.
никакой связи пока не уловил... но факт остаётся фактом: инсталлер копируется с подменённой dll'кой успешно, сервис агента на удалённом сервере останавливается, и... тишина. в консоли это выглядит как Job running \ Installing. и всё. тишина.
По истечению срока деплоя получаю сообщение: "Deployment job failed: Request timed out."
Ок, пытаюсь вручную снести агента и поставить нового. Получаю ошибку типа "LIBEXEPAT.dll не найден" и чтото там ещё, похожее... Всё файлы сносятся НО один остаётся, так как он заблокирован (чем??? разблокировщик Unlocker не находит держащий его процесс!) : nxagentd.exe.
Виктор, как можно вызвать дополнительную отладочную информацию по процессу удалённой установки, инициированному из консоли NXMS?
nxagentd.exe mozet derzat' otkritij Windows Event Viewer (process budet nazivatsja mmc.exe). Eto proishodit iz-za togo, chto nxagentd.exe hranit v sebe teksti eventov.
Quote from: Victor Kirhenshtein on August 28, 2008, 12:35:03 PM
Quote from: zan on August 28, 2008, 11:21:32 AM
привет.
в этой версии централизованый дэплой не проходит, не на один из серваков под Дебиан (другие не пробывал).
выдаёт "File transfer failed".
A na kakoj operacionke stoit server?
таже что и на клиентах , Дебиан.
Skoree vsego taze problema chto obsuzdalas' vishe s Windows. Poprobujte zamenit' fail tools.cpp v src/libnetxms i peresobrat' server.
Quote from: Victor Kirhenshtein on August 29, 2008, 11:53:18 AM
Skoree vsego taze problema chto obsuzdalas' vishe s Windows. Poprobujte zamenit' fail tools.cpp v src/libnetxms i peresobrat' server.
при зборке вылетает :
tools.cpp:771: error: 'WSAEWOULDBLOCK' was not declared in this scope
Quote from: zan on August 29, 2008, 02:45:48 PM
Quote from: Victor Kirhenshtein on August 29, 2008, 11:53:18 AM
Skoree vsego taze problema chto obsuzdalas' vishe s Windows. Poprobujte zamenit' fail tools.cpp v src/libnetxms i peresobrat' server.
при зборке вылетает :
tools.cpp:771: error: 'WSAEWOULDBLOCK' was not declared in this scope
Da, propustil etot moment. Nado takze zamenit' nms_common.h v include na prilozennij.
Агент отказывается выполнять Icmp.PacketLoss - параметр переходит в неактивность. Icmp.Ping - нормально работает.
Icmp.Ping vipolnjaet ping v moment zaprosa. Icmp.PacketLoss, takze kak i Icmp.AvgPingTime i Icmp.LastPingTime, vozvraschajut znachenie, poluchennoe background ping processom dlja zaranee zadannih hostov. T.e. chtobi pol'zovatsja imi, snachala nado propisat' eti hosti v nxagentd.conf, naprimer tak:
*PING
Target = 10.0.0.2:host1
Target = 10.0.0.5:host2
Posle etogo mozno poluchat' parametri Icmp.AvgPingTime i ostal'nie, ispol'zuja libo IP adres, libo imja, zadannoe v konfige.
Sm. takze https://www.netxms.org/documentation/ping_subagent.shtml (https://www.netxms.org/documentation/ping_subagent.shtml) - neskol'ko ne polno pravda.
Оно было, но я отчего-то посчитал, что параметр :host необязательный. Добавил - работает.