Netxmsd 1.2.13. Segmentation fault

Started by smartdoc, April 08, 2014, 10:16:37 AM

Previous topic - Next topic

smartdoc

Здравствуйте.

После обновления на версию 1.2.13 стал наблюдать падения сервера netxmsd связанные с segmentation fault.
Сделал core файл и привожу сюда backtrace. Надеюсь эта информация окажется полезной:
Core was generated by `/usr/bin/netxmsd -D3'.
Program terminated with signal 11, Segmentation fault.
#0  0x00007f428cda3f96 in ResolveHostName (pszName=<optimized out>)
    at tools.cpp:1170
1170    tools.cpp: No such file or directory.
(gdb) bt
#0  0x00007f428cda3f96 in ResolveHostName (pszName=<optimized out>)
    at tools.cpp:1170
#1  0x00007f428dcf9944 in Node::updatePrimaryIpAddr (this=this@entry=0x1d14390)
    at node.cpp:1626
#2  0x00007f428dd0326a in Node::configurationPoll (this=0x1d14390,
    pSession=0x0, dwRqId=0, nPoller=29, dwNetMask=0) at node.cpp:1693
#3  0x00007f428dd11175 in ConfigurationPoller (arg=<optimized out>)
    at poll.cpp:328
#4  0x00007f428bc3cb50 in start_thread ()
   from /lib/x86_64-linux-gnu/libpthread.so.0
#5  0x00007f428adf10ed in clone () from /lib/x86_64-linux-gnu/libc.so.6
#6  0x0000000000000000 in ?? ()


Хочется также упомянуть о записи в логи в кодировке без поддержки русских символов:
[06-Apr-2014 01:02:51.666] [DEBUG] Starting status poll for node ??????? ???????
? ?????? - ? (ID: 146)
[06-Apr-2014 01:02:51.666] [DEBUG] Starting status poll for node ?????????? - 1
(ID: 197)
[06-Apr-2014 01:02:51.667] [DEBUG] Starting status poll for node ?????????? - 2
(ID: 199)
[06-Apr-2014 01:02:51.672] [DEBUG] StatusPoll(??????? ?????????? ??????? [141]):
unable to get system uptime
[06-Apr-2014 01:02:51.673] [DEBUG] StatusPoll(??????? ?????????? ??????? [141]):
unable to get agent uptime
[06-Apr-2014 01:02:51.673] [DEBUG] Finished status poll for node ??????? ???????
??? ??????? (ID: 141)


Как все это можно победить?

raypetter

Don't understand any of this, but I have also had segmentation fault with the latest release.

Current workaround is an ugly hourly check.


#!/bin/bash
ps cax | grep netxmsd > /dev/null
if [ $? -eq 0 ]; then
  echo "Process is running." >> /var/log/netxms
else
  echo "Process is not running. Attempting restart" >> /var/log/netxms
  /etc/init.d/netxmsd start
fi

kozlov_ao

Это не "победить", а всего лишь временное решение....

andrey--k

Quote from: smartdoc on April 08, 2014, 10:16:37 AM

Хочется также упомянуть о записи в логи в кодировке без поддержки русских символов:


В nxmc кириллические имена нод нормально отображаются?
Какая локаль на сервере?
Добален ли CodePage=CP-1251 в /etc/netxmsd.conf ?

Victor Kirhenshtein

Сервер собран из исходников или поставлен из пакета? У меня есть подозрение на то, что использование gethostbyname при нескольких потоках может вызвать такой эффект. Если собран из исходников, то я могу выложить патч для проверки.

kozlov_ao


Victor Kirhenshtein

Попробуйте заменить src/libnetxms/tools.cpp на приложенный и пересобрать.

kozlov_ao

после подмены, make отваливается с ошибкой:
Making all in tools
make[2]: Entering directory `/home/alex/netxms-1.2.13/tools'
make[2]: Nothing to be done for `all'.
make[2]: Leaving directory `/home/alex/netxms-1.2.13/tools'
Making all in sql
make[2]: Entering directory `/home/alex/netxms-1.2.13/sql'
gcc -E -x c -Wundef -P -D_NETXMS_DB_SCHEMA_ -I../include -I../src/server/include -DDB_MYSQL dbinit.in | perl -n strip > dbinit_mysql.sql
Can't open perl script "strip": No such file or directory
make[2]: *** [dbinit_mysql.sql] Error 2
make[2]: Leaving directory `/home/alex/netxms-1.2.13/sql'
make[1]: *** [all-recursive] Error 1
make[1]: Leaving directory `/home/alex/netxms-1.2.13'
make: *** [all] Error 2


Victor Kirhenshtein

Это можно проигнорировать. Достаточно из src/libnetxms сделать make install.

job-ad

#9
Отвечу за smartdoc. Сервер установлен из пакетов на систему Debian Wheezy. Если есть патч, по устранению падений, то не могли бы вы выложить собранный пакет под Debian x86_64? Локаль на сервере ru_RU.UTF-8. CodePage=CP-1251 в /etc/netxmsd.conf не был добавлен. Добавление CodePage никак не решило проблему (CP-1251, UTF-8). В панели управления имена отображаются нормально. Проблема только при выводе в консоль. Консоль - Putty, "Remote character set" - UTF-8. В консоль прикрасно выводится текст с русскими символами из файла в кодировке UTF-8.

Если это как-то поможет, то для обнаружения машин используются их dns name т.к. ip адреса машины полчают динамически и они могут меняться.

raypetter: Now I use a similar script in Сron :(

kozlov_ao

Пока полет нормальный. Через пару дней отпишусь.

vgourov

First, I am sorry for writing in English. I do not understand any of this, but today I upgraded to 1.2.13 and got the same error "Segmentation fault". The server runs for couple of minutes and then I get this error. Any known way to fix this?

andrey--k

Quote from: vgourov on April 09, 2014, 10:41:02 PM
First, I am sorry for writing in English. I do not understand any of this, but today I upgraded to 1.2.13 and got the same error "Segmentation fault". The server runs for couple of minutes and then I get this error. Any known way to fix this?
As I understand, developers working against this bug.
For the moment you can downgrade or compile from sources with patch file.

kozlov_ao

#13
2 vgourov:
1. get and unpack new package (1.2.13)
2. run ./configure with needed paramert
3. run make and make install
4. after installation, copy new file tools.cpp (https://www.netxms.org/forum/oe-oo/netxmsd-1-2-13-segmentation-fault/?action=dlattach;attach=1696) to src/libnetxms
5. run make install in src/libnetxms

kozlov_ao

Приветствую!
чуда не случилось...
Ночью за короткий промежуток времени была череда падений:
Apr  9 05:07:39 debian kernel: [342348.474808] netxmsd[13551]: segfault at 24 ip 00007f47aebf1f88 sp 00007f47a1ad9780 error 4 in libnxsrv.so.1.0.0[7f47aebe3000+1d000]
Apr  9 05:08:17 debian kernel: [342386.326930] netxmsd[19381]: segfault at 24 ip 00007fda36867f88 sp 00007fda28fce780 error 4 in libnxsrv.so.1.0.0[7fda36859000+1d000]
Apr  9 05:10:17 debian kernel: [342505.333187] netxmsd[19601]: segfault at 24 ip 00007fdb4767ff88 sp 00007fdb40a8f250 error 4 in libnxsrv.so.1.0.0[7fdb47671000+1d000]
Apr  9 05:12:25 debian kernel: [342633.591720] netxmsd[20074]: segfault at 24 ip 00007fb9ff457f88 sp 00007fb9e94d3780 error 4 in libnxsrv.so.1.0.0[7fb9ff449000+1d000]
Apr  9 05:14:30 debian kernel: [342757.796932] netxmsd[20501]: segfault at 24 ip 00007fcb0de68f88 sp 00007fcafb4f3780 error 4 in libnxsrv.so.1.0.0[7fcb0de5a000+1d000]
Apr  9 05:14:30 debian kernel: [342757.797205] netxmsd[20490]: segfault at 24 ip 00007fcb0de68f88 sp 00007fcafbffe780 error 4 in libnxsrv.so.1.0.0[7fcb0de5a000+1d000]
Apr  9 05:16:28 debian kernel: [342875.629991] netxmsd[20908]: segfault at 24 ip 00007f183f8a1f88 sp 00007f1831bda780 error 4 in libnxsrv.so.1.0.0[7f183f893000+1d000]
Apr  9 05:18:15 debian kernel: [342982.685175] netxmsd[21321]: segfault at 24 ip 00007f5076491f88 sp 00007f50693d2780 error 4
Apr  9 05:18:15 debian kernel: [342982.685184] netxmsd[21343]: segfault at 24 ip 00007f5076491f88 sp 00007f5063efd780 error 4 in libnxsrv.so.1.0.0[7f5076483000+1d000] in libnxsrv.so.1.0.0[7f5076483000+1d000]
Apr  9 05:18:15 debian kernel: [342982.685208]
Apr  9 05:20:16 debian kernel: [343103.667398] netxmsd[21710]: segfault at 24 ip 00007f531768bf88 sp 00007f531099a250 error 4 in libnxsrv.so.1.0.0[7f531767d000+1d000]
Apr  9 05:22:16 debian kernel: [343223.791311] netxmsd[22146]: segfault at 24 ip 00007f35e96a8f88 sp 00007f35e1fad250 error 4
Apr  9 05:22:16 debian kernel: [343223.791322] netxmsd[22142]: segfault at 24 ip 00007f35e96a8f88 sp 00007f35e23b1250 error 4 in libnxsrv.so.1.0.0[7f35e969a000+1d000]
Apr  9 05:22:16 debian kernel: [343223.791338]  in libnxsrv.so.1.0.0[7f35e969a000+1d000]
Apr  9 05:24:17 debian kernel: [343343.575846] netxmsd[22559]: segfault at 24 ip 00007f6dc82a5f88 sp 00007f6dc10af250 error 4 in libnxsrv.so.1.0.0[7f6dc8297000+1d000]
Apr  9 05:26:16 debian kernel: [343463.041104] netxmsd[22975]: segfault at 24 ip 00007fb631a97f88 sp 00007fb626ae0250 error 4 in libnxsrv.so.1.0.0[7fb631a89000+1d000]
Apr  9 05:28:16 debian kernel: [343582.965370] netxmsd[23395]: segfault at 24 ip 00007f5f327a5f88 sp 00007f5f270ea250 error 4 in libnxsrv.so.1.0.0[7f5f32797000+1d000]
Apr  9 05:30:17 debian kernel: [343703.149213] netxmsd[23818]: segfault at 24 ip 00007fa32e614f88 sp 00007fa322be5250 error 4
Apr  9 05:30:17 debian kernel: [343703.149219] netxmsd[23800]: segfault at 24 ip 00007fa32e614f88 sp 00007fa323df7250 error 4 in libnxsrv.so.1.0.0[7fa32e606000+1d000]
Apr  9 05:30:17 debian kernel: [343703.149228]  in libnxsrv.so.1.0.0[7fa32e606000+1d000]
Apr  9 05:31:18 debian kernel: [343764.209070] netxmsd[24273]: segfault at 24 ip 00007febb6425f88 sp 00007feba86c5780 error 4
Apr  9 05:31:18 debian kernel: [343764.209081] netxmsd[24275]: segfault at 24 ip 00007febb6425f88 sp 00007feba84c3780 error 4 in libnxsrv.so.1.0.0[7febb6417000+1d000]
Apr  9 05:31:18 debian kernel: [343764.209090] netxmsd[24276]: segfault at 24 ip 00007febb6425f88 sp 00007feba83c2780 error 4
Apr  9 05:31:18 debian kernel: [343764.209098]  in libnxsrv.so.1.0.0[7febb6417000+1d000] in libnxsrv.so.1.0.0[7febb6417000+1d000]
Apr  9 05:31:18 debian kernel: [343764.209116]
Apr  9 05:55:05 debian kernel: [345188.673369] EXT4-fs (md0): Unaligned AIO/DIO on inode 13377219 by AioMgr0-N; performance will be poor.
Apr  9 06:25:02 debian rsyslogd: [origin software="rsyslogd" swVersion="5.8.11" x-pid="2421" x-info="http://www.rsyslog.com"] rsyslogd was HUPed
Apr  9 11:55:08 debian kernel: [366747.230346] EXT4-fs (md0): Unaligned AIO/DIO on inode 13376002 by AioMgr0-N; performance will be poor.
Apr  9 13:05:59 debian kernel: [370989.240203] conftest[26398]: segfault at 0 ip 00007f04db57e84b sp 00007fffd4c1e120 error 4 in libc-2.13.so[7f04db50d000+182000]
Apr  9 13:14:23 debian kernel: [371491.917352] conftest[24190]: segfault at 0 ip 00007fd183fba84b sp 00007fff83200e30 error 4 in libc-2.13.so[7fd183f49000+182000]
Apr  9 14:57:29 debian kernel: [377665.695948] conftest[22242]: segfault at 0 ip 00007f6e56a6884b sp 00007ffff7222970 error 4 in libc-2.13.so[7f6e569f7000+182000]
Apr  9 17:55:32 debian kernel: [388327.187360] EXT4-fs (md0): Unaligned AIO/DIO on inode 13377219 by AioMgr0-N; performance will be poor.
Apr  9 23:55:36 debian kernel: [409886.548684] EXT4-fs (md0): Unaligned AIO/DIO on inode 13377219 by AioMgr0-N; performance will be poor.
Apr 10 05:08:08 debian kernel: [428599.676481] netxmsd[24553]: segfault at 24 ip 00007fdd42f65f88 sp 00007fdd343c2780 error 4 in libnxsrv.so.1.0.0[7fdd42f57000+1d000]
Apr 10 05:08:08 debian kernel: [428599.676996] netxmsd[24550]: segfault at 24 ip 00007fdd42f65f88 sp 00007fdd346c5780 error 4 in libnxsrv.so.1.0.0[7fdd42f57000+1d000]
Apr 10 05:10:34 debian kernel: [428746.003426] netxmsd[7145]: segfault at 24 ip 00007f4f5ae2bf88 sp 00007f4f5463f250 error 4 in libnxsrv.so.1.0.0[7f4f5ae1d000+1d000]
Apr 10 05:12:17 debian kernel: [428848.869783] netxmsd[7564]: segfault at 24 ip 00007f54f1a2cf88 sp 00007f54e6ae0250 error 4
Apr 10 05:12:17 debian kernel: [428848.869794] netxmsd[7563]: segfault at 24 ip 00007f54f1a2cf88 sp 00007f54e6be1250 error 4 in libnxsrv.so.1.0.0[7f54f1a1e000+1d000] in libnxsrv.so.1.0.0[7f54f1a1e000+1d000]
Apr 10 05:12:17 debian kernel: [428848.869816]
Apr 10 05:14:15 debian kernel: [428966.728080] netxmsd[8032]: segfault at 24 ip 00007fd6d33e2f88 sp 00007fd6c54d3780 error 4 in libnxsrv.so.1.0.0[7fd6d33d4000+1d000]
Apr 10 05:16:33 debian kernel: [429104.154989] netxmsd[8453]: segfault at 24 ip 00007f0762717f88 sp 00007f074fffe780 error 4 in libnxsrv.so.1.0.0[7f0762709000+1d000]
Apr 10 05:18:33 debian kernel: [429223.710520] netxmsd[8846]: segfault at 24 ip 00007f977fa9cf88 sp 00007f97720df780 error 4 in libnxsrv.so.1.0.0[7f977fa8e000+1d000]
Apr 10 05:20:17 debian kernel: [429327.469493] netxmsd[9214]: segfault at 24 ip 00007fa1e7172f88 sp 00007fa1e027f250 error 4
Apr 10 05:20:17 debian kernel: [429327.469505] netxmsd[9223]: segfault at 24 ip 00007fa1e7172f88 sp 00007fa1db8f2250 error 4 in libnxsrv.so.1.0.0[7fa1e7164000+1d000] in libnxsrv.so.1.0.0[7fa1e7164000+1d000]
Apr 10 05:20:17 debian kernel: [429327.469526]
Apr 10 05:22:29 debian kernel: [429459.470342] netxmsd[9690]: segfault at 24 ip 00007ff5dc15cf88 sp 00007ff5cdedd780 error 4
Apr 10 05:22:29 debian kernel: [429459.470354] netxmsd[9672]: segfault at 24 ip 00007ff5dc15cf88 sp 00007ff5cedec780 error 4 in libnxsrv.so.1.0.0[7ff5dc14e000+1d000]
Apr 10 05:22:29 debian kernel: [429459.470386]  in libnxsrv.so.1.0.0[7ff5dc14e000+1d000]
Apr 10 05:24:16 debian kernel: [429565.641200] netxmsd[10082]: segfault at 24 ip 00007fbcf77abf88 sp 00007fbcea9e8780 error 4 in libnxsrv.so.1.0.0[7fbcf779d000+1d000]
Apr 10 05:26:14 debian kernel: [429683.529672] netxmsd[10511]: segfault at 24 ip 00007f0b982fef88 sp 00007f0b868e7780 error 4 in libnxsrv.so.1.0.0[7f0b982f0000+1d000]
Apr 10 05:28:28 debian kernel: [429817.453920] netxmsd[10934]: segfault at 24 ip 00007f0386d0df88 sp 00007f0378ac9780 error 4 in libnxsrv.so.1.0.0[7f0386cff000+1d000]
Apr 10 05:28:28 debian kernel: [429817.454677] netxmsd[10940]: segfault at 24 ip 00007f0386d0df88 sp 00007f03784c3780 error 4 in libnxsrv.so.1.0.0[7f0386cff000+1d000]
Apr 10 05:30:17 debian kernel: [429926.442433] netxmsd[11311]: segfault at 24 ip 00007f8f6cc34f88 sp 00007f8f60cbc250 error 4 in libnxsrv.so.1.0.0[7f8f6cc26000+1d000]