Начало темы лежит тут.
из dmesg -a:
- Код: Выделить всё
savecore: reboot after panic: kmem_malloc(131072): kmem_map too small: 412598272 total allocated
Mar 17 21:28:10 nas savecore: reboot after panic: kmem_malloc(131072): kmem_map too small: 412598272 total allocated
savecore: writing core to vmcore.5
Дебажить ядро пока не получится ибо оно собрано без опции дебага. На одном из серверов включил опцию, но он еще не падал, так что ждем.
Пока доступен только top обоих серверов перед падением:
1 сервер:
- Код: Выделить всё
last pid: 44161; load averages: 0.37, 0.71, 0.75 up 2+03:08:01 20:54:26
44 processes: 1 running, 43 sleeping
CPU: 0.0% user, 0.0% nice, 8.1% system, 3.5% interrupt, 88.4% idle
Mem: 26M Active, 957M Inact, 472M Wired, 736K Cache, 112M Buf, 735M Free
Swap: 16G Total, 16G Free
Write failed: Broken pipe
PID USERNAME THR PRI NICE SIZE RES STATE C TIME WCPU COMMAND
903 root 3 8 0 27612K 17236K nanslp 0 0:00 0.59% mpd5
7474 root 1 44 0 3532K 2016K CPU5 5 0:27 0.00% top
759 root 1 44 0 3216K 1272K select 3 0:18 0.00% syslogd
34779 nas 1 44 0 8460K 3940K select 6 0:05 0.00% sshd
1029 root 1 44 0 9972K 6020K select 1 0:03 0.00% httpd
697 root 1 60 0 1888K 584K select 4 0:02 0.00% devd
1058 root 1 8 0 3244K 1312K nanslp 2 0:00 0.00% cron
1049 root 1 44 0 5784K 3352K select 2 0:00 0.00% sshd
76756 www 1 4 0 9972K 6100K accept 4 0:00 0.00% httpd
79241 www 1 4 0 9972K 6100K accept 0 0:00 0.00% httpd
78180 www 1 4 0 9972K 6100K accept 5 0:00 0.00% httpd
79240 www 1 4 0 9972K 6100K accept 3 0:00 0.00% httpd
79536 www 1 4 0 9972K 6100K accept 2 0:00 0.00% httpd
81375 www 1 4 0 9972K 6100K accept 2 0:00 0.00% httpd
81117 www 1 4 0 9972K 6100K accept 2 0:00 0.00% httpd
80808 www 1 4 0 9972K 6100K accept 2 0:00 0.00% httpd
81373 www 1 4 0 9972K 6100K accept 0 0:00 0.00% httpd
81374 www 1 4 0 9972K 6100K accept 2 0:00 0.00% httpd
35105 root 1 20 0 5520K 2764K pause 7 0:00 0.00% csh
34776 root 1 4 0 8460K 3956K sbwait 3 0:00 0.00% sshd
34781 nas 1 8 0 3496K 1552K wait 2 0:00 0.00% sh
35038 nas 1 8 0 3652K 1616K wait 1 0:00 0.00% su
1114 root 1 5 0 3216K 1092K ttyin 5 0:00 0.00% getty
1116 root 1 5 0 3216K 1092K ttyin 0 0:00 0.00% getty
1115 root 1 5 0 3216K 1092K ttyin 3 0:00 0.00% getty
1119 root 1 5 0 3216K 1092K ttyin 7 0:00 0.00% getty
1113 root 1 5 0 3216K 1092K ttyin 4 0:00 0.00% getty
1117 root 1 5 0 3216K 1092K ttyin 1 0:00 0.00% getty
1118 root 1 5 0 3216K 1092K ttyin 2 0:00 0.00% getty
1066 root 1 8 0 3496K 1368K wait 0 0:00 0.00% sh
34479 root 1 5 0 3216K 1092K ttyin 2 0:00 0.00% getty
161 root 1 20 0 1412K 804K pause 2 0:00 0.00% adjkerntz
1073 root 10 20 0 4176K 2980K kserel 1 0:00 0.00% utm5_rfw
2 сервер:
- Код: Выделить всё
last pid: 48899; load averages: 0.90, 0.73, 0.63 up 0+16:56:25 12:46:34
44 processes: 1 running, 43 sleeping
CPU: 0.0% user, 0.0% nice, 6.8% system, 6.1% interrupt, 87.1% idle
Mem: 28M Active, 874M Inact, 396M Wired, 20K Cache, 112M Buf, 2202M Free
Swap: 20G Total, 20G Free
Write failed: Broken pipe
PID USERNAME THR PRI NICE SIZE RES STATE C TIME WCPU COMMAND
914 root 2 96 0 31164K 19228K select 0 0:00 1.37% mpd5
932 flowtools 1 44 0 3768K 2232K select 1 1:18 0.00% flow-fanout
60379 nas 1 44 0 3524K 2032K CPU1 1 0:21 0.00% top
819 root 1 44 0 3212K 1284K select 2 0:10 0.00% syslogd
36756 nas 1 44 0 8456K 3940K select 2 0:02 0.00% sshd
773 root 1 96 0 1888K 572K select 3 0:01 0.00% devd
1058 root 1 44 0 9908K 6088K select 4 0:01 0.00% httpd
1286 root 1 44 0 5904K 3464K select 2 0:01 0.00% sendmail
1349 root 1 8 0 3240K 1300K nanslp 7 0:00 0.00% cron
48517 www 1 4 0 9908K 6192K accept 5 0:00 0.00% httpd
48515 www 1 4 0 9908K 6164K accept 2 0:00 0.00% httpd
1146 www 1 4 0 9908K 6164K accept 3 0:00 0.00% httpd
1149 www 1 4 0 9908K 6164K accept 2 0:00 0.00% httpd
1147 www 1 4 0 9908K 6164K accept 2 0:00 0.00% httpd
48514 www 1 4 0 9908K 6176K accept 4 0:00 0.00% httpd
1145 www 1 4 0 9908K 6160K accept 4 0:00 0.00% httpd
48513 www 1 4 0 9908K 6164K accept 0 0:00 0.00% httpd
48516 www 1 4 0 9908K 6164K accept 2 0:00 0.00% httpd
1150 www 1 4 0 9908K 6164K accept 7 0:00 0.00% httpd
35938 root 1 4 0 8456K 3924K sbwait 3 0:00 0.00% sshd
36827 nas 1 8 0 3492K 1648K wait 2 0:00 0.00% sh
1305 smmsp 1 20 0 5904K 3260K pause 2 0:00 0.00% sendmail
1418 root 1 5 0 3212K 1092K ttyin 3 0:00 0.00% getty
1417 root 1 5 0 3212K 1092K ttyin 7 0:00 0.00% getty
1423 root 1 5 0 3212K 1092K ttyin 4 0:00 0.00% getty
1420 root 1 5 0 3212K 1092K ttyin 5 0:00 0.00% getty
1419 root 1 5 0 3212K 1092K ttyin 3 0:00 0.00% getty
1421 root 1 5 0 3212K 1092K ttyin 2 0:00 0.00% getty
1416 root 1 5 0 3212K 1092K ttyin 5 0:00 0.00% getty
1422 root 1 5 0 3212K 1092K ttyin 0 0:00 0.00% getty
1075 root 1 44 0 5780K 3364K select 6 0:00 0.00% sshd
1369 root 1 8 0 3492K 1344K wait 0 0:00 0.00% sh
164 root 1 20 0 1408K 828K pause 2 0:00 0.00% adjkerntz
1375 root 10 20 0 4152K 3012K kserel 6 0:00 0.00% utm5_rfw
Самое странное, так это запись: Write failed: Broken pipe возможно она выдана моим терминалом, а возможно и top'ом сервера.
Следует отметить, что падает оно не по причине работы демонов: mrtg - как я думал раньше, flow_fanout - как ожидаемая проблема с ipcad'ом, mpd5 - т.к. он работает и на 900 сессиях, а упасть может и на 200.
Из железа менял память и БП, не помогло. Первый сервер с новой памятью проработал больше 2х дней, второй не более 1,5 суток.
Самое интересное, что примерно месяц назад, сервера были перенесены в другое помещение и запитаны были без заземления. В таком положении их аптайм был 2 недели, пока их не было решено вернуть в серверную. После переезда обратно пропахало еще 2 недели до отключения света. А после отключения света началось это....
Гуглил по этому вопросу, решений нет, равно как и нет предположений.
Пока только ждем, когда он свалится сервер, чтобы получить core.
куда ковырять не знаю.