Здравствуйте господа,
Описание проблемы:
При потере связи utm5_rfw с ядром (например при перезагрузке свича, объединяющего шлюзы
и сервер биллинга), т.е. физическая потеря связи между серверами длится всего минут 5, однако восстановление связи ядра и rfw происходит только через 2 часа, соответственно, за это время не проходят
блокировки/разблокировки.
Причем реконнект между rfw и ядром происходит всегда ровно через 2 часа.
Пытался общаться с хотлайном, толку мало, они все на FreeBSD сваливают, вобщем "проблема где угодно только не у нас".
Проблема с восстановлением соединения между ядром и rfw
- Lex
- NetUP Team
- Сообщения: 623
- Зарегистрирован: Ср мар 09, 2005 12:12
- Откуда: НетАП
- Контактная информация:
Re: Проблема с восстановлением соединения между ядром и rfw
Насколько я знаю, специалисты запросили у Вас техническую информацию, необходимую для диагностики проблемы. Эту информацию Вы не предоставили. Если Вы предоставите запрошенную техническую информацию, я не вижу препятствий для продолжения диагностики проблемы в порядке, предусмотренном регламентом оказания услуги технической поддержки.serg2k писал(а):Пытался общаться с хотлайном, толку мало, они все на FreeBSD сваливают, вобщем "проблема где угодно только не у нас".
Re: Проблема с восстановлением соединения между ядром и rfw
мне выложить переписку с вашими специалистами сюда, чтобы потенциальные клиенты оценили качество поддержки?Lex писал(а):Насколько я знаю, специалисты запросили у Вас техническую информацию, необходимую для диагностики проблемы. Эту информацию Вы не предоставили. Если Вы предоставите запрошенную техническую информацию, я не вижу препятствий для продолжения диагностики проблемы в порядке, предусмотренном регламентом оказания услуги технической поддержки.serg2k писал(а):Пытался общаться с хотлайном, толку мало, они все на FreeBSD сваливают, вобщем "проблема где угодно только не у нас".
На самом деле проблема выявляется просто, достаточно одного сервера, где установлено ядро и rfw, на 5 минут прерывается связь между ядром и rfw, например так:
ipfw add 1 deny tcp from any to any 12758
и через 5 минут
ipfw delete 1
все, дальше смотрим через сколько происходит реконнект,
это все что требовалось от Нетапа.
Так мне пришлось 3 дня объяснять им суть проблемы, после чего мне было предложено продиагностировать свое железо и разместить у себя перекомпиленный код utm5_rfw чтобы продлить наше общение еще на неопределенное время.
Нет уж, увольте, быстрее написать скрипт проверяющий когда последний раз обновлялся лог rfw и перезапускать rfw если это было более 10 минут назад, к примеру, и засунуть его в crontab, что я и сделаю.
ipfw add 1 deny tcp from any to any 12758
и через 5 минут
ipfw delete 1
все, дальше смотрим через сколько происходит реконнект,
это все что требовалось от Нетапа.
Так мне пришлось 3 дня объяснять им суть проблемы, после чего мне было предложено продиагностировать свое железо и разместить у себя перекомпиленный код utm5_rfw чтобы продлить наше общение еще на неопределенное время.
Нет уж, увольте, быстрее написать скрипт проверяющий когда последний раз обновлялся лог rfw и перезапускать rfw если это было более 10 минут назад, к примеру, и засунуть его в crontab, что я и сделаю.
Кажется нашел, если оборвать связь между ядром и rfw, tcp соединение висит еще 2 часа, как и положено, и в линуксе и в FreeBSD tcp_keepalive_time по умолчанию 2 часа (7200 сек.)
т.е. на любом сервере настроенном по умолчанию будет такая ситуация,
нормально это или нет решайте сами.
PS: проверил свою догадку, заменил параметр sysctl net.inet.tcp.keepidle: 7200000 -> 600000
ровно через 10 минут после потери связи произошел реконнект
т.е. на любом сервере настроенном по умолчанию будет такая ситуация,
нормально это или нет решайте сами.
PS: проверил свою догадку, заменил параметр sysctl net.inet.tcp.keepidle: 7200000 -> 600000
ровно через 10 минут после потери связи произошел реконнект