Hi all.
Sorry for Russian text - English version maybe later.
Прошу прощения что пишу по русски на англоязычном форуме но к сожалению мой уровень владения английским не позволит корректно изложить проблему.
Перейдя в свое время с RB1200 на CCR1009 получил странную проблему.
В некоторые случайные моменты времени маршрутизатор просто “повисал”.
Т.е. переставал быть виден по сети, сетевые порты присоединенного к нему оборудования становились неактивны.
При этом через консоль маршрутизатор отзывался на команды (не связанные с сетевой частью).
Попытки посмотреть что там с сетевой частью были безуспешны - маршрутизатор как минимум не видел вообще сетевых адаптеров.
Попытка дать с консоли команду /system reboot тоже не помогала - маршрутизатор не перегружаясь повисал окончательно, переставая реагировать и на консоль тоже.
Был создан запрос в техподдержку (Ticket#2015031766000884]) 17 марта 2015 года.
К сожалению техподдержка не смогла ничем помочь.
Дальнейшие эксперименты показали, что 100% падение маршрутизатора вызывала потеря связи с неким RB SXT, работающим на периферии моей сети.
Что так же не исключало падений и кроме описанных случаев.
При этом маршрутизатор не перегружался watchdog’ом, приходилось отключать/включать питание.
Что было не совсем удобно, учитывая что маршрутизатор стоял в гермозоне датацентра.
(этим обстоятельством собственно и было вызвано то, что проблема решалась достаточно долго)
Первые несколько раз пришлось просить о перезагрузке сотрудников датацентра, потом было установлено устройство сбрасывающее на 5 секунд питание маршрутизатора если он переставал отвечать на пинги.
При этом марщрутизаторы другой архитектуры не были подвержены таким сбоям.
Как-то ночью, в момент минимальной нагрузки на сеть, удалось временно заменить CCR1009 на RB2011 с аналогичной конфигурацией - он не повисал в аналогичных случаях.
Так же было подтверждено что это не брак конкретного устройства - установленный на замену такой же CCR1009 с аналогичной конфигурацией вел себя точно так же.
Несколько версий RouterOS назад ситуация немного улучшилась - маршрутизатор стал перегружаться watchdog’ом.
Время перерыва в работе сократилось до 1-2 минут на каждом сбое.
Это было лучше чем было но когда клиенты постоянно пользуются IP-телефонией, видеоконференциями, работой в режиме удаленного рабочего стола а таких сбоев до десятка в день - то это тоже совсем неприемлимо.
И вот в конце прошлой недели я наконец-то нашел как сделать так чтобы маршрутизатор перестал падать.
Если коротко - я отключил поддержку RSTP на всех бриджах.
Более развернутое описание.
По тому как падает центральный маршрутизатор при пропадании связи с одним из переферийных RB SXT я подозревал что это падение как-то связано с изменением топологии моей сети.
И очень долго по ошибке думал что виноват OSPF применяющийся у меня.
Но поскольку падение центрального маршрутизатора происходило буквально через 1-2 секунды после потери связи с RB SXT - я понял что ошибаюсь, поскольку OSPF более “медленный” протокол.
Стал вспоминать что есть более “быстрого” и тоже связанного с топологией - и вспомнил про RSTP.
Что в результате получилось.
Начиная с какой-то из версий RouterOS (более точно можно посмотреть в Changlog’е) при создании бриджа на нем автоматически включалась поддержка RSTP.
Я эту технологию не приемнял но поскольку ее наличие раньше мне не мешало - то и не отключал эту опцию.
Но получилось что драйвера сетевых устройств в CCR1009 некорректно работали с поддержкой RSTP что приводило к их падению а вместе с ними и всей сетевой подсистемы маршрутизатора.
В защиту этой теории говорит то, что еще один CCR1009 с аналогичной конфигурацией точно так же падал, а маршрутизатор другой архитектуры (RB2011) с вероятно другими сетевыми устройствами и их драйверами - нет.
В связи с этим просьба - исправьте пожалуйста данный недостаток системы.
P.S. Обидно что о корнях этой проблемы рассказываю вам я а не наоборот ![]()