CCR1009-8G-1S and strange problem

Hi all.

Sorry for Russian text - English version maybe later.

Прошу прощения что пишу по русски на англоязычном форуме но к сожалению мой уровень владения английским не позволит корректно изложить проблему.

Перейдя в свое время с RB1200 на CCR1009 получил странную проблему.
В некоторые случайные моменты времени маршрутизатор просто “повисал”.
Т.е. переставал быть виден по сети, сетевые порты присоединенного к нему оборудования становились неактивны.
При этом через консоль маршрутизатор отзывался на команды (не связанные с сетевой частью).
Попытки посмотреть что там с сетевой частью были безуспешны - маршрутизатор как минимум не видел вообще сетевых адаптеров.
Попытка дать с консоли команду /system reboot тоже не помогала - маршрутизатор не перегружаясь повисал окончательно, переставая реагировать и на консоль тоже.

Был создан запрос в техподдержку (Ticket#2015031766000884]) 17 марта 2015 года.
К сожалению техподдержка не смогла ничем помочь.

Дальнейшие эксперименты показали, что 100% падение маршрутизатора вызывала потеря связи с неким RB SXT, работающим на периферии моей сети.
Что так же не исключало падений и кроме описанных случаев.
При этом маршрутизатор не перегружался watchdog’ом, приходилось отключать/включать питание.
Что было не совсем удобно, учитывая что маршрутизатор стоял в гермозоне датацентра.
(этим обстоятельством собственно и было вызвано то, что проблема решалась достаточно долго)
Первые несколько раз пришлось просить о перезагрузке сотрудников датацентра, потом было установлено устройство сбрасывающее на 5 секунд питание маршрутизатора если он переставал отвечать на пинги.

При этом марщрутизаторы другой архитектуры не были подвержены таким сбоям.
Как-то ночью, в момент минимальной нагрузки на сеть, удалось временно заменить CCR1009 на RB2011 с аналогичной конфигурацией - он не повисал в аналогичных случаях.
Так же было подтверждено что это не брак конкретного устройства - установленный на замену такой же CCR1009 с аналогичной конфигурацией вел себя точно так же.

Несколько версий RouterOS назад ситуация немного улучшилась - маршрутизатор стал перегружаться watchdog’ом.
Время перерыва в работе сократилось до 1-2 минут на каждом сбое.
Это было лучше чем было но когда клиенты постоянно пользуются IP-телефонией, видеоконференциями, работой в режиме удаленного рабочего стола а таких сбоев до десятка в день - то это тоже совсем неприемлимо.

И вот в конце прошлой недели я наконец-то нашел как сделать так чтобы маршрутизатор перестал падать.

Если коротко - я отключил поддержку RSTP на всех бриджах.

Более развернутое описание.
По тому как падает центральный маршрутизатор при пропадании связи с одним из переферийных RB SXT я подозревал что это падение как-то связано с изменением топологии моей сети.
И очень долго по ошибке думал что виноват OSPF применяющийся у меня.
Но поскольку падение центрального маршрутизатора происходило буквально через 1-2 секунды после потери связи с RB SXT - я понял что ошибаюсь, поскольку OSPF более “медленный” протокол.
Стал вспоминать что есть более “быстрого” и тоже связанного с топологией - и вспомнил про RSTP.

Что в результате получилось.
Начиная с какой-то из версий RouterOS (более точно можно посмотреть в Changlog’е) при создании бриджа на нем автоматически включалась поддержка RSTP.
Я эту технологию не приемнял но поскольку ее наличие раньше мне не мешало - то и не отключал эту опцию.
Но получилось что драйвера сетевых устройств в CCR1009 некорректно работали с поддержкой RSTP что приводило к их падению а вместе с ними и всей сетевой подсистемы маршрутизатора.
В защиту этой теории говорит то, что еще один CCR1009 с аналогичной конфигурацией точно так же падал, а маршрутизатор другой архитектуры (RB2011) с вероятно другими сетевыми устройствами и их драйверами - нет.

В связи с этим просьба - исправьте пожалуйста данный недостаток системы.

P.S. Обидно что о корнях этой проблемы рассказываю вам я а не наоборот :frowning:

Same problem was on my CCR1036-12G-4S.

All Tilera-based routers have this bug?
Flagman CCR1072 too?

I think it’s problem with compatibility with other hardware.
(don’t know what device was on another side)

In my case on another side mikrotik hardware too.

My scheme:

CCR1009 - VLAN over transport operator - RB951G - RB SXT

I’m use bridge for connect between EoIP, VLAN, Ether ports.

I checked the mentioned ticket. MikroTik support asks you for remote access to have a look, but you have not provided it. I would be great if you did give us SSH access, so we can see the problem. We can’t help without any proof.

Sorry for Russian again :slight_smile:

Если внимательно почитать все мои письма то видно что я предоставил доступ к:

  • проблемному маршрутизатору
  • RB SXT перезагрузка или отключение ether1 на котором приводило к сбою
  • виртуальной машине по RDP к которой подключен консольный кабель
  • управлению устройством, с помощью которого можно было бы сбрасывать по питанию проблемный микротик
    (письмо от 7 января этого года)

Но поскольку сотрудник техподдержки не мог сказать когда ваши разработчики точно смогут занятся экспериментами а мне это надо было знать чтобы заранее согласовать это время примерно с тремя десятками клиентов очень чувствительных к пропаданию связи в рабочее время - то до экспериментов дело не дошло.
Так же ваш сотрудник сказал что нет возможности заниматься этим в нерабочее время.
В этом случае единственно что я мог предложить - это проверять в ночное время и выходные дни ваши предложения и пожелания по решению проблемы (установка версий системы с расширенной отладки, создание дампов трафика на промежуточных устройствах и т.д.)
Ответа на это мое предложение так же не последовало.
Поэтому ситуация пришла к тому виду в котором она находится сейчас.

Я без вопросов могу предоставить вам доступ ко всем устройствам учавствующим в процессе - если ваши действия не будут вызывать перебои в связи в рабочее время.
В противном случае готов выполнять ваши пожелания по проверке в нерабочее время.