Интересное:

Сбой в дата-центре Phoenix: разбираемся в причинах и рассказываем об улучшениях

Автор: Pro-IT
20-10-2025, 07:50
0
0

30 августа 2025 года у Rocket.net произошел инцидент в нашем дата-центре в Финиксе. Сервисы были восстановлены как можно быстрее, но мы извлекли важные уроки о необходимости улучшения коммуникации во время сбоев.

Что произошло

В 21:39 по восточному времени (EDT) 30 августа аппаратный сбой затронул один хост-узел (phx24) в нашем дата-центре в Финиксе. Это вызвало простои примерно 405 рабочих и тестовых сайтов на платформе Rocket.net продолжительностью до четырех часов. Проблема была отслежена до отказа питания и управления на уровне шасси. Совместно с нашим партнером Leaseweb наша команда выполнила полную замену шасси (диски сохранены) и устранила возникшую после замены проблему с сетью iDRAC.

Узел был восстановлен в 01:49 по восточному времени (EDT) 31 августа. Все остальные узлы и сайты клиентов в нашей сети оставались стабильными и производительными.

Хронология событий

Начало инцидента: Аппаратный сбой произошел в 21:39 по восточному времени (EDT) 30 августа 2025 года
Решение: Шасси заменено, проблема iDRAC устранена, полное восстановление сервиса в 01:49 по восточному времени (EDT)
Обновление страницы статуса: Опубликовано в 02:07 по восточному времени (EDT) 31 августа 2025 года

Обзор

Затронутый узел управлялся Leaseweb, нашим инфраструктурным провайдером в Финиксе. Мы получили оповещение в течение 10 секунд после возникновения сбоя, и наши инженеры (включая нашего основателя) работали всю ночь на живом бридж-звонке с Leaseweb для восстановления сервиса.

К сожалению, обновления на нашей публичной странице статуса отставали из-за срочности решения проблемы. Клиенты, полагающиеся на страницу статуса, не видели своевременных обновлений.

Мы всегда стремимся к улучшению. Есть две отдельные проблемы, которые мы будем решать в будущем:

Во-первых, в дальнейшем мы автоматизируем страницу статуса для обновления в реальном времени. Мы недавно объединились с hosting.com и вскоре сможем использовать команды мониторинга hosting.com для дополнительного покрытия по мере нашего перехода от стартапа к глобальному масштабу.

Во-вторых, хотя серверные проблемы действительно случаются, четыре часа простоя не соответствуют тому, что мы внутри называем «Стандартом Rocket». Мы запросили у нашего партнера Leaseweb SLA в один час на замену оборудования — в настоящее время они предоставляют нам четырехчасовое SLA на любой аппаратный сбой.

Кроме того, по мере развития нашего партнерства с hosting.com, мы получим больше контроля над нашими серверами, развернув собственное оборудование в наших собственных дата-центрах. Мы подкрепим нашу приверженность «Стандарту Rocket», предоставляя SLA на время бесперебойной работы в качестве стандарта для всех наших тарифных планов.

Приверженность прозрачности

Инциденты случаются, но молчание — нет. Мы сожалеем о задержке в коммуникации не меньше, чем о самом инциденте. Благодаря новым мерам безопасности вы будете видеть обновления на странице статуса сразу при возникновении проблем — даже пока мы работаем над их решением.