30 августа 2025 года у Rocket.net произошел инцидент в нашем дата-центре в Финиксе. Сервисы были восстановлены как можно быстрее, но мы извлекли важные уроки о необходимости улучшения коммуникации во время сбоев.
Что произошло
В 21:39 по восточному времени (EDT) 30 августа аппаратный сбой затронул один хост-узел (phx24) в нашем дата-центре в Финиксе. Это вызвало простои примерно 405 рабочих и тестовых сайтов на платформе Rocket.net продолжительностью до четырех часов. Проблема была отслежена до отказа питания и управления на уровне шасси. Совместно с нашим партнером Leaseweb наша команда выполнила полную замену шасси (диски сохранены) и устранила возникшую после замены проблему с сетью iDRAC.
Узел был восстановлен в 01:49 по восточному времени (EDT) 31 августа. Все остальные узлы и сайты клиентов в нашей сети оставались стабильными и производительными.
Хронология событий
- Начало инцидента: Аппаратный сбой произошел в 21:39 по восточному времени (EDT) 30 августа 2025 года
- Решение: Шасси заменено, проблема iDRAC устранена, полное восстановление сервиса в 01:49 по восточному времени (EDT)
- Обновление страницы статуса: Опубликовано в 02:07 по восточному времени (EDT) 31 августа 2025 года
Обзор
Затронутый узел управлялся Leaseweb, нашим инфраструктурным провайдером в Финиксе. Мы получили оповещение в течение 10 секунд после возникновения сбоя, и наши инженеры (включая нашего основателя) работали всю ночь на живом бридж-звонке с Leaseweb для восстановления сервиса.
К сожалению, обновления на нашей публичной странице статуса отставали из-за срочности решения проблемы. Клиенты, полагающиеся на страницу статуса, не видели своевременных обновлений.
Мы всегда стремимся к улучшению. Есть две отдельные проблемы, которые мы будем решать в будущем:
Во-первых, в дальнейшем мы автоматизируем страницу статуса для обновления в реальном времени. Мы недавно объединились с hosting.com и вскоре сможем использовать команды мониторинга hosting.com для дополнительного покрытия по мере нашего перехода от стартапа к глобальному масштабу.
Во-вторых, хотя серверные проблемы действительно случаются, четыре часа простоя не соответствуют тому, что мы внутри называем «Стандартом Rocket». Мы запросили у нашего партнера Leaseweb SLA в один час на замену оборудования — в настоящее время они предоставляют нам четырехчасовое SLA на любой аппаратный сбой.
Кроме того, по мере развития нашего партнерства с hosting.com, мы получим больше контроля над нашими серверами, развернув собственное оборудование в наших собственных дата-центрах. Мы подкрепим нашу приверженность «Стандарту Rocket», предоставляя SLA на время бесперебойной работы в качестве стандарта для всех наших тарифных планов.
Приверженность прозрачности
Инциденты случаются, но молчание — нет. Мы сожалеем о задержке в коммуникации не меньше, чем о самом инциденте. Благодаря новым мерам безопасности вы будете видеть обновления на странице статуса сразу при возникновении проблем — даже пока мы работаем над их решением.
Комментарии
Категории
Случайное

GPT-5 и уроки для бизнеса: чем опасна

DNS-пропагация: что это и как избежать

5 рабочих способов зарабатывать на блоге

Создаем успешную маркетинговую кампанию
