Ежегодный международный форум «ЦОД» (16+)

Отказы ЦОДов становятся все более продолжительными

07.04.2020

Фиксируемое Uptime Institute увеличение числа продолжительных простоев ЦОДов эксперты связывают с усложнением ИТ-систем. Сбои в их работе могут оказаться гораздо более трудными для диагностики и устранения, чем отказы инженерной инфраструктуры. 

Один из выводов недавно опубликованного доклада Uptime Institute Annual Outage Analysis 2020 заключается в том, что наиболее серьезные категории отказов в работе ЦОДов — те, которые ведут к значительным сбоям в предоставлении ИТ-сервисов, — вызывают все более тяжелые последствия и обходятся все дороже. Это неудивительно: как частные лица, так и предприятия становятся все более зависимыми от ИТ, и развернуть или заменить тот или иной ИТ-сервис делается все сложнее.
 
Другой вывод вызывает как вопросы, так и новые опасения: если отбросить те отказы, которые приводили только к частичной потере сервисов и оказывали минимальное влияние на их предоставление, то серьезные перебои, о которых публично сообщали операторы за последние три года, становятся все более продолжительными. А это, в свою очередь, является одной из причин того, что стоимость и тяжесть последствий отключений постоянно растут.
 
В таблице приведены собранные Uptime Institute за 2017—2019 гг. данные о случаях отказов, о которых сообщалось публично, за исключением тех, которые не повлекли финансовых потерь, не сказались на конечных потребителях, или причины которых не были установлены. Цифры свидетельствуют, что число сбоев растет. Это обусловлено рядом факторов, в том числе более широким развертыванием ИТ-сервисов и улучшением отчетности. Но они также показывают тенденцию к увеличению продолжительности отключений, особенно в категории более 48 ч (и это при том, что из выборки исключена одна из главных причин длительных отключений — кибератаки с использованием программ-вымогателей).
 
Продолжительность перебоев в работе ЦОДов

 Продолжительность, ч  2017 г. (n=57)  2018 г. (n=71)   2019 г. (n=140)*
 0-1  1  4  20
 1-4  35  25  49
 4-12  13  25  26
 12-24  4  6  14
 24-48  2  4  14
 >48  2  7  17
 
*Не включены перебои, причина которых неизвестна
Примечание. Указано время восстановления доступности сервиса, а не время возобновления бизнес-операций в полном объеме
 
Указанные в таблице временные интервалы – это время полного восстановления доступности ИТ-сервисов. Восстановление же поддерживаемых этими сервисами бизнес-операций может требовать больше времени, например, чтобы переместить самолеты туда, где они должны быть, или ликвидировать задержки в страховых выплатах. Эта тенденция не бросается в глаза, однако она реальна, что вызывает беспокойство, поскольку 48-часовой перерыв для многих организаций может быть смертельным.
 
Почему это происходит? Основные причины – сложность и взаимозависимость ИТ-систем, а также большая зависимость от программного обеспечения и данных. Так, исследования Uptime Institute показывают, что за последнее время все меньшее число серьезных отказов вызывается сбоями электропитания в ЦОДах и все большее – неполадками в конфигурациях ИТ-систем. Хотя решение технических проблем, связанных с инженерной инфраструктурой объекта, может быть непростым, обычно это относительно предсказуемая задача: отказы, как правило, однозначно определяются, процессы восстановления отработаны командой эксплуатации, а запасные части хранятся под рукой. Сбои в работе ПО, нарушение целостности данных и прерывание бизнес-процессов, охватывающих несколько организаций, могут быть гораздо более сложными проблемами – не только для решения, но даже для диагностики, и эти типы отказов становятся все более распространенными (и да, порой они вызваны именно отказом систем электропитания).
 
Какие уроки здесь можно извлечь? Основной вывод заключается в том, что методы обеспечения отказоустойчивости, наработанные службами эксплуатации ЦОДов за три с лишним десятилетия, нуждаются в расширении и интегрировании в сферы ИТ и DevOps и должны полностью поддерживаться и финансироваться руководством. Другим важным выводом является то, что аварийное восстановление как разновидность коммерческого сервиса, видимо, постепенно сходит со сцены, но сами принципы бдительности, восстановления и отказоустойчивости – особенно в условиях стресса – важны как никогда.
 
Энди Лоуренс, исполнительный директор по исследованиям, Uptime Institute