8.3. Восстановление после аварии

В качестве мысленного эксперимента, когда вы в следующий раз подойдёте к своему центру данных, оглянитесь и представьте на секунду, что всё пропало. И не только компьютеры. Представьте, что и самого здания больше нет. Затем представьте, что ваша задача — вернуть как можно больше сделанной работы, каким угодно образом, откуда угодно, но сделать это можно скорее. Ваши действия?

Подумав об этом, вы сделаете первый шаг в восстановлении после аварии. Понятие восстановления после аварии подразумевает возможность восстановиться после события, повлиявшего на работу центра данных вашей организации, в максимально возможном объёме и с максимальной скоростью. Типы аварий могут быть разными, но конечный результат всегда один.

Процесс восстановления после аварии может включать множество самых разных действий. Здесь этот процесс рассматривается в общем и отмечаются некоторые ключевые моменты.

8.3.1. Разработка, проверка и реализация плана восстановления после аварии

Хранилище резервных копий жизненно важно, но всё же бесполезно без плана восстановления после аварии. План восстановления после аварии определяет все аспекты процесса восстановления, в том числе:

Планы восстановления после аварии часто занимают не одну толстую папку. Такой уровень детализации просто необходим, потому что в случае аварии, план может быть единственной вещью, которая останется от вашего предыдущего центра (конечно, не считая последних резервных копий) и поможет восстановить работу.

ПодсказкаПодсказка
 

Хотя планы восстановления после аварии должны быть на вашем рабочем месте, его копии также должны храниться удалённо. Таким образом, в результате аварии, разрушившей ваше рабочее место, не исчезнут также и все копии ваши планы восстановления. Подходящее место для хранения копии плана — ваше удалённое хранилище резервных копий. Если это не нарушает политики безопасности вашей организации, копии также могут храниться дома у ключевых сотрудников, готовые к применению.

Настолько важный документ заслуживает серьёзного отношения (и разрабатывать его, возможно, следует с помощью профессионалов).

И когда этот важный документ будет создан, знания, которые в нём содержатся, необходимо время от времени проверять. Проверка плана восстановления после аварии подразумевает собственно выполнение запланированных действий: перемещение в резервное помещение и создание временного центра данных, удалённый запуск приложений и восстановления нормальной работы, когда аварийная ситуация будет разрешена. Чаще всего во время проверки никто не пытается выполнить задачи плана полностью, вместо этого выбираются показательные компьютер и приложение и перемещаются в резервное помещение, там запускаются в работу, и по окончании проверки возвращаются к обычному режиму.

ЗамечаниеЗамечание
 

Хотя это избитая фраза, план восстановления после аварии должен быть живым, по мере того, как в центре данных происходят изменения, они должны находить отражение в этом плане. Во многих отношениях устаревший план восстановления может быть хуже, чем полное отсутствие плана, поэтому возьмите за правило регулярно (например, ежеквартально) просматривать план и вносить в него изменения.

8.3.2. Резервные помещения: «холодные», «тёплые» и «горячие»

Один из наиболее важных аспектов восстановления после аварии — наличие помещения, в котором может происходить восстановление. Это помещение называется резервным. В случае аварии, резервное помещение — это место где будет воссоздан ваш центр данных, и в котором вы будете работать, до устранения аварийной ситуации.

Резервные помещения могут быть трёх типов:

Очевидно, эти названия не связаны с температурой. Они определяют, какие усилия могут потребоваться для начала работы в резервном помещении в случае аварии.

«Холодное» резервное помещение — это не более чем просто подходящее пространство в здании. Для начала процесса восстановления потребуется приобрести и доставить на место всё, что необходимо для восстановления работы ваших пользователей. Как можно себе представить, время на приведение «холодного» резервного помещения в полностью работоспособное состояние может быть весьма значительным.

«Холодные» резервные помещения обходятся дешевле всего.

«Тёплое» резервное помещение уже обеспечено оборудованием, представляющим в разумной степени подобие того, что есть в вашем центре данных. Для того, чтобы начать настоящую работу по восстановлению, требуется доставить последние резервные копии из удалённого хранилища и выполнить восстановление на «голых» компьютерах.

«Горячие» резервные помещения содержат виртуальный зеркальный образ вашего центра данных, в котором все компьютеры уже настроены и ждут только последних копий из вашего удалённого хранилища резервных копий. Как можно представить, «горячее» резервное помещение сможет начать работу в полном объёме всего через несколько часов.

«Горячее» резервное помещение — наиболее дорогостоящий подход к восстановлению.

Для решения проблемы резервного помещения могут быть выбраны три подхода:

Каждый подход имеет свои положительные и отрицательные стороны. Например, заключая договор с фирмой, оказывающей услуги по восстановлению, обычно вы имеете дело с профессионалами, способными оказать помощь в процессе создания, проверки и реализации плана восстановления. Как вы можете догадаться, эти услуги обходятся не бесплатно.

Использование места в другом помещении вашей организации может стать по сути вариантом без затрат, но всё же оборудование резервного помещения и поддержание его в состоянии готовности обойдётся довольно дорого.

Заключение соглашения с другой организацией о совместном использовании центров данных может быть сам дешёвым вариантом, но длительная работа при таких условиях обычно невозможна, так как принимающий центра данных должен продолжать свою работу в обычном режиме, что, в лучшем случае, стесняет обе стороны.

В конце концов, выбор резервного помещения — это компромисс между стоимостью и потребностями вашей организации в продолжении работы.

8.3.3. Доступность аппаратного и программного обеспечения

Ваш план восстановления должен включать варианты приобретения аппаратного и программного обеспечения, необходимого для работы в резервном помещении. Профессионально обслуживаемое резервное помещение может быть уже оснащено всем необходимым (возможно, вам придётся запланировать приобретение и доставку на место каких-то специальных материалов); с другой стороны, в случае с «холодным» резервным помещением необходимо определить надёжных поставщиков всего, что может потребоваться. Часто организации договариваются с производителями об ускоренной доставке аппаратного и/или программного обеспечения в случае аварии.

8.3.4. Доступность резервных копий

Когда в вашей организации объявляется об аварийной ситуации, об этом должны знать в вашем удалённом хранилище для того, чтобы:

ПодсказкаПодсказка
 

В случае аварии, последние резервные копии, сделанные в старом центре данных, становятся жизненно важны. Поэтому прежде чем делать что-то ещё, позаботьтесь о создании копий, и верните оригиналы в удалённое хранилище как можно быстрее.

8.3.5. Сетевая инфраструктура резервного помещения

Центр данных практически бесполезен, если он никак не связан с остальными подразделениями организации, которым он нужен. В зависимости от плана восстановления от аварии и характера самой аварии, ваши пользователи могут быть расположены за много километров от резервного помещения. В таких случаях, для восстановления работы жизненно необходимо хорошее сетевое соединение.

Также следует подумать и о телефонных линиях. Вы должны обеспечить достаточное количество телефонных линий для голосового общения с вашими пользователями. И если раньше можно было просто крикнуть через стенку, теперь в той же ситуации нужно будет звонить по телефону, поэтому рассчитывайте число телефонных линий с запасом.

8.3.6. Персонал резервного помещения

Проблема персонала резервного помещения имеет много аспектов. Первая задача — определить, какие сотрудники потребуются для работы в резервном центре данных и будут работать там, пока это будет необходимо. Хотя основная бригада может выполнять работу в течение непродолжительного времени, если аварийная ситуация будет сохраняться, для работы в чрезвычайных обстоятельствах, связанных с аварией, может потребоваться больше людей.

Здесь также необходимо учесть, что у сотрудников должно быть достаточно времени, чтобы отдохнуть и, возможно, съездить домой. Если катастрофа настолько глобальна, что задела их дома и семьи, им необходимо выделить дополнительное время, чтобы они могли решить собственные проблемы. Кроме этого необходимо будет организовать возле резервного помещения временное жильё, и найти транспорт для перевозки людей от места проживания к месту работы и обратно.

Часто план восстановления после аварии включает наличие на месте представителей всех категорий пользователей. Это зависит от способности вашей организации взаимодействовать с удалённым центром данных. Если представители пользователей должны работать в резервном помещение, для них также должны быть предусмотрены подобные условия.

8.3.7. Возвращение к нормальной жизни

Рано или поздно, но все чрезвычайные ситуации заканчиваются. План восстановления после аварии должен предусматривать и этот этап. Новый центр данных должен быть обеспечен всем необходимым аппаратным и программным обеспечением, хотя этот этап обычно не настолько критичен по времени, как подготовка резервного помещения, тем не менее, каждый день эксплуатации резервных помещений стоит денег, поэтому из экономических соображений возвращаться на место следует как можно быстрее.

В резервном помещении должны быть сделаны последние резервные копии и доставлены в новый центр данных. Когда они будут восстановлены на новом оборудовании, вся работа может быть переведена в новый центр данных.

На этом этапе эксплуатация резервного центра данных может быть прекращена, и вы можете избавиться от временного оборудования в соответствии последним разделом плана. Наконец, проводится анализ эффективности плана, и все изменения, рекомендованные аналитической группой, включаются в обновлённую версию плана.