Глава 8. Подготовка к чрезвычайным ситуациям

Подготовка к чрезвычайным ситуациям — вопрос, о котором легко забывают системные администраторы, так как он не очень приятен и всегда находятся какие-то другие вопросы, требующие решения. Однако отнестись к этому вопросу небрежно — это худшая ошибка, которую может допустить системный администратор.

Если рассматривать чрезвычайные ситуации, обычно первыми приходят в голову драматические события (как, например, пожар, наводнение или ураган), но и мирские проблемы (например, строители повредили кабель или кто-то не закрыл воду и устроил потоп) также могут быть разрушительными. Поэтому системный администратор должен определить для себя чрезвычайную ситуацию как любое незапланированное событие, прерывающее обычную работу организации.

Перечислить все типы чрезвычайных ситуаций, которые могут произойти, невозможно, поэтому в этом разделе рассматриваются факторы, которые могут привести к разного рода чрезвычайным ситуациям, чтобы угрозу этих ситуаций можно было оценить не с точки зрения вероятности, а с точки зрения этих факторов.

8.1. Типы чрезвычайных ситуаций

Если говорить в общем, чрезвычайную ситуацию могут вызвать следующие четыре фактора:

8.1.1. Отказы аппаратного обеспечения

Понять, что такое отказ аппаратного обеспечения, легко — оборудование выходит из строя и работа останавливается. Гораздо сложнее понять природу этих отказов и найти способы снизить их угрозу. Ниже описываются некоторые подходы, которые вы можете применить:

8.1.1.1. Обеспечение запаса оборудования

Проще всего угрозу отказа оборудования можно сократить, имея в наличии запасное оборудование. Конечно, этот подход подразумевает две вещи:

  • На месте всегда должен быть сотрудник, имеющий необходимые навыки, чтобы диагностировать проблему, выявить отказавшее оборудование и заменить его

  • В наличии имеется замена отказавшему оборудованию.

Эти вопросы рассматриваются подробнее в следующих разделах.

8.1.1.1.1. Наличие навыков

Возможно, у вас уже есть все необходимые навыки, если в прошлом вы имели дело с аппаратной частью. Однако, если раньше вы не занимались ремонтом компьютеров, возможно, вам стоит обратиться к знакомым коллегам, чтобы они провели для вас курс молодого бойца. Хотя такого курса явно недостаточно для решения проблем с серверами уровня предприятий, это хороший способ изучить основы (узнать, как правильно обращаться с инструментами и компонентами, познакомиться с основными процедурами диагностики и т. д.).

ПодсказкаПодсказка
 

Но прежде чем пытаться починить оборудование самостоятельно, убедитесь в том, что это оборудование:

  • Не на гарантии

  • Не должно обслуживаться по какому-либо договору о сервисном обслуживании

Если вы попытаетесь отремонтировать оборудование, находящееся на сервисном обслуживании или гарантии, вы, скорее всего, нарушите условия соответствующих соглашений и поставите под вопрос последующее обслуживание.

Однако, имея даже минимальные навыки, можно эффективно диагностировать и заменять отказавшее оборудование — если правильно определить, какое оборудование для замены должно быть в запасе.

8.1.1.1.2. Что иметь в запасе?

Этот вопрос показывает, насколько многогранны задачи восстановления при чрезвычайных ситуациях. Выбирая, какое оборудование иметь в запасе, в частности, следует учесть следующее:

  • Максимально допустимое время простоя

  • Навыки, необходимые для замены оборудования

  • Средства, выделенные для создания запаса

  • Площадь, необходимая для хранения запасов

  • Какое оборудование может использовать те же запасные части

Каждый из этих вопросов влияет на выбор типов запасных частей. Например, можно иметь в запасе компьютеры в сборе, при этом время простоя сократится до минимума и для замены не потребуются особые навыки, но это обойдётся гораздо дороже, чем иметь на полке запасной процессор и модуль памяти. Однако эти затраты могут иметь смысл, если в вашей организации используется десяток одинаковых серверов, и ещё один запасной компьютер вполне может пригодиться.

Вне зависимости от того, какое вы примете решение, неизбежно возникает ещё один вопрос, которые обсуждается далее.

8.1.1.1.2.1. Насколько большим должен быть запас?

Вопрос количества запасного оборудования также имеет много сторон. Основное, что следует учитывать:

  • Максимально допустимое время простоя

  • Проектное время работы на отказ

  • Ожидаемое время возобновления запаса

  • Средства, выделенные для создания запаса

  • Площадь, необходимая для хранения запасов

  • Какое оборудование может использовать те же запасные части

В случае, когда компьютер может не работать максимум два дня и запас, который может понадобиться раз в год и может быть возобновлён в течение дня, будет разумно иметь всего одну запасную часть (или не иметь вовсе, если вы уверены в том, что сможете достать запасную часть в течение 24 часов).

С другой стороны, если компьютер может быть отключен не более чем на несколько минут, и запас может быть востребован раз в месяц (и восполнен в течение нескольких недель), на полке следует иметь пять/шесть (или даже больше) запасных частей.

8.1.1.1.3. Запас, который не в запасе

Когда запас может быть не в запасе? Когда какое-то оборудование используется в работе, но также может стать запасной частью для более приоритетного компьютера, если такая необходимость возникнет. Этот подход имеет следующие преимущества:

  • Меньше средств тратится на «бесполезные» запасные части

  • Известно, что запасное оборудование исправно.

Однако, этот подход имеет и недостатки:

  • Прерывается выполнение задачи с низким приоритетом

  • Есть опасность выхода из строя запасного оборудования (при этом высокоприоритетное оборудование останется без замены).

Учитывая эти ограничения, в качестве запасного оборудования можно использовать работающий компьютер, но успех этого подхода зависит от особенностей нагрузки этого компьютера и того, как его отсутствие отразится на работе центра данных в целом.

8.1.1.2. Договоры обслуживания

Договоры обслуживания делают отказы оборудования не вашей проблемой. Всё, что от вас требуется — убедиться в том, что отказ имел место, и нет никаких признаков того, что его причина связана с программным обеспечением. Затем вы делаете телефонный звонок, и у вас появляется специалист, который всё исправляет.

Кажется, что всё очёнь просто. Но, как часто бывает в жизни, на самом деле всё оказывается сложнее. Рассматривая договор обслуживания, вы должны обратить внимание на следующие моменты:

  • Часы обслуживания

  • Время реакции

  • Наличие запасных частей

  • Имеющийся бюджет

  • Обслуживаемое оборудование.

Мы рассмотрим эти вопросы в следующих подразделах.

8.1.1.2.1. Часы обслуживания

Для разных потребностей клиентов предлагаются разные договоры обслуживания, одно из важных отличий между договорами связано с часами обслуживания. И если вы не пожелали заплатить за приоритет в обслуживании, вы не сможете просто позвонить в любое время и рассчитывать на то, что сразу же у двери появится необходимый специалист.

Вместо этого, в вашем договоре может быть записано, что вы не даже не должны звонить в обслуживающую компанию до определённого времени/дня или, если можете позвонить, специалист не будет направлен к вам раньше времени/дня, указанного в договоре.

Чаще всего часы обслуживания выражаются интервалами времени, в которых к вам может быть направлен специалист. Обычно предлагаются следующие часы обслуживания:

  • С понедельника по пятницу, с 09:00 до 17:00

  • С понедельника по пятницу, 12, 18 или 24 часа в сутки (время начала и окончания обслуживания устанавливается по взаимной договорённости)

  • С понедельника по субботу (или с понедельника по воскресенье), время то же, что и выше.

Как и следует ожидать, стоимость обслуживания увеличивается с увеличением количества часов обслуживания. Также обычно расширение обслуживания с понедельника по пятницу обходиться дешевле, чем добавление обслуживания в субботу или воскресенье.

Но даже здесь вы можете сократить затраты, если захотите сделать какую-то работу сами.

8.1.1.2.1.1. Обслуживание в сервисном центре

Если в вашей ситуации нужна только возможность вызвать специалиста в обычные часы работы и у вас достаточно опыта, чтобы определить, что вышло из строя, вы можете подумать об обслуживании в сервисном центре. Производители оборудования обычно имеют сервисные центры, в которых специалисты работают с оборудованием, принесённым клиентами.

Сервисные центры хороши тем, что скорость их работы зависит от вашей. Вам не нужно ждать, пока специалист освободится и появится у вас. Специалисты сервисных центров не выезжают на вызов к клиентам, и это значит, что всегда найдётся кто-то, кто сможет заняться вашим оборудованием, как только вы его принесёте.

Так как сервисное обслуживание осуществляется централизованно, скорее всего, все необходимые детали будут в наличии. Это может исключить необходимость поиска детали среди ночи или ожидания, пока нужную деталь доставят из находящегося за сотни километров другого офиса, где она случайно оказалась на складе.

Однако у этого подхода есть и некоторые минусы. Самый очевидный — вы не можете выбрать часы обслуживания, вас обслуживают, только когда сервисный центр открыт. Второй минус — специалисты не будут работать по окончании своего рабочего дня, поэтому, если ваше оборудование откажет в пятницу, в 16:30 и вы доставите его в сервисный центр к 17:00, специалисты займутся им только утром в следующий понедельник.

Ещё один недостаток — чтобы вы могли воспользоваться услугами сервисного центра, нужно, чтобы он был неподалёку. Если ваша организация находится в мегаполисе, скорее всего это не будет проблемой. Однако, если вы находитесь на периферии, может оказаться, что ближайший сервисный центр очень далеко от вас.

ПодсказкаПодсказка
 

Если вы рассматриваете вариант с сервисным центром, подумайте, как именно вы будете доставлять туда оборудование. Выделит ли вам компания машину или вы воспользуетесь своей? Если это будет ваша машина, достаточно ли в ней места и сможет ли она везти тяжёлый груз? Как быть со страховкой? Нужны ли будет привлекать людей для погрузки и выгрузки оборудования?

И хотя всё это довольно мирские вопросы, их следует учесть, прежде чем принять решение в пользу варианта с сервис-центром.

8.1.1.2.2. Время реакции

Помимо часов обслуживания, в договорах обслуживания часто оговаривается время ответа. Другими словами, через какое время после вашего обращения к вам прибудет специалист? Как вы можете догадаться, чем меньше время ответа, тем больше стоимость обслуживания.

На время ответа накладываются некоторые ограничения. В частности, возможное время ответа во многом определяется временем, необходимым для того, чтобы добраться от офиса производителя до вашего местоположения [1]. Предложения времени ответа до четырёх часов обычно считаются быстрыми. Медленное время ответа может составлять от 8 часов (что при обслуживании в обычное рабочее время, по сути, означает обслуживание «на следующий день») до 24. Как и любые другие аспекты договора обслуживания, это время также можно согласовать — договорившись о цене.

ЗамечаниеЗамечание
 

Хотя это бывает не часто, но вы должны знать, что иногда обслуживающая компания может оказаться не в состоянии выдержать указанное в договоре время реакции. Нередки случаи, когда сильно загруженная работой обслуживающая компания посылает кого-то (кого угодно), лишь бы уложиться в оговоренное время реакции. Этот человек создаёт впечатление, что занимается диагностикой проблемы, и звонит в офис, чтобы кто-то принёс «нужную деталь».

На самом же деле он просто ждёт, пока не появится специалист, который действительно сможет решить проблему.

Такое поведение обслуживающей компании можно понять, если оно вызвано чрезвычайными обстоятельствами (например, скачок напряжения повредил множество компьютеров в их районе обслуживания), но если это происходит из раза в раз, вам следует связаться с её руководством и потребовать объяснений.

Но если требования ко времени реакции ещё жёстче (а ваш бюджет, соответственно, больше), есть один способ сократить время реакции ещё больше — до нуля.

8.1.1.2.2.1. Моментальная реакция — наличие специалиста на месте

Если вы имеете определённое положение (вы — один из крупнейших клиентов в районе), обоснованную потребность (простой в течение сколь нибудь длительного времени неприемлем) и достаточные финансовые средства (если вас интересует цена, скорее всего, это не для вас), вы можете подумать о постоянном присутствии специалиста у вас. Преимущества наличия всегда готового к работе специалиста очевидны:

  • Мгновенная реакция на любую проблему

  • Менее спонтанный подход к обслуживанию.

Как можно догадаться, этот вариант может стоить очень дорого, особенно если специалист нужен вам на месте 24 часа в сутки, 7 дней в неделю. Но если он подходит для вашей организации, вы должны учесть несколько моментов, чтобы получить максимальные преимущества.

Во-первых, приглашённым специалистам потребуется много того, что нужно обычным работникам, в частности, рабочее место, телефон, необходимые карты доступ и/или ключи и т. д.

Не имея необходимых вещей, эти специалисты не будут вам очень полезны. Поэтому вы также должны выделить им склад для хранения запасных частей. Кроме этого, убедитесь в том, что у специалиста есть набор запчастей, необходимых именно для вашей конфигурации, и что эти запчасти не были сняты с поломанного оборудования каких-то других клиентов.

8.1.1.2.3. Наличие запасных частей

Очевидно, наличие запасных частей значительно ограничивает уязвимость вашей организации в случаях отказа оборудования. В контексте договора обслуживания вопрос наличия запасных частей звучит несколько по-другому, так как имеющиеся у обслуживающей компании запчасти предназначены не только для вашей организации, но и для всех остальных клиентов в обслуживаемом районе, которым они также могут понадобиться. Вполне возможно, что другая организация, купившая у данного производителя больше оборудования, чем вы, будет пользоваться большим приоритетом при распределении запчастей (и специалистов).

К сожалению, в данных обстоятельствах с этим нельзя ничего сделать, кроме как попытаться урегулировать проблему с руководством обслуживающей компании.

8.1.1.2.4. Имеющийся бюджет

Как было сказано выше, стоимость обслуживания зависит от вида предоставляемых услуг. Помните, что плата за обслуживание не является разовой, по истечении срока договора вы должны будете заключить новый и заплатить ещё раз.

8.1.1.2.5. Обслуживаемое оборудование.

Это та область, где вы можете помочь своей организации свести затраты к минимуму. Предположите на минутку, что вы заключили договор обслуживания, согласно которому у вас прямо на месте круглосуточно дежурит специалист, хранятся запчасти, и т.д. Договор распространяется на всё оборудование, которое вы приобрели у этого производителя, включая компьютер, на котором секретарь выполняет не самые важные задачи.

Неужели у этого компьютера действительно должен круглосуточно дежурить специалист? Даже если компьютер так важен для работы секретаря, и секретарь работает только с 09:00 до 17:00, весьма маловероятно, что:

  • компьютер будет использоваться после 17:00 и до 09:00 (не говоря о выходных)

  • сбой этого компьютера будет замечен в нерабочее время

Следовательно, платить за возможность отремонтировать этот компьютер в ночь на воскресенье — это то же самое, что бросать деньги на ветер.

Что нужно сделать в данном случае, так это разделить соглашение об обслуживании так, чтобы критически важное оборудование рассматривалось отдельно от менее важного. Таким образом можно снизить затраты, насколько это возможно.

ЗамечаниеЗамечание
 

Если для вашей организации критичными являются двадцать одинаково настроенных серверов, у вас может возникнуть желание заключить договор на полное обслуживание только одного или двух из них, а на обслуживании остальных сэкономить. И тогда, развивая эту мысль, если на выходных поломается один из серверов, вы скажете, что поломался именно тот, который находится на полном обслуживании.

Не делайте этого. Во-первых, потому что это нечестно, а во-вторых, потому что производители следят за этим и учитывают серийные номера. Даже если вам удастся обхитрить их, когда всё это раскроется, вам придётся заплатить гораздо больше, чем если бы вы делали всё честно и платили за обслуживание, которое вам действительно необходимо.

8.1.2. Отказы программного обеспечения

Отказы программного обеспечения могут приводить к весьма длительным простоям. Например, одни разработчики компьютерных систем, известных своей отказоустойчивостью, не так давно сами столкнулись с этим. Ошибка в коде обработки времени в операционной системе компьютера приводила к тому, что на всех таких компьютерах в определённое время определённого дня происходил сбой. Данный частный случай — весьма эффектный реальный пример отказа программного обеспечения, и хотя другие связанные, с программами, отказы могут быть менее драматичными, но они также могут быть разрушительными.

Отказы программного обеспечения могут иметь место в одной из двух областей:

  • Операционная система

  • Приложения

Разные типы отказов оказывают разное влияние и об этом подробнее рассказано в следующих разделах.

8.1.2.1. Отказы операционной системы

При отказе такого рода, работа нарушается по вине операционной системы. Причинами отказа операционной системы могут быть:

  • Сбои

  • Повисания

Важно понять, что при отказах операционной системы все процессы, выполняющиеся на компьютере в момент отказа, прекращаются. Это значит, что отказы операционной системы могут нарушить весь производственный процесс.

8.1.2.1.1. Сбои

Сбои происходят, когда операционная система сталкивается с ошибкой, при которой она не может продолжить работу. Причины сбоев могут быть самыми разными: от неспособности справиться с внутренней проблемой оборудования до ошибки в ядре операционной системы. В случае сбоев операционной системы для продолжения работы систему необходимо перезагрузить.

8.1.2.1.2. Повисания

Когда операционная система прекращает обработку событий, работа компьютера останавливается. Это ситуация называется повисанием. Повисания могут быть вызваны взаимоблокировками (два потребителя ресурсов пытаются завладеть ресурсами друг друга) или активными взаимоблокировками (два или несколько процессов отвечают на запросы других, но ничего не делают), но конечный результат один и тот же — полная неработоспособность.

8.1.2.2. Отказы приложений

По сравнению с отказами операционной системы, отказы приложений обычно наносят ущёрб в более ограниченной области. Масштаб ущерба зависит от приложения, и бывает, что отказ приложения затрагивает только одного человека. С другой стороны, если это серверное приложение, обслуживающее множество клиентских приложений, последствия такого сбоя будут более масштабными.

Отказы приложений, как и отказы операционных систем, могут быть вызваны повисаниями и сбоями, единственное отличие состоит в том, что повисает или сбоит приложение.

8.1.2.3. Обращение за помощью — поддержка программ

Также как поддерживают свои продукты производители оборудования, многие разработчики программного обеспечения поддерживают выпускаемые ими программные пакеты. За исключением очевидных различий (запасные части не нужны и почти всю работу служба поддержки может оказать по телефону), договоры о поддержке программного обеспечения имеют много общего с договорами о поддержке оборудования.

Уровень поддержки, обеспечиваемой разработчиком программ, также может меняться. Наиболее распространены сегодня следующие стратегии поддержки:

  • Документация

  • Самостоятельная поддержка

  • Поддержка через Интернет или по электронной почте

  • Поддержка по телефону

  • Поддержка на месте.

Эти типы поддержки рассматриваются подробнее в следующих разделах.

8.1.2.3.1. Документация

Хотя её часто недооценивают, документация к программе может быть полезна как первое средство поддержки. Представленная в электронном или печатном виде, документация часто содержит сведения, необходимые для решения многих проблем.

8.1.2.3.2. Самообслуживание

Самообслуживание подразумевает, что клиент решает проблемы, связанные с программой, самостоятельно, обращаясь к ресурсам в Интернете. Это могут быть веб-страницы с часто-задаваемыми вопросами (Frequently Asked Questions, FAQ) или базы знаний.

Страницы FAQ часто имеют очень ограниченные возможности поиска (или вообще их не имеют), и пользователю в поисках интересующего его вопроса приходится просматривать один вопрос за другим. Пользоваться базами данных обычно проще, так как они позволяют находить информацию по ключевым словам. Базы знаний также могут быть весьма обширными, что делает их хорошим инструментом для решения проблем.

8.1.2.3.3. Поддержка через Интернет или по электронной почте

Часто на сайтах, в целом похожих на сайты для самообслуживания, также можно найти веб-формы или почтовые адреса для обращения к службе техподдержки. Хотя на первый взгляд кажется, что это лучше просто хорошего сайта для самообслуживания, на самом деле всё зависит от людей, которые будут отвечать на ваши вопросы.

Если люди в техподдержке перегружены работой, от них будет трудно получить необходимую информацию, так как основная их задача быстро отвечать на любой запрос и переходить к следующему. Объясняется это тем, что почти всегда работа службы техподдержки оценивается по числу вопросов, которые они решили. Ускорить разрешение вопроса сложно, потому что по электронной почте добиться более своевременных и полезных ответов вряд ли удастся — особенно когда человек в техподдержке читает ваше письмо, торопясь перейти к следующему.

Чтобы вас обслужили наилучшим образом, вы должны описать в своём письме всё, что может заинтересовать специалиста службы поддержки, в частности:

  • Чётко описать суть проблемы

  • Указать версии всех программных компонентов, относящихся к делу

  • Описать, что вы уже сделали, пытаясь решить проблему (установить последние исправления, загрузить систему в минимальной конфигурации и т.д.)

Чем больше информации вы сообщите службе техподдержки, тем больше шансов у вас получить необходимую поддержку.

8.1.2.3.4. Поддержка по телефону

Как и следует из имени, такая поддержка подразумевает общение со специалистами техподдержки по телефону. Поддержка такого рода во многом похожа на поддержку оборудования; также предлагаются разные уровни поддержки (с разными часами обслуживаниями, разным временем реакции и т. д.).

8.1.2.3.5. Поддержка на месте.

Такая поддержка (её также называют поддержкой с выездом на место) обычно требуется для решения специфических решений или внесения критически важных изменений, например, для первоначальной установки и настройки, серьёзных обновлений и т. д. Как и следовало ожидать, это наиболее дорогостоящий тип поддержки.

И всё же бывают обстоятельства, когда такая поддержка оправдана. Например, возьмём небольшую организацию, в которой всего один системный администратор. Эта организация собирается развернуть первый сервер баз данных, но развёртывание (и сама организация) не настолько масштабное, чтобы нанимать отдельного администратора баз данных. В таких ситуациях, обычно дешевле пригласить специалиста из компании, разработавшей базы данных, для первоначальной установки (и возможно привлекать его позже, по мере необходимости), чем научить системного администратора тому, что вряд ли понадобится ему в будущем.

8.1.3. Негативное воздействие извне

И даже если оборудование работает идеально и программное обеспечение настроено правильно и работает как должно, могут возникать другие проблемы. Наиболее распространенные проблемы, возникающие вне компьютерной системы, связаны с физическим окружением, в котором находится эта система.

Проблемы, связанные с воздействием извне, можно разделить на четыре основных категории:

  • Целостность здания

  • Электричество

  • Вентиляция

  • Погода и окружающая среда

8.1.3.1. Целостность здания

Имея на первый взгляд простую структуру, здание выполняет множество функций. Оно обеспечивает защиту от осадков. Оно поддерживает подходящий микроклимат во внутренних помещениях. Оно имеет систему электроснабжения и защищает от пожара, краж и вандализма. Учитывая такое количество функций, неудивительно, что здание может стать причиной многих проблем. В частности, следует рассмотреть следующие потенциальные угрозы:

  • Крыши могут протекать, в результате чего вода попадёт в центры данных

  • Могут ломаться различные системы здания (водопровод, канализация или вентиляция) и в здании нельзя будет работать

  • Пол может быть не рассчитан на вес оборудования, которое вы хотите разместить в центре данных.

Думая о том, что плохого может произойти со зданием, важно иметь воображение. Представленный выше список всего лишь обозначает направления для размышлений.

8.1.3.2. Электричество

Так как электричество является жизненно необходимым для любого компьютерного оборудования, системные администраторы везде уделяют вопросам электропитания особое внимание. С электропитанием связаны несколько различных аспектов, все они будут рассмотрены подробнее в следующих разделах.

8.1.3.2.1. Защита электропитания

Во-первых необходимо определить, насколько надёжно может быть ваше электропитание. Как и почти все центры данных, вы, скорее всего, получаете электричество от местного узла электросетей по линиям электропередачи. Поэтому проверить, насколько надёжен ваш основной источник питания, вы можете лишь в определённой степени.

ПодсказкаПодсказка
 

Организации, расположенные вблизи границ районов электросетей могут договориться и получать питание от двух узлов электросетей:

  • От узла, обслуживающего ваш район

  • От узла, обслуживающего соседний район.

Проведение линии электропередачи до соседней электросети стоит недёшево, поэтому данный вариант годится только для крупных предприятий. Однако, для таких организаций наличие резервного источника питания часто оправдывает такие затраты.

Главное, что вы должны определить, — это каким образом электричество попадает на территорию вашей организации и в ваше здание. Проложены ли линии электропередач под землёй или над землёй? Наземные линии электропередач могут пострадать от:

  • экстремальных погодных условий (обледенение, ураганный ветер, молния)

  • дорожных происшествий (они могут привести к повреждению столбов или трансформаторов)

  • животных (они могут сбиться с пути и стать причиной замыкания проводов)

Однако, линии электропередач, проложенные под землёй, имеют свои недостатки, они могут пострадать в результате:

  • Ошибки строителей (раскапывая землю в неположенном месте, они могут повредить кабель)

  • Наводнений

  • Молнии (хотя и в намного меньшей степени, чем наземные линии)

Продолжите путь кабелей электропередач в ваше здание. Может быть сначала они идут к уличному трансформатору? Защищён ли этот трансформатор от наезда автомобиля и от падения деревьев? Насколько хорошо все выключающие рубильники закрыты от посторонних?

Перейдя к зданию, оцените, подвержены ли кабели электропитания (или щитки, к которым они подходят) другим угрозам? Например, может ли из-за прорыва водопровода пострадать электрощитовая?

Есть ли что-то ещё по пути электричества к центру данных, что может стать причиной неожиданного отключения питания? В частности, нет ли линии электропитания центра данных ещё каких-то потребителей электричества? Если есть, внешняя созданная ими нагрузка однажды может привести к перегрузке, в результате чего питание отключится и у вашего центра данных.

8.1.3.2.2. Качество электропитания

Убедиться в том, что ваш источник питания максимально надёжен, недостаточно. Вы также должны позаботиться о качестве электропитания вашего центра данных. При этом следует учесть несколько факторов:

Напряжение

Напряжение электропитания должно быть стабильным, без падений и скачков.

Форма напряжения

Напряжение должно иметь чёткую синусоидальную форму, с минимальными общими гармоническими искажениями (Total Harmonic Distortion, THD).

Частота

Частота должна быть стабильна (в большинстве стран используется частоты 50 и 60 Гц).

Шум

Питание не должно содержать никаких радиочастотных (Radio Frequency Interference, RFI) и никаких электромагнитных помех (Electro-Magnetic Interference, EMI).

Сила тока

Силы тока электропитания должно быть достаточно для работы центра данных.

Обычно электропитание, которое даёт узел электросети, не соответствует высоким требованиям, предъявляемым центром данных. Поэтому обычно требуется некоторым образом привести его в соответствии с требованиями. Для этого можно применить разные подходы:

Сетевые фильтры

Сетевые фильтры делают именно то, о чём говорит их имя — они фильтруют скачки напряжения, поступающего от источника питания. Этим возможности большинства фильтров ограничиваются, и ваше оборудование остаётся незащищённым от многих других проблем электропитания.

Стабилизаторы питания

Стабилизаторы питания применяют более широкий подход, в зависимости от сложности устройства, они могут взять на себя большую часть описанных выше проблем.

Мотор-генераторные установки

Мотор-генераторная установка, по сути, представляет собой соединённые вместе большой электромотор, работающий от вашего обычного источника питания, большой маховик и генератор. Мотор вращает маховик и генератор, генерирующий электричество в объёмах, достаточных для работы центра данных. Таким образом, питание центра данных на электрическом уровне изолировано от внешнего питания, и значит многие проблемы питания исключаются. Колесо также позволяет поддерживать питание при краткосрочных отключениях, так как оно замедлит вращение настолько, что генерируемой энергии будет недостаточно, только через несколько секунд.

Бесперебойные блоки питания

Некоторые типы бесперебойных блоков питания (Uninterruptible Power Supply, UPS) реализуют многие (если не все) меры защиты, имеющиеся у стабилизаторов [2].

С последними двумя технологиями мы и перейдём к следующей теме, о которой думают многие, кого волнует электропитание — резервным источникам питания. В следующем разделе будут рассмотрены разные подходы к обеспечению бесперебойного питания.

8.1.3.2.3. Резервные источники питания

Есть одно выражение, которое слышали все, кто имел дело с электричеством — отключение электричества. Отключение электричества означает полное отсутствие электропитания и может длиться от долей секунды до недель.

Так как длительности отключений могут быть настолько разными, необходимо подходить к задаче поиска резервного источника питания в зависимости от предполагаемой длительности.

ПодсказкаПодсказка
 

Чаще всего происходят отключения на несколько секунд, более длительные отключения случаются гораздо реже. Поэтом давайте сначала подумаем о защите от отключений в пределах нескольких минут, а затем перейдём к вариантам снижения угрозы более длительных отключений.

8.1.3.2.3.1. Обеспечение питания в течение нескольких секунд

Так как в основном отключения длятся не больше нескольких секунд, ваш резервный источник питания должен иметь две основные характеристики:

  • Очень короткое время переключения на резервный источник

  • Время автономной работы (время, в течение которого будет обеспечиваться резервное питание), измеряемое в секундах или минутах

Таким характеристикам соответствуют описанные выше мотор-генераторные установки и бесперебойные блоки питания. Крутящийся маховик в мотор-генераторной установке позволяет генератору производить электричество при отключениях питания на время порядка секунды. Такие установки обычно довольно велики и дороги, поэтому они могут подойти только для средних и больших центров данных.

Однако, другая технология — UPS — может помочь там, где мотор-генераторные установки неприемлемы. UPS также может помочь при более длительных отключениях.

8.1.3.2.3.2. Обеспечение питания в течение нескольких минут

UPS бывают самого разного размера — как небольшие, способные поддержать работу маломощного компьютера в течение пяти минут, так и очень мощные, энергии которых хватит всему центру данных на час или даже больше.

UPS состоит из следующих частей:

  • Переключателя питания, переключающего потребителей электричества с основного источника питания на резервный

  • Батареи, обеспечивающей резервное питание

  • Инвертора, преобразующего постоянный ток от батареи в переменный, который необходим для питания оборудования центра данных

Помимо того, что UPS могут иметь разный размер и мощность, они могут быть двух основных типов:

  • UPS с переключением включает инвертор для генерации тока только при отключении внешнего питания.

  • В UPS постоянного действия инвертор генерирует энергию постоянно, но при отключении основного источника питания инвертор начинает работать от батареи.

У каждого типа есть свои плюсы и минусы. UPS с переключением обычно стоят дешевле, так как их инвертор не предназначен для постоянной работы. Однако, поломка инвертора в таком UPS останется незамеченной (до следующего отключения).

UPS постоянного действия обычно выдают более чистое питание, в конце концов, они, по сути, питают ваш центр данных всё время.

Но какой бы тип UPS вы не выбрали, вы должны правильно подобрать мощность UPS для предполагаемой нагрузки (чтобы мощности UPS было достаточно для обеспечения необходимого напряжения и силы тока), и определить, как долго вы сможете питать ваш центр данных от батареи.

Чтобы выяснить это, вы должны сначала определить, какая нагрузка будет подключена к UPS. Для этого надо пересмотреть все устройства, и узнать, какую мощность они потребляют (обычно это написано возле шнура питания). Запишите вольты, ватты и/или амперы. Узнав все эти характеристики всех ваших устройств, вы должны преобразовать их в вольт-амперы (Volt-Amps, VA). Если у вас есть ватты, вы можете это использовать значение как VA; если же у вас есть амперы, умножьте их на вольты и получите VA. Сложив все значения VA, вы получите приблизительную мощность в VA, которую должен иметь UPS.

ЗамечаниеЗамечание
 

Строго говоря, такой подход к вычислению мощности не совсем верен, но, чтобы получить правильное значение VA, вам нужно знать коэффициент мощности каждого устройства, а эта информация предоставляется очень редко. В любом случае значения VA, полученные вами при таком подходе, рассчитаны на худший случай и оставляют большой запас мощности.

Время автономной работы должно зависеть больше от требований бизнеса, чем от технических вопросов — от какого рода отключений вы хотите защититься и сколько денег вы готовы на это потратить? Большинство организаций выбирают для себя время автономной работы меньше одного или максимум двух часов, так как за этим пределом резервные источники питания на батареях становятся очень дорогими.

8.1.3.2.3.3. Обеспечение питания в течение нескольких часов (и больше)

Если же время отключения измеряется днями, решение этой проблемы будет стоить ещё дороже. Справиться с проблемой длительных отключений электроэнергии могут только генераторы, приводимые в движение какими-либо двигателями — в основном, дизельными и газотурбинными.

ЗамечаниеЗамечание
 

Учтите, что генераторы, приводимые в движение двигателями, в процессе работы нужно регулярно дозаправлять. Вы должны знать расход топлива вашего двигателя при максимальной нагрузке и соответствующим образом запланировать доставку топлива.

Здесь у вас открываются широкие возможности, если, конечно, ваша организация имеет достаточные средства. Это та область, в которой выбрать лучшее решение для вашей организации вам должны помочь эксперты. Очень немногие системные администраторы обладают весьма специфическими знаниями, необходимыми для того, чтобы запланировать приобретение и развертывание таких генераторов электроэнергии.

ПодсказкаПодсказка
 

Вы можете взять портативные генераторы разной мощности в аренду, и, таким образом, с одной стороны, получить генератор электроэнергии, а с другой избежать затрат на его приобретение. Однако, учтите, что если чрезвычайная ситуация произойдёт неподалёку от вас, генераторы станут большим дефицитом и аренда будет стоить дорого.

8.1.3.2.4. Рассмотрение возможности длительных отключений

Если отключение электричества на пять минут — это больше, чем неудобство, для людей, оставшихся в офисе без света, что говорить об отключениях на час? На пять часов? На сутки? На неделю?

Проблема в том, что даже если ваш центр данных работает нормально, продолжительное отключение, рано или поздно, в некоторой степени отразится на работе вашей организации. Рассмотрите следующие вопросы:

  • Что произойдёт, если не будет питания для систем контроля окружающей среды в центре данных?

  • Что произойдёт, если не будет питания для систем контроля окружающей среды во всём здании?

  • Что произойдёт, если не будет электричества для питания рабочих станций, телефонной системы, освещения?

Суть в том, что ваша организация должна определить, при каких условиях продолжительное отключение придётся просто терпеть. Или, если это абсолютно неприемлемо, ваша организация должна предусмотреть возможность полностью автономной работы на собственном источнике питания в течение длительного времени, а значит, установить очень большие генераторы, необходимые для питания всего здания.

Конечно, предусмотрев всё даже на таком уровне, вы не сможете работать в вакууме. Скорее всего, то, что привело к длительному отключению питания, задело не только вашу организацию, и внешний мир начнёт оказывать своё влияние на способность вашей компании продолжать работу, даже если предположить, что ваши мощности неограниченны.

8.1.3.3. Отопление, вентиляция и кондиционирование

Системы отопления, вентиляции и кондиционирования (Heating, Ventilation, and Air Conditioning, HVAC), используемые в современных офисных зданиях, невероятно сложны. Обычно компьютеризированные, системы HVAC крайне важны для создания среды, необходимой для комфортной работы.

В центрах данных обычно используется дополнительные системы вентиляции, в основном, чтобы рассеять тепло, выделяемое множеством компьютеров и сопутствующим оборудованием. Отказы систем HVAC могут крайне негативно сказаться на работе центра данных. И учитывая их сложность и электромеханическую сущность, варианты отказа могут быть самыми разными, в частности:

  • Кондиционеры (особенно с большими вентиляторами, вращаемыми мощными электромоторами) могут выйти из строя в результате скачка, поломки подшипника, проблемы с ремнём/шкивом и т.д.

  • Воздухоохладители (часто называемые холодильными установками) могут выйти из строя из-за утечки хладагента или поломки мотора и/или компрессора.

Ремонт и обслуживание систем HVAC требует особых знаний, поэтому обычный системный администратор должен оставить это для экспертов. Если системный администратор и должен что-то делать, так это ежедневно (если не чаще) проверять, правильно ли работают системы HVAC, обслуживающие центр данных, и в процессе эксплуатации соблюдать инструкции производителя.

8.1.3.4. Погода и окружающая среда

Бывают некоторые погодные условия, которые могут создать проблемы для системного администратора:

  • Мокрый снег и лёд могут помещать сотрудникам попасть в центр данных, и даже могут закупорить воздухозаборник кондиционера, что приведёт к повышению температуры в центре данных именно тогда, когда никто не может добраться до него и исправить ситуацию.

  • Сильный ветер может нарушить подачу электроэнергии или другие коммуникации, а ураганный ветер — нанести вред самому знанию.

Проблемы могут возникать и при других погодных явлениях, хотя об этом не так хорошо известно. Например, слишком высокая температура может привести к увеличению энергопотребления охлаждающими системами, а это может повлечь за собой перегрузку подстанции и перепады или отключения электроэнергии.

Хотя на погоду вряд ли можно как-то повлиять, но если вы знаете, как она может отразиться на работе вашего центра данных, это поможет вам поддерживать работоспособность центра даже при плохой погоде.

8.1.4. Человеческий фактор

Говорят, что компьютеры действительно совершенны. Смысл этого заявления в том, что если вы копнёте достаточно глубоко, за каждой ошибкой компьютера вы найдёте вызвавшую её ошибку человека. В этом разделе исследуются наиболее распространённые типы ошибок человека и их последствия.

8.1.4.1. Ошибки конечных пользователей

Пользователи компьютера могут делать ошибки, приводящие к серьёзным последствиям. Однако так как обычно ошибки пользователя имеют место в непривилегированной среде, чаще всего они имеют локальный характер. Так как большинство пользователей взаимодействует с компьютером через одно или несколько приложений, именно в этих приложениях и происходит большая часть ошибок конечных пользователей.

8.1.4.1.1. Неправильное использование приложений

При неправильном использовании приложений могут возникать самые разные проблемы:

  • Случайная перезапись файлов

  • Ввод неверных данных в приложение

  • Непонятная система именования и организация файлов

  • Случайное удаление файлов

Этот список можно продолжить, но и это достаточно, чтобы понять смысл. Так как пользователи не имеют привилегий администраторов, их ошибки обычно ограничены их же собственными файлами. А значит, наилучшее решение будет двухсторонним:

  • Научите пользователей правильно использовать приложения и управлять своими файлами

  • Обеспечьте регулярное резервное копирование файлов пользователей и разработайте максимально удобную и быструю процедуру восстановления.

Это основные меры, позволяющие свести число ошибок пользователей к минимуму.

8.1.4.2. Ошибки службы техподдержки

Служба техподдержки занимается компьютерами организации на более низком уровне, чем конечные пользователи. Тогда как конечные пользователи обычно ориентированы на приложения, круг задач сотрудников техподдержки шире. Хотя сами задачи им диктуют другие, для выполнения некоторых задач должны использоваться системные утилиты, и это увеличивает потенциальную угрозу допущенной ошибки. Поэтому ошибки, которые может допустить сотрудник техподдержки, можно классифицировать в зависимости от выполнения этим сотрудником разработанных инструкций.

8.1.4.2.1. Невыполнение инструкций

Практически все действия, которые выполняют сотрудники техподдержки, должны быть документированы и сотрудники должны иметь соответствующие инструкции [3]. Однако бывает, что сотрудники техподдержки не следуют этим инструкции в точности. Тому может быть несколько причин:

  • В прошлом окружение изменилось, а в инструкциях это не было отражено. Теперь окружение меняется ещё раз, и инструкция, которую держит в голове сотрудник техподдержки, оказывается неправильной. И на этот раз, даже если это изменение нашло отражение в инструкциях (что маловероятно, с учётом того, что раньше этого не происходило), данный сотрудник не узнает об этом.

  • Окружение изменилось и никаких инструкций нет вообще. Это всё та же предыдущая ситуация, но ещё менее контролируемая.

  • Инструкции существуют и они правильны, но сотрудник техподдержки не желает (или не хочет) им следовать.

В зависимости от структуры управления вашей организации, возможно, большее, что вы можете сделать — выразить свою обеспокоенность его руководителю. В любом случае, лучший подход — быть готовым помочь в решении этой проблемы, насколько это возможно.

8.1.4.2.2. Ошибки, допущенные при выполнении инструкций

Даже если инструкции верны и сотрудник техподдержки старается их выполнять, он, тем не менее, может допустить ошибку. И если это происходит, возможно, причина в невнимательности (в этом случае следует привлечь руководство службы техподдержки).

Это также может быть просто случайная ошибка. В любом случае, лучшие инженеры техподдержки чувствуют, когда что-то не так, и обращаются за помощью. Всегда старайтесь добиться того, чтобы ваши инженеры службы техподдержки, заподозрив что-то неладное, немедленно обращались к соответствующим специалистам. И хотя чаще всего они имеют высокую квалификацию и могут решить многие проблемы самостоятельно, суть в том, что это не их работа. Если сотрудник техподдержки, желая сделать как лучше, усугубит проблему, это повредит его карьере и помешает вам быстро справиться с проблемой, которая изначально, возможно, была маленькой.

8.1.4.3. Ошибки системного администратора

В отличие от службы техподдержки, системные администраторы используют компьютеры организации для выполнения самых разные задач. И также, в отличие от инженеров техподдержки, задачи, которые выполняют системные администраторы, часто не регламентированы какими-либо инструкциями.

Поэтому иногда системные администраторы сами создают себе проблемы, допуская ошибки в своей работе. Исполняя свои обычные обязанности, системные администраторы имеют более чем достаточно прав доступа к компьютерам (не говоря о том, что они обладают привилегиями суперпользователей), чтобы по ошибке вывести их из строя.

Системные администраторы допускают ошибки либо при настройке систем, либо в процессе обслуживания.

8.1.4.3.1. Ошибки настройки

Системным администраторам часто приходится настраивать разные аспекты компьютерной системы. В частности, он может настраивать:

  • Электронную почту

  • Учётные записи пользователей

  • Сеть

  • Приложения

Это список можно продолжать и дальше. Сами задачи настройки сильно различаются: некоторые требуют редактирования текстового файла (с соблюдением одного из сотен разных синтаксисов файлов конфигурации), а другие — запуска специальной утилиты для настройки.

Тот факт, что они выполняются по-разному — всего лишь следствие того, что для выполнения разных задач настройки нужны разные знания. В частности, знания, требуемые для настройки почтового агента, совершенно отличаются от знаний, необходимых для настройки нового сетевого подключения.

С учётом всего этого, может быть даже удивительно, что на самом деле совершается так мало ошибок. В любом случае, настройка есть и будет очень непростой задачей для системных администраторов. Но можно ли сделать что-нибудь, чтобы предупредить ошибки в этом процессе?

8.1.4.3.1.1. Управление изменениями

Суть любого изменения конфигурации состоит в том, что выполняется какое-то изменение. Это изменение может быть большим или маленьким. Но, тем не менее, изменение остаётся изменением и требует соответствующего подхода.

Многие организации внедряют у себя некоторый процесс управления изменениями. Цель этого — помочь системным администраторам (и всем, кого затрагивает это изменение) управлять процессом изменений и защитить вашу организацию от ошибок, которые могут произойти.

Процесс управляемого изменения обычно разбивается на отдельные этапы. Например:

Предварительное исследование

В ходе предварительного исследования предпринимается попытка чётко определить:

  • Суть планируемого изменения

  • Влияние изменения в случае успешного выполнения

  • Точка возврата при неудачном изменении

  • Оценка вариантов возможных неудач

Предварительное исследование может включать проверку предполагаемого изменения во время запланированного отключения, или даже реализацию изменения сначала в тестовой среде на выделенном тестовом оборудовании.

Составление расписания

Изменение рассматривается с точки зрения механизма реализации. Процедура составления расписания включает определение последовательности и временных параметров этапов изменения (а также последовательности и временных параметров этапов возврата в исходное состояние в случае возникновения проблем), а также проверку, достаточно ли будет времени, выделенного для обновления, и не планируется ли на это время других операций на уровне системы.

Результатом этой процедуры часто является контрольный список операций, которому должен следовать системный администратор при выполнении изменения. Каждой операции должны соответствовать инструкции, которые следует выполнять для отката изменения при неудачном выполнении данного операции. Часто также рассчитывается ожидаемое время операций, благодаря чему системному администратору легче определить, идёт ли работа по расписанию или нет.

Выполнение

На этом этапе сам процесс выполнения операций, необходимых для реализации изменения, должен быть простым и ровным. Изменение либо реализуется, либо откатывается (если происходит проблема).

Контроль

Вне зависимости от того, было реализовано изменение или нет, выполняется контроль окружения с целью проверки, что всё работает, как и должно.

Документирование

Если изменения были реализованы, вся существующая документация приводится в соответствие с изменённой конфигурацией.

Очевидно, не все изменения конфигурации требуют такого тщательного подхода. Для создания новой учётной записи пользователя не нужно предварительное исследование, а составление расписания, скорее всего, сведётся к выбору системным администратором свободной минутки в своём графике. Выполнение также будет быстрым, контроль может включать проверку того, что учётная запись готова к использованию, а документирование, возможно, будет подразумевать отправку почтового сообщения начальнику нового пользователя.

Но если изменение конфигурации более сложное, может потребоваться более формальный процесс управления изменением.

8.1.4.3.2. Ошибки, допущенные при обслуживании

Такого рода ошибки могут быть весьма неожиданными, потому что действия, выполняемые в процессе повседневного обслуживания, обычно планируются и отслеживаются менее тщательно.

Системные администраторы видят результаты ошибок такого рода каждый день, особенно часто они происходят по вине многочисленных пользователей, которые клянутся, что ничего не меняли — компьютер сломался сам. Пользователи, которые говорят так, обычно не помнят, что они делали, да и если бы то же самое случилось с вами, вы тоже могли бы не вспомнить.

Главное, чтобы вы могли вспомнить, что вы меняли в процессе обслуживания, если вам понадобится быстро решить какие-либо проблемы. Конечно, реализовать в полном объёме управление изменениями для сотен маленьких дел, которые вы делаете в течении дня — нереально. Но что же можно сделать, чтобы как-то контролировать 101 маленькое дело, которое делает системный администратор каждый день?

Ответ прост — делать заметки. Делайте заметки в бумажном блокноте, КПК или оставляйте комментарии в затрагиваемых файлах. Если вы записываете, что вы сделали, вам будет намного легче определить, что возникшая проблема связана с недавно внесённым изменением.

8.1.4.4. Ошибки технических специалистов

Иногда именно те люди, которые призваны помогать вам обеспечивать надёжную работу ваших систем, на самом деле только усугубляют ситуацию. И дело тут не в сговоре против вас, просто все, кто имеет дело с какой-либо техникой, так или иначе могут вывести её из строя. Тот же эффект наблюдается, когда программисты, исправляя одну проблему, создают другую.

8.1.4.4.1. Плохо отремонтированное оборудование

В данном случае техник либо не смог правильно диагностировать проблему и произвёл ненужный (и бесполезный) ремонт, или диагноз был правильным, но ремонт был сделан некачественно. Может быть, заменённая деталь сама по себе была бракованной, или во время ремонта не были соблюдены какие-то требования.

Вот почему всегда важно знать, что именно делает техник. Если вы контролируете его работу, вы сможете отследить проблемы, которые каким-то образом могут быть связаны с первоначальной. Это позволит держать техника в курсе в случае проблемы, в противном случае, он просто может расценить новую проблему как совершенно новую и несвязанную с той, что он считает исправленной. И таким образом, вам не придётся тратить время на решение ложной проблемы.

8.1.4.4.2. Исправление одной проблемы и создание новой

Иногда, даже при правильной диагностике и исправлении проблемы, на её месте возникает новая. Например, был заменён модуль процессора, но внутри была забыта антистатическая упаковка, которая заблокировала вентилятор, что привело к перегреву и отключению. Или в RAID-массиве был заменён отказавший диск, но из-за того, что при замене отошёл коннектор от другого диска, массив так и не запустился.

Это может произойти в результате хронической рассеянности или откровенной ошибки. Но причина не важна. Важно, чтобы вы всегда внимательно следили за тем, что делает техник, и проверяли, правильно ли всё работает, прежде чем его отпустить.

Замечания

[1]

И это время следует расценивать как наилучшее, так как технические специалисты обычно обслуживают район, простирающийся вокруг их офиса во всех направлениях. И если вы находитесь в одном конце этого района, а единственный доступный специалист — в другом, время реакции будет ещё больше.

[2]

Технология UPS обсуждается более подробно в разделе 8.1.3.2.3.2 Обеспечение питания в течение нескольких минут.

[3]

Если у специалистов техподдержки нет определённых инструкций, проведите работу с ними, вашим руководством и пользователями, чтобы такие инструкции были созданы. Без них ваш центр управления становится не контролируемым, и, скорее всего, в повседневной работе возникнут разного рода проблемы.