Настройка интервала обнаружения сбоя

В этом разделе описывается как настроить параметры демона cluqourumd. Эти параметры определяют интервал времени, которое работающий узел кластера дает отказавшему узлу кластера, перед тем как заключить, что произошел сбой. После истечения этого интервала времени, работающий узел кластера произведет отключение/включение отказавшего узла (в зависимости от применяемого переключателя питания) и продолжит выполнение служб, до этого работающих на отказавшем узле.

Интервал времени, в течении которого происходит обнаружение сбоя, определяется следующими параметрами:

Таблица A-5. Параметры демона cluquorumd, задающие интервал обнаружения сбоя

НазваниеПо умолчанию (сек.)Описание
pingInterval2Частота, с которой демон cluquorumd обновляет информацию о своем состоянии на диске и получает состояние другого узла кластера.
sameTimeNetdown7Количество интервалов, которые должны пройти до того, как работающий узел кластера придёт к заключению об отказе другого узла, если пульсирующий демон cluhbd не сможет связаться с другим узлом кластера.
sameTimeNetup12Количество интервалов, которые должны пройти до того, как работающий узел кластера придёт к заключению об отказе другого узла, если пульсирующий демон cluhbd смог связаться с другим узлом кластера. Значение этого параметра должно быть больше значения параметра sameTimeNetdown.

Например, на одном кластерном узле произошел аппаратный сбой, который привел к прекращению его работы. В этом случае, оба демона cluquorumd и cluhbd согласятся с тем, что произошел отказ другого узла кластера. Через интервал времени, равный (pingInterval * sameTimeNetdown), (который по умолчанию равен 14 секундам), будет произведен перенос служб.

Для настройки этого интервала используется утилита cludb. Например, для определения интервала обнаружения сбоя равным 10 секундам, вместо установленных по умолчанию 14 секунд, значение параметра sameTimeNetdown следует установить равным 5 как показано ниже:

cludb -p cluquorumd%sameTimeNetdown 5

ЗамечаниеЗамечание
 

Вы должны изменять эти параметры с осторожностью. Если заданный интервал обнаружения окажется слишком мал, появляется риск заключения об отказе узла кластера в моменты его большой загрузки.

Также обратите внимания, если используется переключатель питания типа "сторожевой таймер", необходимо установить интервал обратного отсчета сторожевого таймера меньшим, чем интервал обнаружения сбоя. Рекомендуется устанавливать интервал обратного отсчета сторожевого таймера, равным примерно 2/3 интервала обнаружения сбоя.