Содержание

Применение инженерии надёжности к инфраструктуре ЦОД

Раздел описывает методологию оценки надёжности инженерной инфраструктуры ЦОД, задачи анализа отказов, подходы к оптимизации архитектуры и порядок использования результатов на всех стадиях жизненного цикла объекта.

Цели и назначение инженерии надёжности

Инженерия надёжности предназначена для:

Основная цель — достижение требуемой частоты отказов инфраструктуры (обычно ниже 0,001 отказа/год) при минимально необходимом уровне резервирования.

Основные трудности при проектировании надёжного ЦОД

Роль оценки надёжности в проектировании

Оценка надёжности используется:

Она позволяет:

Сравнение методов анализа отказов

Условные обозначения уровней применимости: ++ высокая, + средняя, − низкая, — не применяется.

Метод Время создания модели Подходит для больших систем Точность результата Идентификация слабых мест Понимание логики Применимость ПО Краткое описание
Упрощённая FMECA ++ ++ ++ ++ Быстрая оценка на ранних стадиях, идентификация одиночных отказов
Полная FMECA + + + ++ ++ ++ Детальный анализ всех режимов отказов
Дерево отказов (FTA) + ++ ++ + + Логические комбинации отказов, поиск корневых причин
Дерево событий (ETA) ++ ++ ++ ++ ++ Прослеживание сценариев развития событий
Марковские модели ++ ++ Точные вероятностные модели с состояниями и переходами
Стохастическая симуляция ++ ++ Статистическое моделирование сложных систем

Пример применения оценки надёжности

В ходе базового проектирования сравниваются несколько вариантов архитектуры:

Каждый вариант анализируется на предмет:

На каждом шаге проектной итерации weak points меняются — оценка надёжности обязательна на каждом изменении архитектуры.

Функциональная модель ЦОД

Функции инфраструктуры ЦОД включают:

Нежелательные события (UE):

Декомпозиция UE1 (потеря ИТ-процесса)

Категории:

Целевые показатели:

$$R(t) = e^{-\lambda t}$$

Сбор данных для оценки надёжности

Основные категории данных:

1. Технические данные

2. Анализ режимов работы

3. Надёжность оборудования

Источники:

4. Техническое обслуживание

Недостаток данных компенсируется допущениями — их необходимо фиксировать в отчёте и подтверждать испытаниями.

Управление надёжностью на стадиях жизненного цикла

Предпроектная стадия

Базовый проект

Детальный проект

Производство и ПНР

Эксплуатация

Надёжность деградирует, если разные системы проектируются независимыми подрядчиками и не проводится единая сквозная проверка межсистемных взаимодействий.

Классификация Tier и её связь с надёжностью

Преимущества Tier

  • Понятная и распространённая классификация.
  • Быстрая проверка уровня резервирования.
  • Охват всех основных инженерных подсистем.

Ограничения Tier

  • Пессимизм в отношении utility вызывает лишнее резервирование.
  • Большой разрыв между Tier III и Tier IV.
  • Не учитываются деградированные режимы.
  • Не учитываются особенности отказов отдельных компонентов.
  • Не включает аспекты обслуживания оборудования.

Ключевые идеи

  • Надёжность ЦОД — количественный инструмент оптимизации архитектуры.
  • Основное назначение — обеспечить непрерывность ИТ-процесса при минимально достаточном резервировании.
  • FMECA, FTA, ETA и стохастические подходы применяются в зависимости от сложности системы и цели анализа.
  • Надёжность должна проверяться при каждом значимом изменении архитектуры.
  • Недостающие данные допускаются, но обязаны быть компенсированы испытаниями и проверками.
  • Tier — вспомогательный инструмент, но не заменяет полноценную инженерию надёжности.