====== Методы анализа отказов и их последствий ======

<WRAP box round>
Раздел описывает методологию анализа отказов инженерных систем ЦОД: определение нежелательных событий (UE), функциональный и дисфункциональный анализ, оценку частоты и тяжести последствий, применение FMECA/FMEA, построение деревьев событий и отказов, модели Маркова и стохастическую имитацию.
</WRAP>


===== Общая методология анализа надёжности ======

<WRAP info>
Основная последовательность работ:
  * определить перечень «нежелательных событий» (UE) для системы;
  * задать целевые показатели надёжности и готовности для каждого UE;
  * выполнить функциональный анализ системы;
  * собрать данные по отказам и техническому обслуживанию оборудования;
  * провести дисфункциональный анализ (последствия отказов);
  * оценить риск и выявить слабые места;
  * при необходимости скорректировать архитектуру и режимы эксплуатации.
</WRAP>


===== Предварительный анализ риска (UE) ======

Нежелательное событие (UE) — это утрата одной или нескольких функций системы на заданное время.

Примеры формулировок:
  * UE1: «Потеря функции F1 более чем на …»;
  * UE2: «Потеря функции F1 более чем на …»;
  * UE3: «Потеря функций F3 и F4 более чем на …».

Для каждого UE задаются:
  * допустимая среднегодовая частота возникновения;
  * целевая среднегодовая недоступность;
  * предельно допустимый уровень риска.

Граф риска описывает зависимость: чем выше частота UE и чем тяжелее последствия, тем меньше область приемлемого риска.


===== Описание архитектуры системы ======

Для анализа собираются:
  * топология основных систем и щитов;
  * схемы автоматики и защит;
  * схемы вспомогательных систем (ДГУ, АВР, топливо, охлаждение и т.п.);
  * компоновка оборудования и трасс;
  * режимы работы и сценарии эксплуатации.


===== Функциональный анализ ======

Цель — понять, как система должна работать в штатных и переходных режимах.

Фиксируются:
  * функции каждой подсистемы;
  * последовательность действий автоматики;
  * действия защит и блокировок;
  * реакции обслуживающего персонала;
  * поведение системы после аварийных событий (в том числе блэкаутов).


===== Сбор данных по надёжности и обслуживанию ======

Таблица данных надёжности и ТО для оборудования:

^ Оборудование ^ Источник данных ^ Интенсивность отказов λ (1/ч) ^ Основные режимы отказа ^ Вклад в общую λ (%) ^ Время обнаружения (ч) ^ Время диагностики (ч) ^ Время поставки ЗИП (ч) ^ Время ремонта (ч) ^ Особенности обслуживания ^ Функции, недоступные при ТО ^ Частота ТО (1/год) ^ Длительность ТО (ч) ^
| Компонент 1 | … | … | … | … | … | … | … | … | … | … | … | … |
| Компонент 2 | … | … | … | … | … | … | … | … | … | … | … | … |
| … | … | … | … | … | … | … | … | … | … | … | … | … |


===== Поведение системы после отказа ======

Последовательность после отказа включает:
  * непосредственные последствия (отключение нагрузки, срабатывание защиты, переход в деградированный режим);
  * обнаружение отказа (оператор, мониторинг, регламентный обход);
  * диагностику причины;
  * поставку и замену неисправных элементов;
  * реактивацию и возврат системы в нормальный режим.

Эти этапы определяют фактическое среднее время простоя (MDT) и, как следствие, недоступность UE.


===== Дисфункциональный анализ ======

Дисфункциональный анализ описывает влияние каждого отказа на систему.

Основные шаги:
  * сформировать последовательность событий для каждого отказа компонента;
  * описать реакции автоматики, защит и персонала до момента восстановления;
  * определить, приводит ли последовательность к одному из UE и какова длительность UE;
  * посчитать для каждого UE:
    * среднюю частоту возникновения;
    * среднюю недоступность;
    * вклад основных последовательностей отказов.

Результаты по UE удобно представлять в виде таблиц с указанием вклада главных последовательностей отказов в общую частоту и недоступность.


===== Анализ FMEA и FMECA ======

FMEA (Failure Modes and Effects Analysis) — анализ режимов и последствий отказов компонента.

FMECA (Failure Modes, Effects and Criticality Analysis) — расширение FMEA с оценкой критичности отказов.

Для каждого режима отказа оцениваются:
  * частота возникновения (ранг частоты);
  * возможность обнаружения до наступления последствий;
  * тяжесть последствий для системы.

Уровень критичности режима отказа определяется как:

<WRAP center>
Критичность = Частота × Обнаруживаемость × Тяжесть
</WRAP>

Критичность используется как интегральный показатель риска для ранжирования отказов.


===== Матрица приемлемости риска ======

Пример русифицированной матрицы:

^ Частота последствий отказа \ Тяжесть последствий ^ Незначительно ^ Малозначительно ^ Существенно ^ Критично ^
| Часто | Неприемлемо | Неприемлемо | Неприемлемо | Неприемлемо |
| Вероятно | Допустимо | Нежелательно | Неприемлемо | Неприемлемо |
| Периодически | Допустимо | Нежелательно | Нежелательно | Нежелательно |
| Редко | Пренебрежимо | Допустимо | Нежелательно | Нежелательно |
| Маловероятно | Пренебрежимо | Пренебрежимо | Допустимо | Допустимо |


===== Анализ последовательностей отказов ======

Рассматриваются:
  * одиночные последовательности отказов (один отказ → цепочка действий системы);
  * двойные последовательности (два отказа в заданном порядке);
  * множественные комбинации.

Число возможных последовательностей быстро растёт с количеством компонентов и режимов отказов, поэтому используются специализированные инструменты для оценки надёжности.


===== Reliability Block Diagram (RBD) ======

RBD описывает структуру системы в терминах последовательного и параллельного соединения блоков (резервирование).

Простейший пример:

<mermaid>
graph LR;
  A("Компонент 1") --> B("Компонент 2");
  B --> C("Компонент 3");
</mermaid>

Для каждого блока задаются показатели надёжности (например, MTTF и MTTR). По диаграмме рассчитываются вероятность и частота реализации UE, а также минимальные срезы отказов.


===== Fault Tree Analysis (FTA) ======

Дерево отказов описывает, какие комбинации элементарных отказов приводят к выбранному нежелательному событию.

Упрощённый пример:

<mermaid>
graph TB;
  UE("Нежелательное событие");
  OR1{"ИЛИ"};
  AND1{"И"};
  UE --> OR1;
  OR1 --> FM1("Отказ компонента 1");
  OR1 --> AND1;
  AND1 --> FM2("Отказ компонента 2");
  AND1 --> FM3("Отказ компонента 3");
</mermaid>

Результат FTA:
  * вероятность UE;
  * частота UE;
  * минимальные срезы отказов (минимальные сочетания отказов, приводящие к UE).


===== Event Tree Analysis (ETA) ======

Дерево событий описывает развитие процесса после инициирующего события (отказа или внешнего воздействия) с учётом последовательных действий системы и персонала.

В отличие от FTA, ETA идёт «вперёд» от события к последствиям и позволяет сравнивать вероятности разных исходов (успешное восстановление, деградированные режимы, критический отказ).


===== Марковские модели ======

Система представляется набором состояний, между которыми происходят случайные переходы с заданными интенсивностями.

Пример для двух активных компонентов с независимыми отказами и восстановлением:

<mermaid>
graph LR;
  S1(("S1: C1 и C2 работают"));
  S2(("S2: отказ C1"));
  S3(("S3: отказ C1 и C2"));
  S4(("S4: отказ C2"));

  S1 -- "λ1" --> S2;
  S2 -- "μ1" --> S1;

  S1 -- "λ2" --> S4;
  S4 -- "μ2" --> S1;

  S2 -- "λ2" --> S3;
  S3 -- "μ2" --> S2;

  S4 -- "λ1" --> S3;
  S3 -- "μ1" --> S4;
</mermaid>


По графу Маркова можно получить:
  * стационарные вероятности состояний;
  * среднюю частоту перехода в неработоспособные состояния;
  * показатели готовности системы.


===== Стохастическая имитация во времени ======

Альтернатива аналитическим моделям — имитационное моделирование поведения системы.

Упрощённый алгоритм:
  * задать начальное состояние системы;
  * сгенерировать время до следующего события (отказа или восстановления) по заданному закону распределения;
  * обновить состояние компонентов;
  * выполнить функциональный и дисфункциональный анализ для нового состояния;
  * пересчитать показатели (частоты, недоступность UE);
  * повторить процедуры для большого числа реализаций;
  * по статистике оценить частоты и вероятности UE.

Метод особенно полезен при сложной логике автоматики и большом числе состояний, где аналитические модели становятся громоздкими.


===== Сравнение методов анализа ======

^ Метод ^ Основные достоинства ^ Основные ограничения ^
| FMEA | Простой, хорошо читается, подходит для оборудования | Не учитывает комбинации отказов, только одиночные |
| FMECA | Даёт количественную оценку критичности и приоритизацию | Требует согласованных шкал частоты, обнаружения и тяжести |
| ETA (дерево событий) | Показывает развитие процесса после отказа и распределение исходов | Слабо показывает корневые причины |
| FTA (дерево отказов) | Даёт минимальные срезы отказов для выбранного UE | Становится сложным при большом числе элементов и логики |
| RBD | Наглядно показывает резервирование и структурную надёжность | Не описывает логику автоматики и поведения персонала |
| Марковская модель | Учитывает переходы между множеством состояний, хорошо для систем с ремонтом | Число состояний быстро растёт, модель тяжело интерпретировать |
| Стохастическая имитация | Позволяет моделировать реалистичные сценарии и сложную логику | Требует вычислительных ресурсов и корректной постановки модели |


===== Ключевые идеи =====

<WRAP tip>
  * Анализ надёжности систем ЦОД начинается с определения перечня критичных UE и целевых значений частоты и недоступности.  
  * Функциональный и дисфункциональный анализ формируют основу для выбора подходящих методов (FMECA, FTA, ETA, RBD, Марков, имитация).  
  * FMECA помогает расставить приоритеты по оборудованию, FTA и ETA — понять сценарии причин и последствий, RBD — оценить эффективность резервирования.  
  * Марковские модели и имитация применяются для сложных комбинаций отказов и восстановления, когда простые схемы не дают адекватной точности.  
  * Для практики ЦОД ключевыми драйверами риска являются редкие, но тяжёлые события, длительность восстановления (MDT) и ошибки в логике автоматики и действиях персонала.  
</WRAP>