Различия

Показаны различия между двумя версиями страницы.

--- topics:29:fmea [2025/11/25 18:05] – создано admin
+++ topics:29:fmea [2025/11/25 18:20] (текущий) – [Марковские модели] admin
@@ Строка 2: / Строка 2: @@
 <WRAP box round>
-Раздел описывает методологию анализа отказов инженерных систем ЦОД: определение нежелательных событий (UE), функциональный и дисфункциональный анализ, оценку частоты и тяжести отказов, применение FMECA/FMEA, построение деревьев событий/отказов, модели Маркова и стохастическую симуляцию.
+Раздел описывает методологию анализа отказов инженерных систем ЦОД: определение нежелательных событий (UE), функциональный и дисфункциональный анализ, оценку частоты и тяжести последствий, применение FMECA/FMEA, построение деревьев событий и отказов, модели Маркова и стохастическую имитацию.
 </WRAP>
 ===== Общая методология анализа надёжности ======
-Основная последовательность анализа представлена на схеме:
 <WRAP info>
-* Определение «нежелательных событий» (UE).
+Основная последовательность работ:
-* Установка целевых показателей надёжности/готовности для каждого UE.
+  * определить перечень «нежелательных событий» (UE) для системы;
-* Функциональный анализ системы.
+  * задать целевые показатели надёжности и готовности для каждого UE;
-* Сбор данных по отказам и техническому обслуживанию.
+  * выполнить функциональный анализ системы;
-* Дисфункциональный анализ.
+  * собрать данные по отказам и техническому обслуживанию оборудования;
-* Оценка риска и выявление слабых мест.
+  * провести дисфункциональный анализ (последствия отказов);
-* Модификация проектных решений при необходимости.
+  * оценить риск и выявить слабые места;
+  * при необходимости скорректировать архитектуру и режимы эксплуатации.
 </WRAP>
@@ Строка 23: / Строка 22: @@
 ===== Предварительный анализ риска (UE) ======
-UE определяется как утрата одной или нескольких функций системы на определённое время.
+Нежелательное событие (UE) — это утрата одной или нескольких функций системы на заданное время.
-Примеры:
+Примеры формулировок:
-<WRAP info>
+  * UE1: «Потеря функции F1 более чем на …»;
-UE1: «Потеря функции F1 более чем на …»
+  * UE2: «Потеря функции F1 более чем на …»;
-UE2: «Потеря функции F1 более чем на …»
+  * UE3: «Потеря функций F3 и F4 более чем на …».
-UE3: «Потеря функций F3 и F4 более чем на …»
-</WRAP>
-Для каждого UE устанавливается:
+Для каждого UE задаются:
+  * допустимая среднегодовая частота возникновения;
+  * целевая среднегодовая недоступность;
+  * предельно допустимый уровень риска.
-* частота допустимого возникновения (mean frequency);
+Граф риска описывает зависимость: чем выше частота UE и чем тяжелее последствия, тем меньше область приемлемого риска.
-* допустимая недоступность (unavailability);
-* предельный уровень риска.
-Граф риска определяется как зависимость тяжести UE от его частоты:
-<WRAP center>
-**Цель** — обеспечить попадание UE в «приемлемую» область.
-</WRAP>
 ===== Описание архитектуры системы ======
-Собираются данные:
+Для анализа собираются:
+  * топология основных систем и щитов;
+  * схемы автоматики и защит;
+  * схемы вспомогательных систем (ДГУ, АВР, топливо, охлаждение и т.п.);
+  * компоновка оборудования и трасс;
+  * режимы работы и сценарии эксплуатации.
-* топология основных инженерных систем;
-* схемы автоматики и релейной защиты;
-* схемы вспомогательных систем (ATS, топливоснабжение ДГУ, охлаждение);
-* компоновка оборудования;
-* алгоритмы управления и режимы эксплуатации.
+===== Функциональный анализ ======
-===== Функциональный анализ системы ======
+Цель — понять, как система должна работать в штатных и переходных режимах.
-Цель: понять, как система должна работать и какие функции выполняет.
+Фиксируются:
+  * функции каждой подсистемы;
+  * последовательность действий автоматики;
+  * действия защит и блокировок;
+  * реакции обслуживающего персонала;
+  * поведение системы после аварийных событий (в том числе блэкаутов).
-Характеризуются:
-* режимы работы;
+===== Сбор данных по надёжности и обслуживанию ======
-* действия автоматики;
-* действия защиты;
-* реакции оператора;
-* возможные переходные режимы;
-* поведение после аварий/блэкаута.
+Таблица данных надёжности и ТО для оборудования:
-===== Сбор данных надёжности ======
+^ Оборудование ^ Источник данных ^ Интенсивность отказов λ (1/ч) ^ Основные режимы отказа ^ Вклад в общую λ (%) ^ Время обнаружения (ч) ^ Время диагностики (ч) ^ Время поставки ЗИП (ч) ^ Время ремонта (ч) ^ Особенности обслуживания ^ Функции, недоступные при ТО ^ Частота ТО (1/год) ^ Длительность ТО (ч) ^
+| Компонент 1 | … | … | … | … | … | … | … | … | … | … | … | … |
-Таблица собирает три типа данных: надёжность, корректирующее ТО, профилактическое ТО.
+| Компонент 2 | … | … | … | … | … | … | … | … | … | … | … | … |
+| … | … | … | … | … | … | … | … | … | … | … | … | … |
-^ Оборудование ^ Источник надёжности ^ λ (1/ч) ^ Режимы отказов ^ Вклад (%) ^ t_обнаружения (ч) ^ t_диагностики (ч) ^ t_поставка ЗИП (ч) ^ t_ремонта (ч) ^ Особенности ТО ^ Недоступность ^ Частота ТО (1/год) ^ Длительность ТО (ч) ^
-| Component 1 | … | … | … | … | … | … | … | … | … | … | … | … |
-| Component 2 | … | … | … | … | … | … | … | … | … | … | … | … |
 ===== Поведение системы после отказа ======
-Этапы:
+Последовательность после отказа включает:
+  * непосредственные последствия (отключение нагрузки, срабатывание защиты, переход в деградированный режим);
+  * обнаружение отказа (оператор, мониторинг, регламентный обход);
+  * диагностику причины;
+  * поставку и замену неисправных элементов;
+  * реактивацию и возврат системы в нормальный режим.
-* событие → отказ;
+Эти этапы определяют фактическое среднее время простоя (MDT) и, как следствие, недоступность UE.
-* последствия (аварийная автоматика, отключения, переход системы в деградированный режим);
-* обнаружение;
-* диагностика;
-* ремонт и восстановление;
-* реактивация и возврат к нормальному состоянию.
-Используются данные о:
-* автоматике технологического процесса;
+===== Дисфункциональный анализ ======
-* защитах;
-* системе мониторинга;
-* поведении дежурного персонала.
+Дисфункциональный анализ описывает влияние каждого отказа на систему.
-===== Дисфункциональный анализ ======
+Основные шаги:
+  * сформировать последовательность событий для каждого отказа компонента;
+  * описать реакции автоматики, защит и персонала до момента восстановления;
+  * определить, приводит ли последовательность к одному из UE и какова длительность UE;
+  * посчитать для каждого UE:
+    * среднюю частоту возникновения;
+    * среднюю недоступность;
+    * вклад основных последовательностей отказов.
-Цель — описать последствия каждого отказа и его вклад в UE.
+Результаты по UE удобно представлять в виде таблиц с указанием вклада главных последовательностей отказов в общую частоту и недоступность.
-Шаги:
-. Построение последовательности отказа.
+===== Анализ FMEA и FMECA ======
-. Определение действий системы до момента восстановления.
-. Проверка, приводит ли последовательность к UE.
-. Вычисление индексов надёжности для каждого UE.
-. Оценка вклада отказов в общую частоту UE.
-<WRAP info>
+FMEA (Failure Modes and Effects Analysis) — анализ режимов и последствий отказов компонента.
-Результаты фиксируются в таблицах UE с указанием вкладов основных последовательностей.
-</WRAP>
+FMECA (Failure Modes, Effects and Criticality Analysis) — расширение FMEA с оценкой критичности отказов.
-===== Методы FMEA и FMECA ======
+Для каждого режима отказа оцениваются:
+  * частота возникновения (ранг частоты);
+  * возможность обнаружения до наступления последствий;
+  * тяжесть последствий для системы.
-==== FMEA ====
+Уровень критичности режима отказа определяется как:
-Анализ последствий отказов для отдельных компонентов.
-==== FMECA ====
-Расширение FMEA с оценкой критичности:
 <WRAP center>
-Критичность = Frequency × Detection × Gravity
+Критичность = Частота × Обнаруживаемость × Тяжесть
 </WRAP>
-Для расчёта используют:
+Критичность используется как интегральный показатель риска для ранжирования отказов.
-^ Ранг ^ Частота (пример) ^
-| 1 | <1e−9 /ч (Improbable) |
-| 5 | <1e−5 /ч (Frequent) |
-^ Ранг ^ Обнаружение ^
+===== Матрица приемлемости риска ======
-| 1 | Почти точно обнаруживается |
-| 5 | Не обнаруживается |
-^ Ранг ^ Тяжесть последствий ^
+Пример русифицированной матрицы:
-| 1 | Незначительно |
-| 9 | Катастрофически (опасность жизни / потеря функции) |
-Результат — приоритизация отказов и выделение критических узлов.
+^ Частота последствий отказа \ Тяжесть последствий ^ Незначительно ^ Малозначительно ^ Существенно ^ Критично ^
+| Часто | Неприемлемо | Неприемлемо | Неприемлемо | Неприемлемо |
+| Вероятно | Допустимо | Нежелательно | Неприемлемо | Неприемлемо |
-===== Матрица приемлемости риска ======
+| Периодически | Допустимо | Нежелательно | Нежелательно | Нежелательно |
+| Редко | Пренебрежимо | Допустимо | Нежелательно | Нежелательно |
-^ Severity \ Frequency ^ Insignificant ^ Marginal ^ Critical ^ Catastrophic ^
+| Маловероятно | Пренебрежимо | Пренебрежимо | Допустимо | Допустимо |
-| Frequent | Undesirable | Intolerable | Intolerable | Intolerable |
-| Probable | Tolerable | Undesirable | Intolerable | Intolerable |
-| Occasional | Tolerable | Undesirable | Undesirable | Undesirable |
-| Remote | Negligible | Tolerable | Undesirable | Undesirable |
-| Improbable | Negligible | Negligible | Tolerable | Tolerable |
 ===== Анализ последовательностей отказов ======
-Описываются:
+Рассматриваются:
+  * одиночные последовательности отказов (один отказ → цепочка действий системы);
+  * двойные последовательности (два отказа в заданном порядке);
+  * множественные комбинации.
-* одиночные последовательности отказов;
+Число возможных последовательностей быстро растёт с количеством компонентов и режимов отказов, поэтому используются специализированные инструменты для оценки надёжности.
-* двойные отказовые последовательности;
-* множественные комбинации.
-Количество последовательностей при n элементах и p режимах отказов:
-<WRAP center>
+===== Reliability Block Diagram (RBD) ======
-n × p — единичные
-^(n×p) — двойные
-^(n×p) — тройные
-</WRAP>
-На практике применяются специализированные инструменты.
+RBD описывает структуру системы в терминах последовательного и параллельного соединения блоков (резервирование).
+Простейший пример:
-===== Reliability Block Diagram (RBD) ======
-Принцип:
 <mermaid>
-flowchart LR
+graph LR;
-A[Component 1<br>MTTF/MTTR] --> B[Component 2<br>MTTF/MTTR]
+  A("Компонент 1") --> B("Компонент 2");
-B --> C[Component 3<br>MTTF/MTTR]
+  B --> C("Компонент 3");
 </mermaid>
-Используется для графического моделирования последовательностей отказов.
+Для каждого блока задаются показатели надёжности (например, MTTF и MTTR). По диаграмме рассчитываются вероятность и частота реализации UE, а также минимальные срезы отказов.
-Инструмент автоматически:
-* рассчитывает вероятность UE;
+===== Fault Tree Analysis (FTA) ======
-* строит минимальные срезы отказов;
-* вычисляет частоты.
+Дерево отказов описывает, какие комбинации элементарных отказов приводят к выбранному нежелательному событию.
-===== Fault Tree Analysis (FTA) ======
+Упрощённый пример:
 <mermaid>
-flowchart TB
+graph TB;
-UE([Unexpected Event])
+  UE("Нежелательное событие");
-UE --> OR1{{OR}}
+  OR1{"ИЛИ"};
-OR1 --> A[C1 failure]
+  AND1{"И"};
-OR1 --> AND1{{AND}}
+  UE --> OR1;
-AND1 --> B[C2 failure]
+  OR1 --> FM1("Отказ компонента 1");
-AND1 --> C[C3 failure]
+  OR1 --> AND1;
+  AND1 --> FM2("Отказ компонента 2");
+  AND1 --> FM3("Отказ компонента 3");
 </mermaid>
-Используются логические элементы AND/OR/Voting.
+Результат FTA:
+  * вероятность UE;
-Результаты:
+  * частота UE;
+  * минимальные срезы отказов (минимальные сочетания отказов, приводящие к UE).
-* вероятность UE;
-* частота UE;
-* вероятности минимальных срезов.
 ===== Event Tree Analysis (ETA) ======
-Индуктивный метод, где проверяется, приводит ли последовательность реакций системы к UE.
+Дерево событий описывает развитие процесса после инициирующего события (отказа или внешнего воздействия) с учётом последовательных действий системы и персонала.
-<WRAP info>
+В отличие от FTA, ETA идёт «вперёд» от события к последствиям и позволяет сравнивать вероятности разных исходов (успешное восстановление, деградированные режимы, критический отказ).
-Отличие от FTA: анализируется прогрессия событий вперёд, а не причины назад.
-</WRAP>
 ===== Марковские модели ======
-Система представляется в виде состояний с вероятностями перехода.
+Система представляется набором состояний, между которыми происходят случайные переходы с заданными интенсивностями.
-Пример:
+Пример для двух активных компонентов с независимыми отказами и восстановлением:
 <mermaid>
-flowchart LR
+graph LR;
-A((S1<br>C1 run, C2 run)) -- λ1 --> B((S2<br>C1 fail, C2 run))
+  S1(("S1: C1 и C2 работают"));
-B -- μ1 --> A
+  S2(("S2: отказ C1"));
-A -- λ2 --> C((S3<br>C1 run, C2 fail))
+  S3(("S3: отказ C1 и C2"));
-C -- μ2 --> A
+  S4(("S4: отказ C2"));
-B -- λ2 --> D((S4<br>C1 fail, C2 fail))
-C -- λ1 --> D
+  S1 -- "λ1" --> S2;
+  S2 -- "μ1" --> S1;
+  S1 -- "λ2" --> S4;
+  S4 -- "μ2" --> S1;
+  S2 -- "λ2" --> S3;
+  S3 -- "μ2" --> S2;
+  S4 -- "λ1" --> S3;
+  S3 -- "μ1" --> S4;
 </mermaid>
-Матрица переходов A определяет вероятности переходов между состояниями.
+По графу Маркова можно получить:
+  * стационарные вероятности состояний;
+  * среднюю частоту перехода в неработоспособные состояния;
+  * показатели готовности системы.
-===== Стохастическая симуляция ======
-Алгоритм:
+===== Стохастическая имитация во времени ======
-<WRAP info>
+Альтернатива аналитическим моделям — имитационное моделирование поведения системы.
-. Начальное состояние
-. Генерация первого отказа
-. Обновление состояния компонентов
-. Анализ системы
-. Расчёт индексов
-. Следующее событие
-. Следующая симуляция
-. Статистическая оценка частоты и вероятности UE
-</WRAP>
-Используется при сложных топологиях, когда:
+Упрощённый алгоритм:
+  * задать начальное состояние системы;
+  * сгенерировать время до следующего события (отказа или восстановления) по заданному закону распределения;
+  * обновить состояние компонентов;
+  * выполнить функциональный и дисфункциональный анализ для нового состояния;
+  * пересчитать показатели (частоты, недоступность UE);
+  * повторить процедуры для большого числа реализаций;
+  * по статистике оценить частоты и вероятности UE.
-* много состояний;
+Метод особенно полезен при сложной логике автоматики и большом числе состояний, где аналитические модели становятся громоздкими.
-* неоднородные процессы отказов;
-* сложная логика автоматики и реакций системы.
-===== Преимущества и ограничения методов ======
+===== Сравнение методов анализа ======
-^ Метод ^ Преимущества ^ Ограничения ^
+^ Метод ^ Основные достоинства ^ Основные ограничения ^
-| FMEA | Простота, ясность | Нет многократных комбинаций отказов |
+| FMEA | Простой, хорошо читается, подходит для оборудования | Не учитывает комбинации отказов, только одиночные |
-| FMECA | Приоритизация критичности | Требует таблиц рангов |
+| FMECA | Даёт количественную оценку критичности и приоритизацию | Требует согласованных шкал частоты, обнаружения и тяжести |
-| ETA | Выявление сценариев развития | Не показывает причины |
+| ETA (дерево событий) | Показывает развитие процесса после отказа и распределение исходов | Слабо показывает корневые причины |
-| FTA | Чёткие минимальные срезы | Сложно при большом числе элементов |
+| FTA (дерево отказов) | Даёт минимальные срезы отказов для выбранного UE | Становится сложным при большом числе элементов и логики |
-| RBD | Хорошо для резервирования | Неприменимо к логике автоматики |
+| RBD | Наглядно показывает резервирование и структурную надёжность | Не описывает логику автоматики и поведения персонала |
-| Марков | Математическая строгость | Взрыв числа состояний |
+| Марковская модель | Учитывает переходы между множеством состояний, хорошо для систем с ремонтом | Число состояний быстро растёт, модель тяжело интерпретировать |
-| Симуляция | Реалистичность | Требует вычислительных ресурсов |
+| Стохастическая имитация | Позволяет моделировать реалистичные сценарии и сложную логику | Требует вычислительных ресурсов и корректной постановки модели |
@@ Строка 278: / Строка 249: @@
 <WRAP tip>
-* Анализ отказов начинается с определения UE и целевых показателей риска.
+  * Анализ надёжности систем ЦОД начинается с определения перечня критичных UE и целевых значений частоты и недоступности.
-* Функциональный и дисфункциональный анализ — основа корректного моделирования.
+  * Функциональный и дисфункциональный анализ формируют основу для выбора подходящих методов (FMECA, FTA, ETA, RBD, Марков, имитация).
-* FMECA даёт приоритеты отказов; ETA и FTA формируют сценарии; RBD описывает структуру резервирования.
+  * FMECA помогает расставить приоритеты по оборудованию, FTA и ETA — понять сценарии причин и последствий, RBD — оценить эффективность резервирования.
-* Марковские модели полезны при наличии множества состояний, симуляции — при сложной логике.
+  * Марковские модели и имитация применяются для сложных комбинаций отказов и восстановления, когда простые схемы не дают адекватной точности.
-* Для ЦОД критичны автоматизация, быстрота восстановления и анализ редких событий, влияющих на SLA.
+  * Для практики ЦОД ключевыми драйверами риска являются редкие, но тяжёлые события, длительность восстановления (MDT) и ошибки в логике автоматики и действиях персонала.
 </WRAP>