topics:29:fmea
Различия
Показаны различия между двумя версиями страницы.
| Следующая версия | Предыдущая версия | ||
| topics:29:fmea [2025/11/25 18:05] – создано admin | topics:29:fmea [2025/11/25 18:20] (текущий) – [Марковские модели] admin | ||
|---|---|---|---|
| Строка 2: | Строка 2: | ||
| <WRAP box round> | <WRAP box round> | ||
| - | Раздел описывает методологию анализа отказов инженерных систем ЦОД: определение нежелательных событий (UE), функциональный и дисфункциональный анализ, | + | Раздел описывает методологию анализа отказов инженерных систем ЦОД: определение нежелательных событий (UE), функциональный и дисфункциональный анализ, |
| </ | </ | ||
| ===== Общая методология анализа надёжности ====== | ===== Общая методология анализа надёжности ====== | ||
| - | |||
| - | Основная последовательность анализа представлена на схеме: | ||
| <WRAP info> | <WRAP info> | ||
| - | * Определение «нежелательных событий» (UE). | + | Основная |
| - | * Установка целевых показателей надёжности/готовности для каждого UE. | + | * определить перечень |
| - | * Функциональный анализ системы. | + | * задать целевые показатели надёжности |
| - | * Сбор данных по отказам и техническому обслуживанию. | + | * выполнить функциональный анализ системы; |
| - | * Дисфункциональный анализ. | + | * собрать |
| - | * Оценка риска и выявление слабых мест. | + | * провести дисфункциональный анализ |
| - | * Модификация проектных | + | * оценить |
| + | * при необходимости скорректировать архитектуру и режимы эксплуатации. | ||
| </ | </ | ||
| Строка 23: | Строка 22: | ||
| ===== Предварительный анализ риска (UE) ====== | ===== Предварительный анализ риска (UE) ====== | ||
| - | UE определяется как | + | Нежелательное |
| - | Примеры: | + | Примеры |
| - | <WRAP info> | + | |
| - | UE1: «Потеря функции F1 более чем на …» | + | |
| - | UE2: «Потеря функции F1 более чем на …» | + | |
| - | UE3: «Потеря функций F3 и F4 более чем на …» | + | |
| - | </ | + | |
| - | Для каждого UE устанавливается: | + | Для каждого UE задаются: |
| + | * допустимая среднегодовая частота возникновения; | ||
| + | * целевая среднегодовая недоступность; | ||
| + | * предельно допустимый уровень риска. | ||
| - | * частота допустимого возникновения (mean frequency); | + | Граф риска описывает зависимость: чем выше частота |
| - | * допустимая недоступность | + | |
| - | * предельный уровень риска. | + | |
| - | + | ||
| - | Граф риска определяется как зависимость | + | |
| - | + | ||
| - | <WRAP center> | + | |
| - | **Цель** — обеспечить попадание UE в «приемлемую» | + | |
| - | </ | + | |
| ===== Описание архитектуры системы ====== | ===== Описание архитектуры системы ====== | ||
| - | Собираются | + | Для анализа собираются: |
| + | * топология основных систем и щитов; | ||
| + | * схемы | ||
| + | * схемы вспомогательных систем (ДГУ, АВР, топливо, | ||
| + | * компоновка оборудования и трасс; | ||
| + | * режимы работы и сценарии эксплуатации. | ||
| - | * топология основных инженерных систем; | ||
| - | * схемы автоматики и релейной защиты; | ||
| - | * схемы вспомогательных систем (ATS, топливоснабжение ДГУ, охлаждение); | ||
| - | * компоновка оборудования; | ||
| - | * алгоритмы управления и режимы эксплуатации. | ||
| + | ===== Функциональный анализ ====== | ||
| - | ===== Функциональный | + | Цель — понять, |
| - | Цель: понять, | + | Фиксируются: |
| + | * функции | ||
| + | * последовательность действий автоматики; | ||
| + | * действия защит и блокировок; | ||
| + | * реакции обслуживающего персонала; | ||
| + | * поведение системы после аварийных событий (в том числе блэкаутов). | ||
| - | Характеризуются: | ||
| - | * режимы работы; | + | ===== Сбор данных по надёжности и обслуживанию ====== |
| - | * действия | + | |
| - | * действия защиты; | + | |
| - | * реакции оператора; | + | |
| - | * возможные переходные режимы; | + | |
| - | * поведение после аварий/ | + | |
| + | Таблица данных надёжности и ТО для оборудования: | ||
| - | ===== Сбор данных надёжности ====== | + | ^ Оборудование ^ Источник данных |
| - | + | | Компонент | |
| - | Таблица собирает три типа | + | | Компонент |
| - | + | | … | … | … | … | … | … | … | … | … | … | … | … | … | | |
| - | ^ Оборудование ^ Источник надёжности ^ λ (1/ч) ^ Режимы отказов ^ Вклад (%) ^ t_обнаружения (ч) ^ t_диагностики (ч) ^ t_поставка ЗИП (ч) ^ t_ремонта (ч) ^ Особенности | + | |
| - | | Component | + | |
| - | | Component | + | |
| ===== Поведение системы после отказа ====== | ===== Поведение системы после отказа ====== | ||
| - | Этапы: | + | Последовательность после отказа включает: |
| + | * непосредственные последствия (отключение нагрузки, | ||
| + | * обнаружение отказа (оператор, | ||
| + | * диагностику причины; | ||
| + | * поставку и замену неисправных элементов; | ||
| + | * реактивацию и возврат системы в нормальный режим. | ||
| - | * событие → отказ; | + | Эти этапы определяют фактическое |
| - | * последствия (аварийная автоматика, отключения, | + | |
| - | * обнаружение; | + | |
| - | * диагностика; | + | |
| - | * ремонт и восстановление; | + | |
| - | * реактивация и возврат к нормальному состоянию. | + | |
| - | Используются данные о: | ||
| - | * автоматике технологического процесса; | + | ===== Дисфункциональный анализ ====== |
| - | * защитах; | + | |
| - | * системе мониторинга; | + | |
| - | * поведении дежурного персонала. | + | |
| + | Дисфункциональный анализ описывает влияние каждого отказа на систему. | ||
| - | ===== Дисфункциональный анализ | + | Основные шаги: |
| + | * сформировать последовательность событий для каждого отказа компонента; | ||
| + | * описать реакции автоматики, | ||
| + | * определить, | ||
| + | * посчитать для каждого UE: | ||
| + | * среднюю частоту возникновения; | ||
| + | * среднюю недоступность; | ||
| + | * вклад основных последовательностей отказов. | ||
| - | Цель | + | Результаты по UE удобно представлять в виде таблиц с указанием вклада главных последовательностей отказов в общую частоту и недоступность. |
| - | Шаги: | ||
| - | 1. Построение последовательности отказа. | + | ===== Анализ |
| - | 2. Определение действий системы до момента восстановления. | + | |
| - | 3. Проверка, | + | |
| - | 4. Вычисление индексов надёжности для каждого UE. | + | |
| - | 5. Оценка вклада отказов в общую частоту UE. | + | |
| - | <WRAP info> | + | FMEA (Failure Modes and Effects Analysis) — анализ |
| - | Результаты фиксируются в таблицах UE с указанием вкладов основных | + | |
| - | </ | + | |
| + | FMECA (Failure Modes, Effects and Criticality Analysis) — расширение FMEA с оценкой критичности отказов. | ||
| - | ===== Методы FMEA и FMECA ====== | + | Для каждого режима отказа |
| + | * частота возникновения (ранг частоты); | ||
| + | * возможность обнаружения до наступления последствий; | ||
| + | * тяжесть последствий для системы. | ||
| - | ==== FMEA ==== | + | Уровень критичности |
| - | Анализ последствий отказов для | + | |
| - | + | ||
| - | ==== FMECA ==== | + | |
| - | Расширение FMEA с оценкой критичности: | + | |
| <WRAP center> | <WRAP center> | ||
| - | Критичность = Frequency | + | Критичность = Частота |
| </ | </ | ||
| - | Для | + | Критичность используется как интегральный показатель риска для ранжирования отказов. |
| - | ^ Ранг ^ Частота (пример) ^ | ||
| - | | 1 | <1e−9 /ч (Improbable) | | ||
| - | | 5 | <1e−5 /ч (Frequent) | | ||
| - | ^ Ранг ^ Обнаружение ^ | + | ===== Матрица приемлемости риска ====== |
| - | | 1 | Почти точно обнаруживается | | + | |
| - | | 5 | Не обнаруживается | | + | |
| - | ^ Ранг ^ Тяжесть последствий ^ | + | Пример русифицированной матрицы: |
| - | | 1 | Незначительно | | + | |
| - | | 9 | Катастрофически (опасность жизни / потеря функции) | | + | |
| - | Результат — приоритизация | + | ^ Частота последствий отказа \ Тяжесть последствий ^ Незначительно ^ Малозначительно ^ Существенно ^ Критично ^ |
| - | + | | Часто | Неприемлемо | Неприемлемо | |
| - | + | | Вероятно | |
| - | ===== Матрица приемлемости риска ====== | + | | Периодически |
| - | + | | Редко | |
| - | ^ Severity \ Frequency ^ Insignificant ^ Marginal ^ Critical ^ Catastrophic ^ | + | | Маловероятно |
| - | | Frequent | Undesirable | Intolerable | Intolerable | Intolerable | + | |
| - | | Probable | + | |
| - | | Occasional | + | |
| - | | Remote | + | |
| - | | Improbable | + | |
| ===== Анализ последовательностей отказов ====== | ===== Анализ последовательностей отказов ====== | ||
| - | Описываются: | + | Рассматриваются: |
| + | * одиночные | ||
| + | * двойные последовательности (два отказа в заданном порядке); | ||
| + | * множественные комбинации. | ||
| - | * одиночные последовательности отказов; | + | Число возможных последовательностей быстро растёт с количеством компонентов и режимов |
| - | * двойные отказовые последовательности; | + | |
| - | * множественные комбинации. | + | |
| - | Количество последовательностей при n элементах и p режимах отказов: | ||
| - | <WRAP center> | + | ===== Reliability Block Diagram |
| - | n × p — единичные | + | |
| - | 2^(n×p) — двойные | + | |
| - | 3^(n×p) — тройные | + | |
| - | </ | + | |
| - | На практике применяются специализированные | + | RBD описывает структуру системы в терминах последовательного |
| - | + | Простейший пример: | |
| - | ===== Reliability Block Diagram (RBD) ====== | + | |
| - | + | ||
| - | Принцип: | + | |
| < | < | ||
| - | flowchart | + | graph LR; |
| - | A[Component | + | A(" |
| - | B --> C[Component | + | B --> C(" |
| </ | </ | ||
| - | Используется | + | Для каждого блока |
| - | Инструмент автоматически: | ||
| - | * рассчитывает вероятность UE; | + | ===== Fault Tree Analysis (FTA) ====== |
| - | * строит минимальные срезы отказов; | + | |
| - | * вычисляет частоты. | + | |
| + | Дерево отказов описывает, | ||
| - | ===== Fault Tree Analysis (FTA) ====== | + | Упрощённый пример: |
| < | < | ||
| - | flowchart | + | graph TB; |
| - | UE([Unexpected Event]) | + | UE(" |
| - | UE --> OR1{{OR}} | + | |
| - | OR1 --> | + | AND1{" |
| - | OR1 --> AND1{{AND}} | + | |
| - | AND1 --> | + | OR1 --> |
| - | AND1 --> | + | OR1 --> AND1; |
| + | AND1 --> | ||
| + | AND1 --> | ||
| </ | </ | ||
| - | Используются логические элементы AND/ | + | Результат |
| - | + | * вероятность UE; | |
| - | Результаты: | + | * частота UE; |
| - | + | * минимальные срезы | |
| - | * вероятность UE; | + | |
| - | * частота UE; | + | |
| - | * вероятности | + | |
| ===== Event Tree Analysis (ETA) ====== | ===== Event Tree Analysis (ETA) ====== | ||
| - | Индуктивный метод, где проверяется, приводит ли последовательность реакций системы | + | Дерево событий описывает развитие процесса после инициирующего события (отказа или внешнего воздействия) с учётом |
| - | <WRAP info> | + | В отличие от FTA, ETA идёт «вперёд» от события к последствиям и позволяет |
| - | Отличие от FTA: анализируется прогрессия событий вперёд, а не причины назад. | + | |
| - | </ | + | |
| ===== Марковские модели ====== | ===== Марковские модели ====== | ||
| - | Система представляется | + | Система представляется |
| - | Пример: | + | Пример |
| < | < | ||
| - | flowchart | + | graph LR; |
| - | A((S1<br>C1 run, C2 run)) -- λ1 --> | + | S1(("S1: C1 и C2 работают" |
| - | B -- μ1 --> | + | S2((" |
| - | A -- λ2 --> | + | S3((" |
| - | C -- μ2 --> | + | S4((" |
| - | B -- λ2 --> | + | |
| - | C -- λ1 --> | + | S1 -- "λ1" |
| + | | ||
| + | |||
| + | S1 -- "λ2" | ||
| + | | ||
| + | |||
| + | S2 -- "λ2" | ||
| + | S3 -- " | ||
| + | |||
| + | S4 -- "λ1" | ||
| + | S3 -- " | ||
| </ | </ | ||
| - | Матрица переходов A определяет вероятности переходов между состояниями. | ||
| + | По графу Маркова можно получить: | ||
| + | * стационарные вероятности состояний; | ||
| + | * среднюю частоту перехода в неработоспособные состояния; | ||
| + | * показатели готовности системы. | ||
| - | ===== Стохастическая симуляция ====== | ||
| - | Алгоритм: | + | ===== Стохастическая имитация во времени ====== |
| - | <WRAP info> | + | Альтернатива аналитическим моделям — имитационное моделирование поведения системы. |
| - | 1. Начальное состояние | + | |
| - | 2. Генерация первого отказа | + | |
| - | 3. Обновление состояния компонентов | + | |
| - | 4. Анализ системы | + | |
| - | 5. Расчёт | + | |
| - | 6. Следующее событие | + | |
| - | 7. Следующая симуляция | + | |
| - | 8. Статистическая оценка частоты и вероятности UE | + | |
| - | </ | + | |
| - | Используется при сложных топологиях, когда: | + | Упрощённый алгоритм: |
| + | * задать начальное состояние системы; | ||
| + | * сгенерировать время до следующего события (отказа или восстановления) по заданному закону | ||
| + | * обновить состояние компонентов; | ||
| + | * выполнить функциональный и дисфункциональный анализ для нового состояния; | ||
| + | * пересчитать показатели (частоты, недоступность UE); | ||
| + | * повторить процедуры для большого числа реализаций; | ||
| + | * по статистике оценить частоты и вероятности UE. | ||
| - | * много состояний; | + | Метод особенно |
| - | * неоднородные процессы отказов; | + | |
| - | * сложная логика автоматики и реакций системы. | + | |
| - | ===== Преимущества и ограничения методов ====== | + | ===== Сравнение методов |
| - | ^ Метод ^ Преимущества ^ Ограничения ^ | + | ^ Метод ^ Основные достоинства ^ Основные ограничения ^ |
| - | | FMEA | Простота, ясность | Нет многократных комбинаций отказов | | + | | FMEA | Простой, хорошо читается, подходит для оборудования | Не учитывает |
| - | | FMECA | Приоритизация критичности | Требует | + | | FMECA | Даёт количественную оценку |
| - | | ETA | Выявление сценариев развития | Не показывает причины | | + | | ETA (дерево событий) | Показывает |
| - | | FTA | Чёткие | + | | FTA (дерево отказов) |
| - | | RBD | Хорошо для резервирования | Неприменимо к логике автоматики | | + | | RBD | Наглядно показывает |
| - | | Марков | Математическая | + | | Марковская модель |
| - | | Симуляция | Реалистичность | Требует вычислительных ресурсов | | + | | Стохастическая имитация | Позволяет моделировать реалистичные сценарии и сложную логику |
| Строка 278: | Строка 249: | ||
| <WRAP tip> | <WRAP tip> | ||
| - | * Анализ | + | |
| - | * Функциональный и дисфункциональный анализ | + | * Функциональный и дисфункциональный анализ |
| - | * FMECA даёт приоритеты отказов; ETA и FTA формируют сценарии; RBD описывает структуру | + | * FMECA помогает расставить |
| - | * Марковские модели полезны при наличии множества состояний, симуляции — при сложной | + | * Марковские модели |
| - | * Для ЦОД критичны автоматизация, быстрота восстановления и анализ редких событий, влияющих на SLA. | + | * Для |
| </ | </ | ||
topics/29/fmea.1764093907.txt.gz · Последнее изменение: — admin
