Инструменты пользователя

Инструменты сайта


topics:29:theory

Это старая версия документа!


Основы и принципы теории надёжности

Раздел описывает ключевые понятия теории надёжности применительно к инженерным системам ЦОД: показатели отказоустойчивости, вероятностные характеристики отказов, модели времени наработки и восстановления, принципы резервирования и влияние технического обслуживания на доступность.

Базовые определения

Надёжность (Reliability)

Надёжность — вероятность безотказной работы оборудования в течение времени \(t\).

$$R(t)=P\{\text{нет отказа на интервале }[0;t]\}$$

где: - \(R(t)\) — вероятность безотказной работы; - \(\bar R(t)=1-R(t)\) — вероятность хотя бы одного отказа; - \(F\) — частота отказов (среднее число отказов в год или час).

Готовность (Availability)

Готовность — вероятность того, что оборудование находится в состоянии выполнения функции в момент \(t\).

$$A(t)=P\{\text{в работоспособном состоянии в момент }t\}$$

где: - \(\bar A(t)=1-A(t)\) — недоступность; - асимптотическая готовность при \(t \to \infty\):

\[
A=\lim_{t\to\infty} A(t)
\]

Ремонтопригодность (Maintainability)

Ремонтопригодность — вероятность, что оборудование будет восстановлено за время \(t\).

$$M(t)=P\{\text{ремонт завершён к моменту }t\}$$

Данные надёжности оборудования

Показатели наработки

* MTTF — среднее время до первого отказа (для неремонтируемых элементов). * MTBF — среднее время между отказами (ремонтируемые элементы). * MUT — среднее время работоспособного состояния (uptime). * MTTR — среднее время восстановления. * MDT — среднее время простоя (диагностика + логистика + ремонт).

MTBF и MTTF часто путают. MTBF = MTTF + MDT и применяется только к ремонтируемому оборудованию.

Интенсивность отказов \(\lambda(t)\)

Интенсивность отказов — вероятность отказа на малом интервале времени при условии, что отказа ранее не было.

$$\lambda(t)=\frac{1}{R(t)}\frac{dR(t)}{dt}$$

Типовая эволюция интенсивности отказов описывается «кривой ванны»: - Этап 1 — ранние отказы (снижающаяся \(\lambda\)); - Этап 2 — нормальная эксплуатация (постоянная \(\lambda=\text{const}\)); - Этап 3 — износ (рост \(\lambda\)).

При постоянной интенсивности отказов (экспоненциальный закон):

$$R(t)=e^{-\lambda t},\qquad MTTF=\frac{1}{\lambda}$$

Режимы отказов и их классификация

Режимы отказов (Failure Modes)

Группы отказов, приводящих к потере функции оборудования. Пример для автоматического выключателя:

Режим отказа Доля от общих отказов (%)
Не отключает при КЗ xx%
Ложное отключение xx%
Самопроизвольное включение xx%
Не включается по команде xx%
Не отключается по команде xx%
Пробой изоляции xx%

Интенсивность отказов может вычисляться как:

$$\lambda=\gamma \cdot N_{\text{operations}}$$

где: - \(\gamma\) — вероятность отказа на цикл; - \(N\) — число циклов/час.

Общие причины отказов (Common Cause Failure, CCF)

CCF — единичное событие вызывает отказ нескольких казалось бы независимых элементов.

Основные источники: * человеческая ошибка (проектирование, монтаж, обслуживание); * окружающая среда (температура, влажность, пожар, наводнение, снег); * электрические и электромагнитные воздействия; * загрязнения, животные, биологические факторы; * ошибки ПО, недоступность SCADA/АСУ.

Скрытые отказы (Hidden Failures)

Отказы, не проявляющиеся до момента, когда функция реально потребуется. Типичны для систем резервирования (например, батареи ИБП).

Обнаруживаются: * при необходимости выполнения функции; * при периодических тестах.

Техническое обслуживание и его влияние

Корректирующее обслуживание (Curative Maintenance)

Полный простой после отказа включает: * время выявления отказа; * диагностику; * логистику и доставку ЗИП; * ремонт/замену; * восстановление работоспособности.

MDT = диагностика + логистика + ремонт.

Профилактическое обслуживание (Preventive Maintenance)

Цель: * предотвращение износа; * поддержание постоянной интенсивности отказов; * выявление скрытых дефектов.

Типовые операции: * осмотры и тесты; * чистка; * регулировки; * замена деталей.

Периодичность обслуживания определяет стабильность \(\lambda\): без обслуживания интенсивность растёт, с обслуживанием возвращается к исходному уровню.

Моделирование надёжности систем

Один компонент

Недоступность:

$$U \approx \lambda \cdot MDT$$

Два нерезервируемых компонента

Суммарная интенсивность отказов:

$$\lambda_{\text{eq}}=\lambda_1+\lambda_2$$

Недоступность:

$$U \approx \lambda_1 MDT_1+\lambda_2 MDT_2$$

Активное резервирование

Оба компонента работают одновременно.

$$\lambda_{\text{eq}} = \lambda_1\cdot\lambda_2\cdot (MDT_1+MDT_2)$$

Пассивное резервирование

Второй компонент включается только при отказе первого.

$$\lambda_{\text{eq}}=\lambda_1\cdot\lambda_2\cdot MDT_2$$

Частичное резервирование

Резерв ограничен по ресурсу (топливо, аккумуляторы). Используется, если отказ не превышает доступный ресурс.

Ключевые идеи

* Надёжность описывает вероятность безотказной работы, готовность — способность выполнять функцию в момент времени. * Основные показатели: MTTF, MTBF, MUT, MTTR, MDT, интенсивность отказов \(\lambda\). * Экспоненциальный закон применим для электронного оборудования в нормальном периоде эксплуатации. * Техническое обслуживание удерживает интенсивность отказов на постоянном уровне. * Резервирование снижает недоступность, но требует анализа общих причин и скрытых отказов. * В ЦОД ключевое влияние на SLA оказывают MDT и общие причины отказов.

topics/29/theory.1764093065.txt.gz · Последнее изменение: admin