====== Основы и принципы теории надёжности ======
Раздел описывает ключевые понятия теории надёжности применительно к инженерным системам ЦОД: показатели отказоустойчивости, вероятностные характеристики отказов, модели времени наработки и восстановления, принципы резервирования и влияние технического обслуживания на доступность.
===== Базовые определения =====
==== Надёжность (Reliability) ====
Надёжность — вероятность того, что оборудование не откажет за время t.
$$ R(t) = \text{Вероятность(нет отказа на интервале } [0, t]) $$
Где:
- R(t) — вероятность безотказной работы;
- 1 – R(t) — вероятность хотя бы одного отказа;
- F — средняя частота отказов.
==== Готовность (Availability) ====
Готовность — вероятность того, что оборудование работоспособно в момент t.
$$ A(t) = \text{Вероятность(работоспособно в момент } t) $$
Асимптотическая готовность:
$$ A = \lim_{t \to \infty} A(t) $$
==== Ремонтопригодность (Maintainability) ====
Ремонтопригодность — вероятность того, что ремонт завершён к моменту t.
$$ M(t) = \text{Вероятность(ремонт завершён к } t) $$
===== Данные надёжности оборудования =====
==== Показатели наработки ====
* MTTF — среднее время до первого отказа (неремонтируемые элементы)
* MTBF — среднее время между отказами (ремонтируемые элементы)
* MUT — среднее время работоспособного состояния
* MTTR — среднее время восстановления
* MDT — суммарное время простоя (диагностика + ожидание + ремонт)
MTBF = MTTF + MDT
Используется только для ремонтируемого оборудования.
===== Интенсивность отказов λ(t) =====
Интенсивность отказов — вероятность отказа на очень малом интервале времени при условии, что отказов ранее не было.
$$ \lambda(t) = -\frac{dR(t)}{dt} \cdot \frac{1}{R(t)} $$
При постоянной интенсивности отказов (экспоненциальный закон):
$$ R(t) = e^{-\lambda t} $$
$$ MTTF = \frac{1}{\lambda} $$
===== Режимы отказов =====
==== Failure Modes ====
^ Режим отказа ^ Доля (%) ^
| Не отключает при КЗ | xx |
| Ложное отключение | xx |
| Самопроизвольное включение | xx |
| Не включается по команде | xx |
| Не отключается по команде | xx |
| Пробой изоляции | xx |
Интенсивность по числу операций:
$$ \lambda = \gamma \cdot N_{\text{operations}} $$
где γ — вероятность отказа на цикл, N — число циклов.
===== Общие причины и скрытые отказы =====
==== Common Cause Failure (CCF) ====
Один отказ воздействует сразу на несколько элементов (пожар, перегрев, ошибка оператора, ЭМ-помехи).
==== Hidden Failure ====
Скрытый отказ проявляется только при попытке использования функции или во время теста.
===== Техническое обслуживание =====
==== Корректирующее (после отказа) ====
MDT включает:
* обнаружение отказа,
* диагностику,
* доставку ЗИП,
* ремонт,
* восстановление работоспособности.
==== Профилактическое ====
Обеспечивает постоянный уровень интенсивности отказов.
Периодическое ТО предотвращает рост λ из-за старения и загрязнений.
===== Модели надёжности системы =====
==== Один компонент ====
Недоступность:
$$ U \approx \lambda \cdot MDT $$
==== Два нерезервируемых компонента ====
$$ \lambda_\text{eq} = \lambda_1 + \lambda_2 $$
$$ U \approx \lambda_1 MDT_1 + \lambda_2 MDT_2 $$
==== Активное резервирование ====
Оба компонента работают параллельно.
$$ \lambda_\text{eq} = \lambda_1 \lambda_2 (MDT_1 + MDT_2) $$
==== Пассивное резервирование ====
Резерв включается при отказе основного.
$$ \lambda_\text{eq} = \lambda_1 \lambda_2 MDT_2 $$
==== Частичное резервирование ====
Ограничено ресурсом (топливо, аккумуляторы).
===== Ключевые идеи =====
* R(t) — вероятность безотказной работы, A(t) — готовность.
* Основные показатели: MTTF, MTBF, MTTR, MDT, λ.
* Экспоненциальный закон подходит для электроники ЦОД.
* ТО удерживает интенсивность на постоянном уровне.
* Резервирование снижает недоступность, но требует учёта CCF и скрытых отказов.
* На SLA ЦОД сильнее всего влияют MDT и общие причины отказов.