Раздел описывает ключевые понятия теории надёжности применительно к инженерным системам ЦОД: показатели отказоустойчивости, вероятностные характеристики отказов, модели времени наработки и восстановления, принципы резервирования и влияние технического обслуживания на доступность.
Надёжность — вероятность того, что оборудование не откажет за время t.
$$ R(t) = \text{Вероятность(нет отказа на интервале } [0, t]) $$
Где: - R(t) — вероятность безотказной работы; - 1 – R(t) — вероятность хотя бы одного отказа; - F — средняя частота отказов.
Готовность — вероятность того, что оборудование работоспособно в момент t.
$$ A(t) = \text{Вероятность(работоспособно в момент } t) $$
Асимптотическая готовность:
$$ A = \lim_{t \to \infty} A(t) $$
Ремонтопригодность — вероятность того, что ремонт завершён к моменту t.
$$ M(t) = \text{Вероятность(ремонт завершён к } t) $$
MTBF = MTTF + MDT Используется только для ремонтируемого оборудования.
Интенсивность отказов — вероятность отказа на очень малом интервале времени при условии, что отказов ранее не было.
$$ \lambda(t) = -\frac{dR(t)}{dt} \cdot \frac{1}{R(t)} $$
При постоянной интенсивности отказов (экспоненциальный закон):
$$ R(t) = e^{-\lambda t} $$ $$ MTTF = \frac{1}{\lambda} $$
| Режим отказа | Доля (%) |
|---|---|
| Не отключает при КЗ | xx |
| Ложное отключение | xx |
| Самопроизвольное включение | xx |
| Не включается по команде | xx |
| Не отключается по команде | xx |
| Пробой изоляции | xx |
Интенсивность по числу операций:
$$ \lambda = \gamma \cdot N_{\text{operations}} $$
где γ — вероятность отказа на цикл, N — число циклов.
Один отказ воздействует сразу на несколько элементов (пожар, перегрев, ошибка оператора, ЭМ-помехи).
Скрытый отказ проявляется только при попытке использования функции или во время теста.
MDT включает:
Обеспечивает постоянный уровень интенсивности отказов.
Периодическое ТО предотвращает рост λ из-за старения и загрязнений.
Недоступность:
$$ U \approx \lambda \cdot MDT $$
$$ \lambda_\text{eq} = \lambda_1 + \lambda_2 $$ $$ U \approx \lambda_1 MDT_1 + \lambda_2 MDT_2 $$
Оба компонента работают параллельно.
$$ \lambda_\text{eq} = \lambda_1 \lambda_2 (MDT_1 + MDT_2) $$
Резерв включается при отказе основного.
$$ \lambda_\text{eq} = \lambda_1 \lambda_2 MDT_2 $$
Ограничено ресурсом (топливо, аккумуляторы).