Это старая версия документа!
Содержание
Основы и принципы теории надёжности
Раздел описывает ключевые понятия теории надёжности применительно к инженерным системам ЦОД: показатели отказоустойчивости, вероятностные характеристики отказов, модели времени наработки и восстановления, принципы резервирования и влияние технического обслуживания на доступность.
Базовые определения
Надёжность (Reliability)
Надёжность — вероятность того, что оборудование не откажет за время t.
$$ R(t) = \text{Вероятность(нет отказа на интервале } [0, t]) $$
Где: - R(t) — вероятность безотказной работы; - 1 – R(t) — вероятность хотя бы одного отказа; - F — средняя частота отказов.
Готовность (Availability)
Готовность — вероятность того, что оборудование работоспособно в момент t.
$$ A(t) = \text{Вероятность(работоспособно в момент } t) $$
Асимптотическая готовность:
$$ A = \lim_{t \to \infty} A(t) $$
Ремонтопригодность (Maintainability)
Ремонтопригодность — вероятность того, что ремонт завершён к моменту t.
$$ M(t) = \text{Вероятность(ремонт завершён к } t) $$
Данные надёжности оборудования
Показатели наработки
- MTTF — среднее время до первого отказа (неремонтируемые элементы)
- MTBF — среднее время между отказами (ремонтируемые элементы)
- MUT — среднее время работоспособного состояния
- MTTR — среднее время восстановления
- MDT — суммарное время простоя (диагностика + ожидание + ремонт)
MTBF = MTTF + MDT Используется только для ремонтируемого оборудования.
Интенсивность отказов λ(t)
Интенсивность отказов — вероятность отказа на очень малом интервале времени при условии, что отказов ранее не было.
$$ \lambda(t) = -\frac{dR(t)}{dt} \cdot \frac{1}{R(t)} $$
При постоянной интенсивности отказов (экспоненциальный закон):
$$ R(t) = e^{-\lambda t} $$ $$ MTTF = \frac{1}{\lambda} $$
Режимы отказов
Failure Modes
| Режим отказа | Доля (%) |
|---|---|
| Не отключает при КЗ | xx |
| Ложное отключение | xx |
| Самопроизвольное включение | xx |
| Не включается по команде | xx |
| Не отключается по команде | xx |
| Пробой изоляции | xx |
Интенсивность по числу операций:
$$ \lambda = \gamma \cdot N_{\text{operations}} $$
где γ — вероятность отказа на цикл, N — число циклов.
Общие причины и скрытые отказы
Common Cause Failure (CCF)
Один отказ воздействует сразу на несколько элементов (пожар, перегрев, ошибка оператора, ЭМ-помехи).
Hidden Failure
Скрытый отказ проявляется только при попытке использования функции или во время теста.
Техническое обслуживание
Корректирующее (после отказа)
MDT включает: * обнаружение отказа, * диагностику, * доставку ЗИП, * ремонт, * восстановление работоспособности.
Профилактическое
Обеспечивает постоянный уровень интенсивности отказов.
Периодическое ТО предотвращает рост λ из-за старения и загрязнений.
Модели надёжности системы
Один компонент
Недоступность:
$$ U \approx \lambda \cdot MDT $$
Два нерезервируемых компонента
$$ \lambda_\text{eq} = \lambda_1 + \lambda_2 $$ $$ U \approx \lambda_1 MDT_1 + \lambda_2 MDT_2 $$
Активное резервирование
Оба компонента работают параллельно.
$$ \lambda_\text{eq} = \lambda_1 \lambda_2 (MDT_1 + MDT_2) $$
Пассивное резервирование
Резерв включается при отказе основного.
$$ \lambda_\text{eq} = \lambda_1 \lambda_2 MDT_2 $$
Частичное резервирование
Ограничено ресурсом (топливо, аккумуляторы).
Ключевые идеи
- R(t) — вероятность безотказной работы, A(t) — готовность.
- Основные показатели: MTTF, MTBF, MTTR, MDT, λ.
- Экспоненциальный закон подходит для электроники ЦОД.
- ТО удерживает интенсивность на постоянном уровне.
- Резервирование снижает недоступность, но требует учёта CCF и скрытых отказов.
- На SLA ЦОД сильнее всего влияют MDT и общие причины отказов.
