====== Основы и принципы теории надёжности ====== Раздел описывает ключевые понятия теории надёжности применительно к инженерным системам ЦОД: показатели отказоустойчивости, вероятностные характеристики отказов, модели времени наработки и восстановления, принципы резервирования и влияние технического обслуживания на доступность. ===== Базовые определения ===== ==== Надёжность (Reliability) ==== Надёжность — вероятность того, что оборудование не откажет за время t. $$ R(t) = \text{Вероятность(нет отказа на интервале } [0, t]) $$ Где: - R(t) — вероятность безотказной работы; - 1 – R(t) — вероятность хотя бы одного отказа; - F — средняя частота отказов. ==== Готовность (Availability) ==== Готовность — вероятность того, что оборудование работоспособно в момент t. $$ A(t) = \text{Вероятность(работоспособно в момент } t) $$ Асимптотическая готовность: $$ A = \lim_{t \to \infty} A(t) $$ ==== Ремонтопригодность (Maintainability) ==== Ремонтопригодность — вероятность того, что ремонт завершён к моменту t. $$ M(t) = \text{Вероятность(ремонт завершён к } t) $$ ===== Данные надёжности оборудования ===== ==== Показатели наработки ==== * MTTF — среднее время до первого отказа (неремонтируемые элементы) * MTBF — среднее время между отказами (ремонтируемые элементы) * MUT — среднее время работоспособного состояния * MTTR — среднее время восстановления * MDT — суммарное время простоя (диагностика + ожидание + ремонт) MTBF = MTTF + MDT Используется только для ремонтируемого оборудования. ===== Интенсивность отказов λ(t) ===== Интенсивность отказов — вероятность отказа на очень малом интервале времени при условии, что отказов ранее не было. $$ \lambda(t) = -\frac{dR(t)}{dt} \cdot \frac{1}{R(t)} $$ При постоянной интенсивности отказов (экспоненциальный закон): $$ R(t) = e^{-\lambda t} $$ $$ MTTF = \frac{1}{\lambda} $$ ===== Режимы отказов ===== ==== Failure Modes ==== ^ Режим отказа ^ Доля (%) ^ | Не отключает при КЗ | xx | | Ложное отключение | xx | | Самопроизвольное включение | xx | | Не включается по команде | xx | | Не отключается по команде | xx | | Пробой изоляции | xx | Интенсивность по числу операций: $$ \lambda = \gamma \cdot N_{\text{operations}} $$ где γ — вероятность отказа на цикл, N — число циклов. ===== Общие причины и скрытые отказы ===== ==== Common Cause Failure (CCF) ==== Один отказ воздействует сразу на несколько элементов (пожар, перегрев, ошибка оператора, ЭМ-помехи). ==== Hidden Failure ==== Скрытый отказ проявляется только при попытке использования функции или во время теста. ===== Техническое обслуживание ===== ==== Корректирующее (после отказа) ==== MDT включает: * обнаружение отказа, * диагностику, * доставку ЗИП, * ремонт, * восстановление работоспособности. ==== Профилактическое ==== Обеспечивает постоянный уровень интенсивности отказов. Периодическое ТО предотвращает рост λ из-за старения и загрязнений. ===== Модели надёжности системы ===== ==== Один компонент ==== Недоступность: $$ U \approx \lambda \cdot MDT $$ ==== Два нерезервируемых компонента ==== $$ \lambda_\text{eq} = \lambda_1 + \lambda_2 $$ $$ U \approx \lambda_1 MDT_1 + \lambda_2 MDT_2 $$ ==== Активное резервирование ==== Оба компонента работают параллельно. $$ \lambda_\text{eq} = \lambda_1 \lambda_2 (MDT_1 + MDT_2) $$ ==== Пассивное резервирование ==== Резерв включается при отказе основного. $$ \lambda_\text{eq} = \lambda_1 \lambda_2 MDT_2 $$ ==== Частичное резервирование ==== Ограничено ресурсом (топливо, аккумуляторы). ===== Ключевые идеи ===== * R(t) — вероятность безотказной работы, A(t) — готовность. * Основные показатели: MTTF, MTBF, MTTR, MDT, λ. * Экспоненциальный закон подходит для электроники ЦОД. * ТО удерживает интенсивность на постоянном уровне. * Резервирование снижает недоступность, но требует учёта CCF и скрытых отказов. * На SLA ЦОД сильнее всего влияют MDT и общие причины отказов.