Это старая версия документа!
Содержание
Основы и принципы теории надёжности
Раздел описывает ключевые понятия теории надёжности применительно к инженерным системам ЦОД: показатели отказоустойчивости, вероятностные характеристики отказов, модели времени наработки и восстановления, принципы резервирования и влияние технического обслуживания на доступность.
Базовые определения
Надёжность (Reliability)
Надёжность — вероятность безотказной работы оборудования в течение времени \(t\).
$$R(t)=P\{\text{нет отказа на интервале }[0;t]\}$$
где: - \(R(t)\) — вероятность безотказной работы; - \(\bar R(t)=1-R(t)\) — вероятность хотя бы одного отказа; - \(F\) — частота отказов (среднее число отказов в год или час).
Готовность (Availability)
Готовность — вероятность того, что оборудование находится в состоянии выполнения функции в момент \(t\).
$$A(t)=P\{\text{в работоспособном состоянии в момент }t\}$$
где: - \(\bar A(t)=1-A(t)\) — недоступность; - асимптотическая готовность при \(t \to \infty\):
\[
A=\lim_{t\to\infty} A(t)
\]
Ремонтопригодность (Maintainability)
Ремонтопригодность — вероятность, что оборудование будет восстановлено за время \(t\).
$$M(t)=P\{\text{ремонт завершён к моменту }t\}$$
Данные надёжности оборудования
Показатели наработки
* MTTF — среднее время до первого отказа (для неремонтируемых элементов). * MTBF — среднее время между отказами (ремонтируемые элементы). * MUT — среднее время работоспособного состояния (uptime). * MTTR — среднее время восстановления. * MDT — среднее время простоя (диагностика + логистика + ремонт).
MTBF и MTTF часто путают. MTBF = MTTF + MDT и применяется только к ремонтируемому оборудованию.
Интенсивность отказов \(\lambda(t)\)
Интенсивность отказов — вероятность отказа на малом интервале времени при условии, что отказа ранее не было.
$$\lambda(t)=\frac{1}{R(t)}\frac{dR(t)}{dt}$$
Типовая эволюция интенсивности отказов описывается «кривой ванны»: - Этап 1 — ранние отказы (снижающаяся \(\lambda\)); - Этап 2 — нормальная эксплуатация (постоянная \(\lambda=\text{const}\)); - Этап 3 — износ (рост \(\lambda\)).
При постоянной интенсивности отказов (экспоненциальный закон):
$$R(t)=e^{-\lambda t},\qquad MTTF=\frac{1}{\lambda}$$
Режимы отказов и их классификация
Режимы отказов (Failure Modes)
Группы отказов, приводящих к потере функции оборудования. Пример для автоматического выключателя:
| Режим отказа | Доля от общих отказов (%) |
|---|---|
| Не отключает при КЗ | xx% |
| Ложное отключение | xx% |
| Самопроизвольное включение | xx% |
| Не включается по команде | xx% |
| Не отключается по команде | xx% |
| Пробой изоляции | xx% |
Интенсивность отказов может вычисляться как:
$$\lambda=\gamma \cdot N_{\text{operations}}$$
где: - \(\gamma\) — вероятность отказа на цикл; - \(N\) — число циклов/час.
Общие причины отказов (Common Cause Failure, CCF)
CCF — единичное событие вызывает отказ нескольких казалось бы независимых элементов.
Основные источники: * человеческая ошибка (проектирование, монтаж, обслуживание); * окружающая среда (температура, влажность, пожар, наводнение, снег); * электрические и электромагнитные воздействия; * загрязнения, животные, биологические факторы; * ошибки ПО, недоступность SCADA/АСУ.
Скрытые отказы (Hidden Failures)
Отказы, не проявляющиеся до момента, когда функция реально потребуется. Типичны для систем резервирования (например, батареи ИБП).
Обнаруживаются: * при необходимости выполнения функции; * при периодических тестах.
Техническое обслуживание и его влияние
Корректирующее обслуживание (Curative Maintenance)
Полный простой после отказа включает: * время выявления отказа; * диагностику; * логистику и доставку ЗИП; * ремонт/замену; * восстановление работоспособности.
MDT = диагностика + логистика + ремонт.
Профилактическое обслуживание (Preventive Maintenance)
Цель: * предотвращение износа; * поддержание постоянной интенсивности отказов; * выявление скрытых дефектов.
Типовые операции: * осмотры и тесты; * чистка; * регулировки; * замена деталей.
Периодичность обслуживания определяет стабильность \(\lambda\): без обслуживания интенсивность растёт, с обслуживанием возвращается к исходному уровню.
Моделирование надёжности систем
Один компонент
Недоступность:
$$U \approx \lambda \cdot MDT$$
Два нерезервируемых компонента
Суммарная интенсивность отказов:
$$\lambda_{\text{eq}}=\lambda_1+\lambda_2$$
Недоступность:
$$U \approx \lambda_1 MDT_1+\lambda_2 MDT_2$$
Активное резервирование
Оба компонента работают одновременно.
$$\lambda_{\text{eq}} = \lambda_1\cdot\lambda_2\cdot (MDT_1+MDT_2)$$
Пассивное резервирование
Второй компонент включается только при отказе первого.
$$\lambda_{\text{eq}}=\lambda_1\cdot\lambda_2\cdot MDT_2$$
Частичное резервирование
Резерв ограничен по ресурсу (топливо, аккумуляторы). Используется, если отказ не превышает доступный ресурс.
Ключевые идеи
* Надёжность описывает вероятность безотказной работы, готовность — способность выполнять функцию в момент времени. * Основные показатели: MTTF, MTBF, MUT, MTTR, MDT, интенсивность отказов \(\lambda\). * Экспоненциальный закон применим для электронного оборудования в нормальном периоде эксплуатации. * Техническое обслуживание удерживает интенсивность отказов на постоянном уровне. * Резервирование снижает недоступность, но требует анализа общих причин и скрытых отказов. * В ЦОД ключевое влияние на SLA оказывают MDT и общие причины отказов.
