Инструменты пользователя

Инструменты сайта


topics:29:theory

Это старая версия документа!


Основы и принципы теории надёжности

Раздел описывает ключевые понятия теории надёжности применительно к инженерным системам ЦОД: показатели отказоустойчивости, вероятностные характеристики отказов, модели времени наработки и восстановления, принципы резервирования и влияние технического обслуживания на доступность.

Базовые определения

Надёжность (Reliability)

Надёжность — вероятность того, что оборудование не откажет за время t.

$$ R(t) = \text{Вероятность(нет отказа на интервале } [0, t]) $$

Где: - R(t) — вероятность безотказной работы; - 1 – R(t) — вероятность хотя бы одного отказа; - F — средняя частота отказов.

Готовность (Availability)

Готовность — вероятность того, что оборудование работоспособно в момент t.

$$ A(t) = \text{Вероятность(работоспособно в момент } t) $$

Асимптотическая готовность:

$$ A = \lim_{t \to \infty} A(t) $$

Ремонтопригодность (Maintainability)

Ремонтопригодность — вероятность того, что ремонт завершён к моменту t.

$$ M(t) = \text{Вероятность(ремонт завершён к } t) $$

Данные надёжности оборудования

Показатели наработки

  • MTTF — среднее время до первого отказа (неремонтируемые элементы)
  • MTBF — среднее время между отказами (ремонтируемые элементы)
  • MUT — среднее время работоспособного состояния
  • MTTR — среднее время восстановления
  • MDT — суммарное время простоя (диагностика + ожидание + ремонт)

MTBF = MTTF + MDT Используется только для ремонтируемого оборудования.

Интенсивность отказов λ(t)

Интенсивность отказов — вероятность отказа на очень малом интервале времени при условии, что отказов ранее не было.

$$ \lambda(t) = -\frac{dR(t)}{dt} \cdot \frac{1}{R(t)} $$

При постоянной интенсивности отказов (экспоненциальный закон):

$$ R(t) = e^{-\lambda t} $$ $$ MTTF = \frac{1}{\lambda} $$

Режимы отказов

Failure Modes

Режим отказа Доля (%)
Не отключает при КЗ xx
Ложное отключение xx
Самопроизвольное включение xx
Не включается по команде xx
Не отключается по команде xx
Пробой изоляции xx

Интенсивность по числу операций:

$$ \lambda = \gamma \cdot N_{\text{operations}} $$

где γ — вероятность отказа на цикл, N — число циклов.

Общие причины и скрытые отказы

Common Cause Failure (CCF)

Один отказ воздействует сразу на несколько элементов (пожар, перегрев, ошибка оператора, ЭМ-помехи).

Hidden Failure

Скрытый отказ проявляется только при попытке использования функции или во время теста.

Техническое обслуживание

Корректирующее (после отказа)

MDT включает: * обнаружение отказа, * диагностику, * доставку ЗИП, * ремонт, * восстановление работоспособности.

Профилактическое

Обеспечивает постоянный уровень интенсивности отказов.

Периодическое ТО предотвращает рост λ из-за старения и загрязнений.

Модели надёжности системы

Один компонент

Недоступность:

$$ U \approx \lambda \cdot MDT $$

Два нерезервируемых компонента

$$ \lambda_\text{eq} = \lambda_1 + \lambda_2 $$ $$ U \approx \lambda_1 MDT_1 + \lambda_2 MDT_2 $$

Активное резервирование

Оба компонента работают параллельно.

$$ \lambda_\text{eq} = \lambda_1 \lambda_2 (MDT_1 + MDT_2) $$

Пассивное резервирование

Резерв включается при отказе основного.

$$ \lambda_\text{eq} = \lambda_1 \lambda_2 MDT_2 $$

Частичное резервирование

Ограничено ресурсом (топливо, аккумуляторы).

Ключевые идеи

  • R(t) — вероятность безотказной работы, A(t) — готовность.
  • Основные показатели: MTTF, MTBF, MTTR, MDT, λ.
  • Экспоненциальный закон подходит для электроники ЦОД.
  • ТО удерживает интенсивность на постоянном уровне.
  • Резервирование снижает недоступность, но требует учёта CCF и скрытых отказов.
  • На SLA ЦОД сильнее всего влияют MDT и общие причины отказов.
topics/29/theory.1764093326.txt.gz · Последнее изменение: admin