Содержание
Типовые сценарии применения
Типовые модели применения данных, собранных от ИТ-оборудования, позволяют повышать эффективность эксплуатации, оптимизировать охлаждение, выявлять скрытые тепловые проблемы, планировать рост плотности размещения и устранять неиспользуемые («призрачные») серверы. Сенсорные данные и ИИ-аналитика формируют основу автоматизированного управления ЦОД.
Повышение рабочих температур в машинных залах
Индустрия стремится к увеличению рабочей температуры в ЦОД для снижения затрат на охлаждение (подход ASHRAE TC 9.9). Однако многие площадки работают при заведомо заниженных температурах из-за консервативных подходов к риску.
Основные проблемы:
- отсутствие точной картины распределения температур;
- риски локальных перегревов при повышении уставок;
- недостаточная глубина мониторинга при использовании только датчиков зала.
Решение — переход к мониторингу температуры на уровне каждого устройства (device-level). Такой подход позволяет:
- получать детализацию температуры входящего воздуха по каждому серверу;
- диагностировать отклонения при повышении уставок;
- безопасно увеличивать температуры в пределах допустимых норм.
Гранулярный мониторинг позволяет шагово повышать уставки охлаждения без негативного влияния на надёжность.
Типовые тепловые ошибки в ЦОД:
- недостаток холодного воздуха в холодном коридоре;
- отсутствие или избыток перфорированных плит;
- незакрытые пустые юниты (пробелы в стойках);
- плохая герметизация стоек;
- незакрытые отверстия в raised floor.
Решение тепловых проблем
Локальные тепловые проблемы — частая причина снижения пропускной способности и аварий. ИТ-оборудование, выступая сенсором, формирует карту температур в реальном времени:
- выявление узких мест воздушного баланса;
- определение стоек с перегревом из-за неисправных вентиляторов;
- сравнение фактических температур до и после корректировок.
Использование данных от серверов и СХД позволяет устранять проблемы охлаждения точечно, без избыточного повышения расхода воздуха.
Планирование ёмкости и рост плотности размещения
С ростом стоимости электричества и упором на оптимизацию вычислительных ресурсов планирование мощности стоек становится критическим.
Исторически проектирование велось по паспортным значениям нагрузки, что приводило к:
- завышению энергомощности на стойку;
- недоиспользованию стойкового пространства;
- невозможности безопасного увеличения плотности.
Фактическое потребление серверов часто ниже паспортного на 20–40%. Детальный сбор телеметрии позволяет:
- рассчитывать реальное пиковое потребление серверов;
- безопасно повышать плотность на стойку;
- планировать электропитание и охлаждение с меньшими запасами.
Без реальных данных риск недооценки или переоценки мощности остаётся высоким, что приводит к ограничению роста и снижению эффективности использования площади.
Выявление недоиспользуемых и «призрачных» серверов
Существенная доля сервера в ЦОД работает неэффективно:
- ~15% — полностью «призрачные» (ghost servers), не выполняют никаких задач, но продолжают потреблять 70–85% энергии от нормального режима;
- значительная часть — недоиспользуемые, работают на минимальной загрузке, расходуя электричество и занимая ресурс охлаждения.
Риски «призрачных» серверов:
- лишний расход энергоресурсов и охлаждения;
- нагрузка на систему электропитания;
- избыточная площадь в стойках;
- угрозы безопасности (забытые серверы могут содержать уязвимости).
Для выявления таких серверов необходимо:
- мониторить загрузку CPU, память и сетевую активность;
- анализировать потребление электроэнергии;
- сравнивать рабочий профиль с планируемым;
- формировать рекомендации по консолидации или выводу из эксплуатации.
Системы ИИ и DCIM-платформы позволяют автоматически находить «призрачные» сервера и формировать план консолидации.
Ключевые идеи
- Гранулярная телеметрия обеспечивает точное управление охлаждением и безопасное повышение температур.
- Детальный мониторинг помогает выявлять скрытые тепловые проблемы и устранять их точечно.
- Реальные данные об энергопотреблении позволяют оптимизировать плотность стоек и уменьшить резервы мощности.
- Идентификация недоиспользуемых и «призрачных» серверов снижает энергозатраты и повышает надёжность.
- Аналитика и ИИ становятся основой автоматизированных сценариев управления ЦОД.
