Типовые сценарии применения
Типовые модели применения данных, собранных от ИТ-оборудования, позволяют повышать эффективность эксплуатации, оптимизировать охлаждение, выявлять скрытые тепловые проблемы, планировать рост плотности размещения и устранять неиспользуемые («призрачные») серверы. Сенсорные данные и ИИ-аналитика формируют основу автоматизированного управления ЦОД.
Повышение рабочих температур в машинных залах
Индустрия стремится к увеличению рабочей температуры в ЦОД для снижения затрат на охлаждение (подход ASHRAE TC 9.9). Однако многие площадки работают при заведомо заниженных температурах из-за консервативных подходов к риску.
Основные проблемы:
отсутствие точной картины распределения температур;
риски локальных перегревов при повышении уставок;
недостаточная глубина мониторинга при использовании только датчиков зала.
Решение — переход к мониторингу температуры на уровне каждого устройства (device-level). Такой подход позволяет:
получать детализацию температуры входящего воздуха по каждому серверу;
диагностировать отклонения при повышении уставок;
безопасно увеличивать температуры в пределах допустимых норм.
Гранулярный мониторинг позволяет шагово повышать уставки охлаждения без негативного влияния на надёжность.
Типовые тепловые ошибки в ЦОД:
недостаток холодного воздуха в холодном коридоре;
отсутствие или избыток перфорированных плит;
незакрытые пустые юниты (пробелы в стойках);
плохая герметизация стоек;
незакрытые отверстия в raised floor.
Решение тепловых проблем
Локальные тепловые проблемы — частая причина снижения пропускной способности и аварий. ИТ-оборудование, выступая сенсором, формирует карту температур в реальном времени:
выявление узких мест воздушного баланса;
определение стоек с перегревом из-за неисправных вентиляторов;
сравнение фактических температур до и после корректировок.
Использование данных от серверов и СХД позволяет устранять проблемы охлаждения точечно, без избыточного повышения расхода воздуха.
Планирование ёмкости и рост плотности размещения
С ростом стоимости электричества и упором на оптимизацию вычислительных ресурсов планирование мощности стоек становится критическим.
Исторически проектирование велось по паспортным значениям нагрузки, что приводило к:
завышению энергомощности на стойку;
недоиспользованию стойкового пространства;
невозможности безопасного увеличения плотности.
Фактическое потребление серверов часто ниже паспортного на 20–40%. Детальный сбор телеметрии позволяет:
рассчитывать реальное пиковое потребление серверов;
безопасно повышать плотность на стойку;
планировать электропитание и охлаждение с меньшими запасами.
Без реальных данных риск недооценки или переоценки мощности остаётся высоким, что приводит к ограничению роста и снижению эффективности использования площади.
Выявление недоиспользуемых и «призрачных» серверов
Существенная доля сервера в ЦОД работает неэффективно:
~15% — полностью «призрачные» (ghost servers), не выполняют никаких задач, но продолжают потреблять 70–85% энергии от нормального режима;
значительная часть — недоиспользуемые, работают на минимальной загрузке, расходуя электричество и занимая ресурс охлаждения.
Риски «призрачных» серверов:
лишний расход энергоресурсов и охлаждения;
нагрузка на систему электропитания;
избыточная площадь в стойках;
угрозы безопасности (забытые серверы могут содержать уязвимости).
Для выявления таких серверов необходимо:
мониторить загрузку CPU, память и сетевую активность;
анализировать потребление электроэнергии;
сравнивать рабочий профиль с планируемым;
формировать рекомендации по консолидации или выводу из эксплуатации.
Системы ИИ и DCIM-платформы позволяют автоматически находить «призрачные» сервера и формировать план консолидации.
Ключевые идеи
Гранулярная телеметрия обеспечивает точное управление охлаждением и безопасное повышение температур.
Детальный мониторинг помогает выявлять скрытые тепловые проблемы и устранять их точечно.
Реальные данные об энергопотреблении позволяют оптимизировать плотность стоек и уменьшить резервы мощности.
Идентификация недоиспользуемых и «призрачных» серверов снижает энергозатраты и повышает надёжность.
Аналитика и ИИ становятся основой автоматизированных сценариев управления ЦОД.