====== Эволюция серверных технологий ====== Современные серверы увеличивают вычислительную мощность при снижении удельного энергопотребления. Рост «performance per watt» достигается за счёт новых архитектур CPU/GPU, памяти, источников питания и продвинутого управления энергией. ===== Ключевые сдвиги ===== * **CPU/GPU-кооперация.** Переход к гетерогенным вычислениям (CPU + GPU/TPU) повышает производительность на ватт для ИИ/НРС-задач. * **Микроархитектуры и техпроцессы.** Большее число ядер, высокие IPC, DVFS/Boost и глубокие простои C-states снижают среднюю мощность. * **Память и I/O.** DDR5/HBM, PCIe Gen4/Gen5 и CXL сокращают «узкие места», уменьшая перерасход энергии на ожидание/пересылки. * **Питание сервера.** БП 80+ Titanium, мультифазные VRM, GaN-компоненты улучшают КПД при частичных нагрузках (характерно для ЦОД). * **Термодизайн.** Тепловые пакеты >300 Вт охлаждаются более эффективно (теплотрубки, жидкость, задние дверные теплообменники), что снижает работу внутренних вентиляторов. * **Power Management.** ACPI/EPB, per-core P-states, cap по TDP/PL, политики «race-to-idle» и оркестрация нагрузок гипервизором. ===== Практические следствия для ЦОД ===== * **Больше производительности при том же энергобюджете.** Возможен прирост плотности стоек без диспропорционального роста мощности и охлаждения. * **Стабильность при частичных нагрузках.** Современные платформы держат высокий КПД от 20–70% загрузки — типичный режим эксплуатации. * **Оптимизация инфраструктуры.** Данные SPECpower/etl по точкам 100/75/50/25% позволяют точнее размерить питание и охлаждение. * **Температурные допуски.** Новые серверы устойчивее к повышенной температуре входного воздуха (в рамках ASHRAE), что расширяет окна free-cooling. ===== Сравнение подходов (с точки зрения энергоэффективности) ===== ^ Подход ^ Преимущества ^ Ограничения ^ | **Унифицированные CPU** | Простота, зрелость экосистемы | Хуже performance per watt на ИИ/НРС | | **Гетерогенные CPU+GPU/TPU** | Максимальная производительность на ватт в ИИ/параллельных задачах | Пиковые плотности тепла, требуются продвинутые решения охлаждения | | **ARM/еффективные ядра** | Высокая энергоэффективность в облачных/скейлабельных сервисах | Портирование ПО/экосистема зависят от вендора | **Как использовать в проекте:** — Планируйте стойки и подвод мощности по «точкам нагрузки» из SPECpower/вендорных профилей. — Для ИИ-кластеров учитывайте горячие зоны и заранее закладывайте адресное/жидкостное охлаждение. — На уровне БП выбирайте 80+ Titanium, на уровне зала — распределение 230–240 В AC или DC-шины там, где это оправдано. ===== Риски и требования эксплуатации ===== * Повышенные тепловые потоки в узких зонах (GPU-узлы) → необходимость containment и/или жидкостных контуров. * Несогласованность политик энергосбережения ОС/гипервизора и бизнес-SLA → колебания латентности и всплески мощности. * Несвоевременный «technology refresh» → потеря выигрыша «performance per watt» и рост TCO. ===== Ключевые идеи ===== * Эволюция серверов — это устойчивый рост «производительность на ватт», а не только TDP. * Гетерогенные узлы (CPU+GPU/TPU) дают максимум эффективности, но требуют продуманного охлаждения и питания. * Реальные профили 100/75/50/25% — база для точного расчёта электропитания и HVAC. * Новые серверы допускают более высокие температуры входного воздуха в рамках ASHRAE, что расширяет возможности free-cooling. * 80+ Titanium БП и политики power management критичны для экономии при частичной загрузке. * Регулярный technology refresh фиксирует выгоду «performance per watt» и снижает совокупную стоимость владения.