Это старая версия документа!

Программно-определяемые среды в ЦОД

Раздел о переходе от жёстко связанной инфраструктуры к гибким, программно-управляемым архитектурам: слои абстракции (SDx), оркестрация/автоматизация (IaC/CM), механизмы устойчивости и компонуемая (дезагрегированная) инфраструктура.

Архитектуры и модели

Надёжность и развитие

Стек программно-определяемого ЦОДа (навигация)

flowchart TB classDef big font-size:26px,stroke-width:1.2px,padding:10px; Policy["Политики и намерения (Intent, SLO/SLA)"]:::big --> Orchestration["Оркестрация и автоматизация (IaC/CM: Terraform/Ansible; GitOps)"]:::big Orchestration --> Control["Контрольные плоскости SDx (SDN/SDS/SDC)"]:::big Control --> Platform["Платформа выполнения (гипервизоры, контейнерные кластеры)"]:::big Platform --> Services["Службы платформы (регистры/секреты, сервис-меш, каталоги)"]:::big Services --> Hardware["Пулы ресурсов: вычисления, хранилища, сеть, ускорители"]:::big Observ["Наблюдаемость и телеметрия (логирование, метрики, трассировка)"]:::big --- Orchestration Observ --- Control Observ --- Platform

Опорная таблица: слои и типовые решения

Слой	Роль	Примеры технологий (без привязки к вендору)	Риски/ограничения	Результаты (артефакты)
Политики/Intent	Декларативные цели (уровни сервиса, безопасность, размещение)	Policy-as-Code, SLO/SLA, сетевые/безопасностные политики	Несогласованность политик, отсутствие «источника истины»	Каталог политик, матрица соответствия, модель SLO
Оркестрация/IaC/CM	Описательное развертывание и управление жизненным циклом	IaC (Terraform), CM (Ansible), GitOps/CI-CD	Дрифт конфигураций, «снежинки», ошибки изменений	Репозитории IaC, пайплайны, контроль изменений
SDx-контрольные плоскости	Программное управление сетью/хранилищами/вычислениями	SDN (overlay/underlay), SDS (NVMe-oF, erasure coding), SDC	Сложность интеграции, разделение control/data plane	Арх. схемы, однолинейные планы трафика/данных
Платформа выполнения	Изоляция и планирование ресурсов	Гипервизоры, контейнерные оркестраторы, NUMA/CPU-пиннинг	«шумные соседи», плотность, NUMA/latency	Профили узлов, квоты/лимиты, QoS классы
Платформенные службы	Сквозные сервисы для приложений	Регистры, секрет-менеджмент, сервис-меш, сервис-дискавери	Единая идентификация, ключи/сертификаты	Каталог сервисов, политика доступа
Аппаратные пулы/компоновка	Динамическое составление серверов из ресурсов	Disaggregation/Composability, RDMA/RoCE, (emerging) CXL	Задержки/нагрузка East-West, зависимость от фабрики	Карта модулей, план емкости/пропускной способности

Паттерны устойчивости (уровень платформы и приложений)

Паттерн	Где применяется	Что даёт	Замечания
Active-Active (мультизона/мультирегион)	Платформа/приложение	RTO≈0, низкий RPO	Требует распределённых данных и балансировки
Active-Standby (горячий/тёплый резерв)	Платформа/БД	Предсказуемый RTO, контролируемый RPO	Стоимость простоя резерва, тестирование фейловера
Стателесс + горизонтальное масштабирование	Приложение	Быстрый автоскейлинг, простая замена	Состояние выносить в внешние сервисы
Репликация данных (синхр/асинхр)	Хранилища/БД	Контроль RPO	CAP-компромиссы (консистентность/доступность/задержка)
Circuit-breaker/Retry/Backoff	Сетевое взаимодействие	Локализация сбоев, устойчивость к деградации	Нужны таймауты и бюджет ошибок (SRE)
Хаос-тестирование/DR-тренировки	Платформа/Операции	Проверка реальной готовности	Интегрировать в процесс изменений

Ключевые показатели для управления

Время предоставления ресурса (Provisioning Lead Time), скорость изменений и доля успешных изменений.
Автоматизированное покрытие (доля ресурсов под IaC/CM), дрифт конфигураций.
Доступность/SLO по зонам/кластерам; MTTR; ошибочный бюджет.
Утилизация пулов (CPU/память/IO/сеть/ускорители), стоимость за единицу (€/vCPU-час, €/GB-мес).
Сетевой East-West трафик и задержка в фабрике (особенно при дезагрегации).

Контрольные вопросы

Политики (Intent/SLO) формализованы как код? Кто владелец и как идёт контроль изменений?
Все критичные кластеры и сети описаны через IaC/CM с воспроизводимыми пайплайнами?
Разделение control/data plane, отказоустойчивость контроллеров и журналирование событий обеспечены?
Определены паттерны устойчивости для приложений и данных (RTO/RPO, зоны/регионы, тесты DR)?
Для компонуемой инфраструктуры оценены задержки и полоса East-West; есть лимиты/политики размещения?
Наблюдаемость полная: метрики, логи, трассировка, карта зависимостей и SLO-отчётность?