Раздел посвящён переходу от традиционной инфраструктуры с жёсткой связью компонентов к гибким, программно-управляемым архитектурам, где вычисления, сеть и хранение формируются из независимых ресурсов и управляются через политики, автоматизацию и оркестрацию. В центре подхода — уровни абстракции (SDx — Software Defined Everything), инфраструктура как код (IaC — Infrastructure as Code), механизмы устойчивости и компонуемая архитектура, в которой ресурсы объединяются и разделяются программно.
Архитектуры и модели
Надёжность и развитие
Стек программно-определяемого ЦОДа (навигация)
Слои управления и типовые решения
| Слой | Назначение | Примеры технологий (без привязки к производителям) | Возможные сложности | Результаты и артефакты |
|---|---|---|---|---|
| Политики/Intent | Формулирование целей и ограничений на уровне сервиса | Policy-as-Code (политики как код), уровни SLO/SLA, сетевые и безопасностные политики | Несогласованность между командами, отсутствие единого источника данных | Каталог политик, матрица соответствия, модель уровней сервиса |
| Оркестрация и автоматизация (IaC/CM) | Автоматизация развертывания и управления жизненным циклом | IaC (Terraform), CM (Ansible), GitOps/CI-CD | Ошибки при изменениях, расхождение конфигураций | Репозитории с кодом, пайплайны, контроль версий |
| Контрольные плоскости SDx | Программное управление сетью, хранилищами и вычислительными ресурсами | SDN, SDS, SDC | Интеграция разных систем, разделение управления и передачи данных | Архитектурные схемы, карты потоков трафика и данных |
| Платформа выполнения | Изоляция и планирование ресурсов | Виртуальные машины, контейнерные оркестраторы, NUMA/CPU-пиннинг | «Шумные соседи», задержки, перегрузка | Профили узлов, квоты и лимиты, классы качества обслуживания |
| Платформенные службы | Общие сервисы для приложений и DevOps | Регистры, управление секретами, сервис-меш, каталоги | Централизованная аутентификация и ключевая инфраструктура | Каталог сервисов, политика доступа |
| Аппаратные пулы и компоновка | Формирование серверов из независимых модулей | Дезагрегация, RDMA/RoCE, CXL | Задержки и нагрузка между узлами (East-West), зависимость от фабрики | Карта модулей, план мощности и ёмкости |
Паттерны устойчивости (на уровне платформы и приложений)
| Подход | Где применяется | Результат | Комментарий |
|---|---|---|---|
| Актив-актив (мультизона/мультирегион) | Платформа/приложение | Почти нулевое время простоя (RTO≈0), низкие потери данных (RPO) | Требует распределённой базы данных и балансировки |
| Актив-резерв (горячий/тёплый standby) | Платформа/БД | Предсказуемое восстановление | Стоимость резерва, необходимость тестирования |
| Без состояния + горизонтальное масштабирование | Приложение | Быстрое масштабирование, упрощённое обновление | Состояние хранится во внешних сервисах |
| Репликация данных (синхронная/асинхронная) | Хранилища/БД | Контроль потери данных (RPO) | Баланс между консистентностью, доступностью и задержкой |
| Circuit-breaker / Retry / Backoff | Сетевое взаимодействие | Локализация сбоев, устойчивость к деградации | Нужны таймауты и бюджет ошибок |
| Хаос-тестирование и учения по аварийному восстановлению | Платформа/операции | Проверка готовности и устойчивости | Рекомендуется включать в план изменений |
Ключевые показатели управления
Контрольные вопросы