Адаптация математических моделей и оптимизация технологических процессов в облачных ИТ-системах

Акимзаде Расул; Кулиев Самир Закир оглу

1. Введение

Современные технологические процессы реализуются, как и на уровне оборудования, так и в программной инфраструктуре. Облачный сервис, система обработки запросов, распределенная база данных или платформа анализа потоков имеют входные потоки, внутренние состояния и управляемые параметры. Следовательно, такие системы можно рассматривать как динамические объекты, к которым могут применяться методы математического моделирования, оптимизации и обратной связи. Одной из фундаментальных характеристик ИТ-инфраструктуры является то, что её параметры значительно колеблются со временем. На производительность влияют обновления приложений, изменение профилей запросов пользователей, состояние кэша, нагрузка на базу данных и задержка в сети. Следовательно, модель, построенная на основе исторических данных, со временем теряет свою точность. Если решения по оптимизации основаны на устаревшей модели, формально корректный расчёт может привести к неэффективному режиму работы на практике. В классическом подходе сначала создается модель процесса, а затем эта модель используется для решения задачи оптимального управления. Этот подход полезен, но не всегда достаточен в ИТ-системах. Для оперативного управления глобальная точность модели во всем диапазоне нагрузок важнее, чем ее надежность в текущих или ожидаемых условиях эксплуатации. Концепция локальной точности согласуется с подходами к описанию систем, где качество модели оценивается с учетом объективных параметров модели и имеющихся наблюдений [6, с. 25].

Цель данной статьи – предложить и объяснить на примерах структуру адаптации математической модели в системе облачных вычислений и оптимизации технологического процесса. Предметом исследования является сервис, требующий поддержания среднего времени отклика на определенном уровне при одновременном ограничении потребления вычислительных ресурсов. Такая задача типична для автоматического масштабирования и AIOps-платформ, где управление должно быть одновременно экономичным и устойчивым.

Научная и практическая значимость этой работы заключается в том, что параметрическая идентификация и оптимизация рассматриваются не как независимые процедуры, а как элементы единого цикла принятия решений. Такой подход особенно важен для систем, где параметры изменяются быстрее, чем накапливается большая обучающая выборка.

2. Объекты и методы исследования

Предметом данного исследования является система облачных вычислений, обрабатывающая поток запросов пользователей. В общем случае ее состояние можно описать вектором x(t), включающим длину очереди, среднее время ожидания, частоту ошибок, загрузку процессора и другие показатели мониторинга. Вектор управления u определяет параметры, которые может изменять оператор или автоматизированный контроллер: количество экземпляров приложения, квота процессора, объем памяти или пропускная способность канала.

Внешние факторы обозначим через v(t). К ним относятся интенсивность входного потока, доля тяжелых запросов, сетевые условия и обращения к сторонним сервисам. В отличие от u, эти переменные не задаются напрямую, но они должны учитываться при выборе режима. Динамика процесса может быть представлена системой дифференциальных уравнений dx(t)/dt = f(x(t), u(t), v(t), p), x(0) = x0, t in [0, T], где p – вектор параметров модели. Параметры p отражают свойства системы, которые не назначаются оператором напрямую. Например, они могут характеризовать скорость обработки запросов одним контейнером, эффективность кэша или влияние очереди на задержку.

Для оценки параметров используется метод наименьших квадратов. Его применение в инженерных задачах оправдано тем, что измерения мониторинга обычно содержат шум, а сама модель является упрощением реального процесса. Идентификация записывается как задача минимизации невязки между наблюдаемыми и расчетными значениями состояния: S(p) = sum w_i ||x_i - x(t_i; u_i, v_i, p)||^2 + alpha ||p||^2 -> min.

Вес w_i показывает, насколько i-е наблюдение релевантно текущему режиму. Чем ближе историческая нагрузка и управление к рассматриваемым условиям, тем больше влияние наблюдения на оценку параметров. Коэффициент коррекции альфа снижает риск переобучения, особенно когда данные мониторинга неполны или содержат выбросы. Вопросы стандартизации и стабильности численных процедур тесно связаны с общими методами оптимизации [2, с. 114].

3. Постановка задачи оптимизации

После оценки параметров требуется выбрать управление u, обеспечивающее приемлемое качество работы системы. Для облачных сервисов производительность тесно связана с задержкой отклика и стоимостью вычислительных ресурсов. Если L(u) обозначает расчетную задержку, а L* – целевое значение, то функционал качества можно задать в виде J(u) = (L(u) - L*)^2 + rho (u - u0)^2 -> min, u_min <= u <= u_max.

Первое слагаемое отвечает за соблюдение качества обслуживания, второе – за экономию ресурсов и отказ от необоснованного масштабирования. Параметр rho задает компромисс между техническим качеством и стоимостью эксплуатации. В задачах выпуклой оптимизации такой функционал удобен тем, что штрафы имеют понятный смысл и допускают численный поиск минимума [3, с. 152].

Однако использование устаревших p-параметров может привести к ошибкам в результатах оптимизации. Поэтому в данном исследовании был использован адаптивный подход: параметры модели пересчитываются в соответствии с текущими условиями, после чего выполняется новый этап оптимизации. По сути, система работает по принципу обратной связи. Идея обратной связи является фундаментальной для управления техническими системами, поскольку она позволяет компенсировать неопределенность и внешние возмущения [4, с. 33].

На практике адаптивная процедура может выполняться периодически, например, каждые 10 минут, или по событиям – в ответ на внезапное изменение нагрузки, увеличение ошибки прогнозирования или нарушение SLA. Важно отметить, что модель не полностью заменяет инженерное решение. Она обеспечивает вычислительную основу, а окончательное решение должно учитывать чувствительность к ресурсам, ограничения платформы и эксплуатационные требования.

4. Схема адаптивной идентификации и оптимизации

Предлагаемая схема состоит из нескольких последовательных операций. Сначала система мониторинга собирает текущие и исторические показатели: нагрузку, число активных контейнеров, среднюю или p95-задержку, длину очереди и процент ошибок. Затем для каждого наблюдения вычисляется вес, отражающий близость к текущему режиму. После этого решается задача идентификации параметров и выполняется оптимизация управления.

На практике процедуру можно описать следующим образом: на первом этапе определяются допустимые значения параметров управления и целевой показатель эффективности. На втором этапе создается выборка наблюдений для самых последних временных интервалов. На третьем этапе параметры модели уточняются с использованием взвешенного критерия. На четвертом шаге вычисляется значение функционала качества для допустимых вариантов u. На последнем шаге выбирается управление, которое не нарушает технические ограничения и дает минимальное значение критерия.

Таблица 1 обобщает элементы адаптивного цикла. Она показывает, что идентификация и оптимизация не являются разовыми действиями. Они должны повторяться по мере изменения условий эксплуатации.

Таблица 1

Этапы адаптивного цикла управления облачной ИТ-системой

Этап	Содержание	Результат
Сбор данных	Фиксация нагрузки, задержки, очереди и текущего управления	Набор наблюдений для идентификации
Взвешивание	Оценка близости исторических режимов к текущему	Локальная выборка с разными весами
Идентификация	Минимизация взвешенной невязки модели	Актуальные параметры p
Оптимизация	Поиск управления по функционалу качества	Рекомендуемое значение u
Проверка	Сравнение прогноза с мониторингом после изменения режима	Основание для нового цикла

5. Математическая модель облачного сервиса

Рассмотрим упрощенную модель сервиса, который принимает входящие запросы и обрабатывает их с помощью выделенных вычислительных ресурсов. Пусть x(t) – нормированная длина очереди. При росте x(t) увеличивается задержка, а при достаточной вычислительной мощности очередь уменьшается. Интенсивность входного потока обозначим lambda(t), а управление u будем трактовать как число условных ресурсных единиц.

Динамику очереди зададим уравнением dx(t)/dt = a lambda(t) - b u x(t).

Коэффициент a переводит входную нагрузку в прирост очереди, а параметр b характеризует эффективность обработки. Если b уменьшается, один и тот же объем ресурсов обслуживает поток хуже. Такая ситуация может возникнуть после изменения профиля запроса, повреждения кэша или увеличения времени доступа к базе данных. В более сложных системах аналогичный подход приводит к многомерным моделям, где отдельные экземпляры соответствуют веб-уровню, базе данных, кэшу и фоновому процессу [1, с. 39].

Задержку ответа выразим через состояние системы: L(t) = L0 + c x(t).

Здесь L0 – минимальная технологическая задержка, а c - коэффициент влияния очереди. Модель не претендует на полное описание всех внутренних процессов. Ее задача - дать достаточно точный локальный прогноз для выбора режима управления.

6. Расчетный пример

Пусть облачный сервис работает с целевой задержкой L* = 100 мс. Минимальная задержка при пустой очереди составляет L0 = 40 мс, коэффициент влияния очереди c = 25 мс, коэффициент a = 0,02. Требуется оценить параметр b по данным мониторинга и выбрать число контейнеров для нагрузки lambda = 70 запросов/с. Для простоты шаг наблюдения принимается равным одной минуте.

Исходные данные представлены в таблице 2. Они отражают несколько последовательных интервалов, в которых менялись входная нагрузка и выделенное количество ресурсов. Значения x_i и x_{i+1} показывают состояние очереди в начале и конце интервала.

Таблица 2

Данные мониторинга для оценки параметра обработки

i	lambda_i, req/s	u_i	x_i	x_{i+1}
1	44	3.0	1.51	1.86
2	51	3.1	1.86	2.09
3	57	3.5	2.09	2.26
4	63	3.8	2.26	2.34
5	70	4.3	2.34	2.43
6	79	4.8	2.43	2.55
7	75	5.0	2.55	2.46
8	69	4.7	2.46	2.41
9	61	4.1	2.41	2.31
10	58	3.9	2.31	2.3

Производную в уравнении очереди аппроксимируем конечной разностью: d_i = x_{i+1} - x_i. Тогда для каждого наблюдения получаем d_i = a lambda_i - b u_i x_i. Отсюда оценка параметра b по методу наименьших квадратов имеет вид

b_hat = sum u_i x_i (a lambda_i - d_i) / sum (u_i x_i)^2.

Подстановка данных таблицы 2 дает b_hat = 0,121. Полученное значение означает, что один условный контейнер уменьшает очередь со скоростью, пропорциональной 0,121 x(t). Само число не следует трактовать как постоянную характеристику сервиса. При изменении программного кода, базы данных или аппаратной платформы параметр должен быть оценен заново.

В установившемся режиме dx/dt = 0. Следовательно, x* = a lambda / (b u), а задержка равна L(u) = L0 + c a lambda / (b u). Для lambda = 70 и b_hat = 0,121 получаем приближенно L(u) = 40 + 289,3/u. Далее минимизируем функционал J(u) = (L(u) - 100)^2 + 1,8(u - 3,5)^2 на интервале 1 <= u <= 10.

Численный перебор показывает, что непрерывный минимум достигается около u = 4,82. Поскольку число контейнеров является дискретной величиной, необходимо сравнить соседние целые значения. Результат представлен в таблице 3.

Таблица 3

Сравнение дискретных режимов масштабирования

u	x*	L(u), мс	Оценка режима
4	2,39	112,3	ресурсы экономятся, но задержка выше цели
5	1,91	97,9	качество соблюдается с небольшим запасом
6	1,59	79,8	избыточный расход ресурсов

7. Результаты и их обсуждение

Сравнение режимов показывает, что значение u = 5 является наиболее рациональным для заданных условий. Режим u = 4 дешевле, но приводит к задержке выше целевого уровня, что может быть недопустимо при наличии SLA. Режим u = 6 дает значительный запас по задержке, однако увеличивает стоимость эксплуатации без явной необходимости. Поэтому адаптивная модель не просто предлагает увеличить ресурсы, а помогает обосновать конкретную величину масштабирования.

Главный вывод из этого примера – продемонстрировать связь между мониторингом и управлением. Наблюдаемые данные используются не только для построения графиков или оповещений о тревоге, но и для уточнения параметров модели. Затем модель используется для расчета решения по управлению. Такой подход близок к философии автоматических систем управления для компьютерных систем, где производительность рассматривается как управляемая переменная [7, с. 58].

Важным преимуществом является возможность учитывать локальную релевантность данных. Наблюдения при близкой нагрузке и близком числе контейнеров должны сильнее влиять на оценку b, чем старые данные из другого режима. Это особенно важно в облачных платформах, где поведение системы может резко отличаться утром, вечером и во время маркетинговых кампаний.

Однако предложенная схема имеет ограничения. Во-первых, она зависит от качества мониторинга. Если данные о задержке и очереди неполны, содержат задержки или выбросы, оценки параметров могут исказиться. Во-вторых, частые изменения количества контейнеров могут вызывать колебания, поэтому алгоритм должен включать ограничение скорости гистерезиса и изменений управления. В-третьих, одномерная модель не всегда отражает реальную архитектуру сервиса. В книге М. Клеппмана подробно показано, что узкие места распределенных приложений часто возникают не в вычислительном слое, а в согласованности данных, репликации и сетевых взаимодействиях [8, с. 89].

Модель может быть расширена для систем с несколькими компонентами. Например, очередь веб-приложения, очередь базы данных и скорость медленных транзакций могут быть определены отдельными уравнениями. Тогда оптимизация будет выбирать не только общее количество ресурсов, но и их распределение по слоям. Если решение разбить на последовательные шаги, в таких задачах можно использовать динамическое программирование [5, с. 62].

8. Практические рекомендации

Для внедрения адаптивного подхода в реальной ИТ-инфраструктуре необходимо заранее определить набор наблюдаемых переменных. Минимальный набор включает входную нагрузку, среднюю или p95-задержку, число активных экземпляров, загрузку CPU и процент ошибок. Для сервисов с базой данных полезно дополнительно учитывать время ожидания соединений, число медленных запросов и использование кэша.

Измерения следует нормализовать. Без нормализации переменная с большим числовым масштабом может чрезмерно влиять на определяющий критерий. Также важно отделить выбросы от устойчивых изменений режима. Этого можно достичь с помощью скользящих окон, медианных фильтров и проверки качества прогнозирования за последние несколько интервалов.

Решение для оптимизации не следует реализовывать механически. После непрерывных вычислений необходимо проверить наиболее близкие к допустимым дискретным вариантам, поскольку количество контейнеров, размер виртуальной машины и тарифный класс обычно задаются целыми числами или ограниченными значениями. Кроме того, полезно добавить минимальное время удержания режима, чтобы предотвратить слишком частое переключение платформы.

Наконец, адаптивную модель необходимо протестировать на исторических данных и в изолированном контуре. После сравнения рассчитанных рекомендаций с фактическими реакциями системы ее можно переключить в полуавтоматический или автоматический режим управления. Эта процедура снижает риск некорректных реакций на шум мониторинга.

9. Заключение

В данной статье рассматривается проблема адаптации математических моделей и оптимизации технологических процессов в системах облачных вычислений. Показано, что цифровую услугу можно определить как динамический объект, состояние которого изменяется под влиянием входной нагрузки и управляемых ресурсов.

Предложенная схема объединяет параметрическую идентификацию и оптимизацию. Параметры модели уточняются по данным мониторинга, а управляющее решение выбирается с учетом целевой задержки и стоимости ресурсов. На расчетном примере получена оценка эффективности обработки b_hat = 0,121 и показано, что для нагрузки 70 запросов/с рациональным дискретным решением является использование пяти контейнеров.

Практическая значимость этого подхода заключается в том, что математическая модель может использоваться в качестве адаптивного инструмента оперативного управления. В отличие от разовой настройки, такая модель регулярно совершенствуется и, следовательно, лучше адаптируется к изменяющимся условиям эксплуатации. Дальнейшее развитие этого исследования может включать многомерные модели, рекурсивную идентификацию, оценку нагрузки и робастную оптимизацию в условиях неопределенности параметров.

Важно подчеркнуть, что предложенный подход не заменяет инженерную экспертизу. Он формализует часть решения, делает его проверяемым и обеспечивает более четкое понимание баланса между качеством обслуживания и стоимостью инфраструктуры. Поэтому адаптивное моделирование может быть полезным элементом современных автоматизированных систем масштабирования и интеллектуального мониторинга.

Адаптация математических моделей и оптимизация технологических процессов в облачных ИТ-системах

Цитирование

Похожие статьи

Другие статьи из раздела «Математика»