Введение
Развитие больших языковых моделей (БЯМ) на протяжении 2023–2025 годов привело к качественному переходу: модель перестала быть исключительно генератором текста и превратилась в управляющее ядро автономной системы. Такие системы, получившие название ИИ-агентов, способны декомпозировать поставленную цель на подзадачи, выбирать и вызывать внешние инструменты (поисковые системы, интерпретаторы кода, программные интерфейсы), сохранять промежуточные результаты в памяти и корректировать собственное поведение на основе обратной связи. Именно переход от пассивных моделей к системам рассуждения и автономным агентам стал определяющим направлением исследований 2025 года.
Практическая привлекательность агентов очевидна. Они применяются для автоматизированного решения инженерных задач в репозиториях программного кода, для проведения исследований и анализа данных, для навигации по веб-интерфейсам и оркестрации сложных рабочих процессов в медицине, материаловедении и финансах. Вместе с тем взрывной рост числа агентных систем породил методологический разрыв: инструменты их построения развиваются значительно быстрее, чем инструменты их надёжной оценки. На практике это проявляется в том, что многие громкие результаты невозможно воспроизвести независимо, а сравнение конкурирующих систем затрудняется фрагментарностью и несопоставимостью используемых процедур измерения.
Корень проблемы носит структурный характер. Оценка агента сложнее, чем оценка изолированной языковой модели, поскольку агент действует в динамической интерактивной среде, рассуждает и планирует, исполняет инструменты, опирается на память и иногда взаимодействует с другими агентами или людьми. Стандартные метрики качества текстогенерации здесь недостаточны: значение имеет не только финальный ответ, но и траектория его получения, а также устойчивость поведения при повторении.
Цель настоящей работы – систематизировать накопленные к 2025 году подходы к проектированию, оценке и обеспечению воспроизводимости автономных ИИ-агентов и на этой основе сформулировать практические требования к достоверной экспериментальной отчётности. Для достижения цели поставлены следующие задачи: (1) выделить базовые архитектурные компоненты современных агентов; (2) предложить классификацию методов их оценки; (3) выявить типовые угрозы достоверности и воспроизводимости результатов; (4) сформулировать рекомендации, повышающие надёжность измерений.
Научная новизна работы состоит в сведении разрозненных подходов к оценке агентов в единую двухосевую классификацию и в систематизации угроз воспроизводимости с привязкой к конкретным методам их смягчения.
Литературный обзор
Идейные основания агентного подхода были заложены работами, в которых рассуждение и действие объединялись в единый цикл. Концепция чередования шагов рассуждения и действий (подход ReAct) показала, что явная вербализация промежуточных рассуждений в сочетании с вызовом внешних инструментов повышает качество решения задач [1]. Параллельно развивалась линия обучения моделей самостоятельному вызову инструментов посредством программных интерфейсов [2]. Механизм рефлексии, при котором агент анализирует собственные неудачи и корректирует стратегию на последующих попытках, расширил эти идеи в сторону самообучения без обновления весов модели [3].
Появление автономных агентов потребовало новых сред и наборов задач для их испытания. Среда для веб-агентов, воспроизводящая реалистичные интерактивные сайты, позволила измерять способность систем выполнять целенаправленные действия в браузере [4]. Для оценки инженерных способностей был предложен набор реальных задач из репозиториев программного обеспечения, требующих внесения корректных исправлений в код [5]. Обобщающие наборы задач, охватывающие рассуждение, использование инструментов и взаимодействие со средой, заложили основу сравнительного бенчмаркинга универсальных агентов [6].
К 2025 году область получила первые систематические обзоры. Обзор методов оценки агентов на основе БЯМ проанализировал пять измерений: ключевые способности, прикладные бенчмарки, оценку универсальных агентов, базовые характеристики самих бенчмарков и инструментарий разработчика; авторы зафиксировали сдвиг в сторону более реалистичных и постоянно обновляемых испытаний и указали на критические пробелы в оценке стоимости, безопасности и устойчивости [7]. Близкий по охвату обзор предложил таксономию из приблизительно шестидесяти бенчмарков и отдельно выделил корпоративные требования – ролевой доступ к данным, гарантии надёжности и длинногоризонтные взаимодействия [8]. Систематизация вызовов в области «фундаментальных агентов» рассмотрела переход от мозгоподобной архитектуры к эволюционирующим, кооперативным и безопасным системам [9].
Особое место занимают работы, посвящённые именно воспроизводимости. Критический анализ практики оценки агентов показал, что распространённые ошибки – отсутствие контроля стоимости и нестрогие протоколы – приводят к завышенным и невоспроизводимым выводам [10]. В ответ были предложены инфраструктурные решения: бенчмарк вычислительной воспроизводимости исследований [11], набор задач по репликации научных работ в области ИИ силами самих агентов [12] и централизованная платформа сводной и воспроизводимой оценки агентов [13]. Прогресс в моделях рассуждения, обученных с подкреплением, усилил агентные способности и одновременно обострил вопрос о честности сравнений [14].
Анализ литературы показывает, что при обилии методов построения агентов отсутствует общепринятый стандарт их оценки, а проблема воспроизводимости осознана, но не решена системно. Это обуславливает необходимость обобщающей классификации и практических рекомендаций, чему и посвящена настоящая работа.
Материалы и методы
Исследование выполнено в форме структурированного аналитического обзора литературы. Источником материала послужили рецензируемые публикации и препринты за период с 2022 по 2025 год включительно, индексируемые в базах arXiv, ACM Digital Library, а также материалах профильных конференций (NeurIPS, ICLR, ACL, KDD).
Стратегия поиска. Поиск проводился по ключевым словам и их сочетаниям: «LLM agent», «autonomous agent», «agent benchmark», «agent evaluation», «reproducibility», «tool use», «planning», «reflection». Дополнительно применялся метод «снежного кома» – анализ списков литературы найденных обзоров для выявления первоисточников.
Критерии включения. В корпус включались работы, которые: (а) предлагали архитектуру автономного агента на основе БЯМ; либо (б) вводили среду или набор задач для оценки агентов; либо (в) методологически рассматривали проблему достоверности и воспроизводимости агентных экспериментов.
Критерии исключения. Исключались работы, посвящённые исключительно базовым языковым моделям без агентного контура, а также публикации без доступного полного текста или описания методологии.
Метод анализа. Отобранные работы кодировались по двум аналитическим рамкам. Первая рамка фиксировала наличие у описанной системы каждого из четырёх архитектурных компонентов (планирование, использование инструментов, память, рефлексия). Вторая рамка классифицировала методы оценки по двум осям – объект измерения и процедура измерения. На основе кодирования выполнен качественный синтез. Поскольку работа носит обзорно-теоретический характер, собственные вычислительные эксперименты не проводились; все количественные утверждения относятся к свойствам проанализированного корпуса литературы.
Результаты
Архитектурная декомпозиция агентов
Синтез корпуса позволил выделить четыре повторяющихся архитектурных компонента, совокупность которых характеризует автономного агента и отличает его от изолированной языковой модели:
- Планирование – декомпозиция цели на упорядоченную последовательность подзадач, в том числе с возможностью пересмотра плана по ходу выполнения.
- Использование инструментов – вызов внешних функций и программных интерфейсов (поиск, исполнение кода, обращение к базам данных) для действий, выходящих за пределы текстогенерации.
- Память – сохранение и извлечение промежуточных результатов и контекста на горизонте, превышающем одно обращение к модели.
- Рефлексия – анализ собственных действий и ошибок с последующей коррекцией стратегии без обновления весов модели.
Зрелость агентной системы тем выше, чем полнее реализованы и согласованы между собой эти компоненты; именно их взаимодействие порождает сложное поведение, не сводимое к качеству отдельного ответа.
Двухосевая классификация методов оценки
Анализ процедур оценки выявил две независимые оси, совместное использование которых позволяет однозначно позиционировать любой существующий метод.
Ось А – объект измерения (что оценивается): итоговый результат – успешность достижения цели; траектория действий – корректность и эффективность промежуточных шагов, а не только финала; отдельная способность – изолированное измерение планирования, использования инструментов или памяти.
Ось Б – процедура измерения (как оценивается): эталонные наборы задач – фиксированные бенчмарки с объективным критерием успеха; автоматические судьи – оценка ответов другой моделью по заданным критериям; человеческая экспертиза – экспертная разметка, дорогостоящая, но незаменимая для субъективных аспектов.
Сочетание осей образует матрицу (см. Приложение А), в которой инженерные бенчмарки занимают ячейку «итоговый результат × эталонные задачи», а оценка качества рассуждений – ячейку «траектория × автоматический судья». Анализ показал концентрацию существующих методов в ячейке «итоговый результат × эталонные задачи» при относительной нехватке инструментов траекторной оценки.
Систематизация угроз воспроизводимости
В проанализированном корпусе устойчиво повторяются четыре класса угроз достоверности результатов:
- Стохастическая нестабильность – недетерминированность генерации приводит к различию результатов при повторных запусках; отчётность по единственному прогону завышает мнимую надёжность.
- Утечка бенчмарков – попадание тестовых задач в обучающие выборки моделей искажает оценку в сторону завышения.
- Игнорирование стоимости – сопоставление систем только по точности без учёта вычислительных затрат делает сравнение неполным и потенциально вводящим в заблуждение.
- Непрозрачность протокола – отсутствие фиксации версий модели, промптов, окружения и случайных начальных значений делает независимое повторение невозможным.
На основе систематизации угроз сформулирован минимальный набор требований к отчётности (см. Приложение Б): фиксация версий модели и программного окружения; многократные прогоны с указанием среднего и доверительного интервала; совместная публикация точности и стоимости; раскрытие полных траекторий и промптов; использование обновляемых или закрытых тестовых наборов для противодействия утечке.
Обсуждение
Полученные результаты указывают на фундаментальную асимметрию современного этапа развития агентных систем: инженерная изобретательность в построении агентов значительно опережает методологическую дисциплину в их оценке. Концентрация методов в ячейке «итоговый результат × эталонные задачи» объяснима – такие измерения дёшевы и объективны, – однако она создаёт систематическое слепое пятно. Агент может приходить к правильному ответу неверным путём (например, посредством случайного перебора или эксплуатации артефактов бенчмарка), и оценка только по финалу этого не улавливает. Развитие траекторной оценки представляется приоритетным направлением.
Проблема воспроизводимости в агентной области острее, чем в классическом машинном обучении, по двум причинам. Во-первых, к обычной стохастичности добавляется недетерминированность многошагового взаимодействия со средой, где ошибка на раннем шаге каскадно влияет на исход. Во-вторых, экономический фактор: высокая стоимость прогонов создаёт соблазн ограничиться единственным запуском, что прямо противоречит требованию статистической надёжности. Предложенное требование совместной отчётности точности и затрат переводит сравнение из одномерного («кто точнее») в двумерное («кто эффективнее при заданном бюджете»).
Сравнение с обзорными работами [7; 8] подтверждает выявленные тенденции – сдвиг к реалистичным и обновляемым испытаниям – и согласуется с критикой существующей практики оценки [10]. Вместе с тем настоящая работа вносит вклад, сводя разрозненные наблюдения в единую двухосевую рамку и связывая каждую угрозу воспроизводимости с конкретным механизмом её смягчения.
Ограничения исследования. Работа носит качественный обзорный характер и не включает собственной количественной верификации предложенной классификации; быстрая динамика области означает, что часть выводов требует уточнения по мере появления новых работ. Перспективными направлениями являются эмпирическая валидация двухосевой классификации на репрезентативной выборке бенчмарков и разработка стандартизированного протокола отчётности для агентных экспериментов.
Заключение
Проведённый анализ подтверждает, что переход к автономным ИИ-агентам стал ключевым направлением развития искусственного интеллекта в 2025 году, однако зрелость методов оценки этих систем отстаёт от зрелости методов их построения. В работе решены поставленные задачи: выделены четыре архитектурных компонента агентов; предложена двухосевая классификация методов оценки по объекту и процедуре измерения; систематизированы четыре класса угроз воспроизводимости и сформулированы соответствующие рекомендации.
Главный вывод состоит в том, что доверие к автономному агенту не может основываться на единичном впечатляющем результате – оно формируется лишь воспроизводимой, многократной и учитывающей стоимость оценкой, охватывающей не только финал, но и траекторию действий. Практическое следствие для исследователей и инженеров – необходимость с самого начала проектировать эксперимент как воспроизводимый. Дальнейшая работа видится в эмпирической проверке предложенной классификации и в выработке отраслевого стандарта отчётности.
Приложения
Приложение А. Матрица классификации методов оценки агентов
| Объект \ Процедура | Эталонные наборы задач | Автоматические судьи | Человеческая экспертиза |
|---|---|---|---|
| Итоговый результат | Инженерные и веб-бенчмарки (успех/неуспех) | Оценка финального ответа моделью-судьёй | Экспертная проверка решения |
| Траектория действий | Пошаговые сценарии с контрольными точками | Оценка корректности рассуждений моделью | Аудит логов действий экспертом |
| Отдельная способность | Изолированные тесты планирования / инструментов | Покритериальная оценка способности | Экспертная оценка отдельного навыка |
Приложение Б. Чек-лист воспроизводимости агентного эксперимента
- Зафиксированы версия модели, провайдер и дата обращения.
- Описаны промпты, температура генерации и параметры окружения.
- Указаны случайные начальные значения (где применимо).
- Выполнено не менее N повторных прогонов; приведены среднее и доверительный интервал.
- Совместно отчётны точность и стоимость (вызовы модели, токены, время).
- Опубликованы полные траектории действий агента.
- Подтверждено отсутствие пересечения тестовых задач с обучающими данными либо использован обновляемый/закрытый набор.
- Приведены ссылки на код и данные, достаточные для независимого повторения.
