От прототипа к доверию: оценка и воспроизводимость автономных ИИ-агентов

Аннотация статьи

В 2025 году центр тяжести исследований в области искусственного интеллекта сместился от пассивных языковых моделей к автономным агентам – системам на основе больших языковых моделей (БЯМ), способным самостоятельно планировать, использовать инструменты, накапливать память и многошагово решать задачи в динамической среде. Стремительный рост числа таких систем обнажил методологическую проблему: способы их построения опережают способы их надёжной оценки, а заявленные результаты часто невоспроизводимы. Настоящая статья представляет аналитический обзор подходов к проектированию, оценке и обеспечению воспроизводимости автономных ИИ-агентов. На основе систематизации корпуса научных публикаций 2022–2025 годов выделены четыре архитектурных компонента агентов (планирование, использование инструментов, память, рефлексия) и предложена двухосевая классификация методов оценки: по объекту измерения (итоговый результат, траектория действий, отдельная способность) и по процедуре измерения (эталонные наборы задач, автоматические судьи, человеческая экспертиза). Показано, что ключевыми барьерами достоверности являются нестабильность результатов при повторных запусках, утечка данных бенчмарков в обучающие выборки, отсутствие учёта стоимости вычислений и непрозрачность экспериментальных протоколов. Сформулированы практические рекомендации по обеспечению воспроизводимости. Результаты предназначены для исследователей и инженеров, разрабатывающих и внедряющих агентные системы.

Текст статьи

Введение

Развитие больших языковых моделей (БЯМ) на протяжении 2023–2025 годов привело к качественному переходу: модель перестала быть исключительно генератором текста и превратилась в управляющее ядро автономной системы. Такие системы, получившие название ИИ-агентов, способны декомпозировать поставленную цель на подзадачи, выбирать и вызывать внешние инструменты (поисковые системы, интерпретаторы кода, программные интерфейсы), сохранять промежуточные результаты в памяти и корректировать собственное поведение на основе обратной связи. Именно переход от пассивных моделей к системам рассуждения и автономным агентам стал определяющим направлением исследований 2025 года.

Практическая привлекательность агентов очевидна. Они применяются для автоматизированного решения инженерных задач в репозиториях программного кода, для проведения исследований и анализа данных, для навигации по веб-интерфейсам и оркестрации сложных рабочих процессов в медицине, материаловедении и финансах. Вместе с тем взрывной рост числа агентных систем породил методологический разрыв: инструменты их построения развиваются значительно быстрее, чем инструменты их надёжной оценки. На практике это проявляется в том, что многие громкие результаты невозможно воспроизвести независимо, а сравнение конкурирующих систем затрудняется фрагментарностью и несопоставимостью используемых процедур измерения.

Корень проблемы носит структурный характер. Оценка агента сложнее, чем оценка изолированной языковой модели, поскольку агент действует в динамической интерактивной среде, рассуждает и планирует, исполняет инструменты, опирается на память и иногда взаимодействует с другими агентами или людьми. Стандартные метрики качества текстогенерации здесь недостаточны: значение имеет не только финальный ответ, но и траектория его получения, а также устойчивость поведения при повторении.

Цель настоящей работы – систематизировать накопленные к 2025 году подходы к проектированию, оценке и обеспечению воспроизводимости автономных ИИ-агентов и на этой основе сформулировать практические требования к достоверной экспериментальной отчётности. Для достижения цели поставлены следующие задачи: (1) выделить базовые архитектурные компоненты современных агентов; (2) предложить классификацию методов их оценки; (3) выявить типовые угрозы достоверности и воспроизводимости результатов; (4) сформулировать рекомендации, повышающие надёжность измерений.

Научная новизна работы состоит в сведении разрозненных подходов к оценке агентов в единую двухосевую классификацию и в систематизации угроз воспроизводимости с привязкой к конкретным методам их смягчения.

Литературный обзор

Идейные основания агентного подхода были заложены работами, в которых рассуждение и действие объединялись в единый цикл. Концепция чередования шагов рассуждения и действий (подход ReAct) показала, что явная вербализация промежуточных рассуждений в сочетании с вызовом внешних инструментов повышает качество решения задач [1]. Параллельно развивалась линия обучения моделей самостоятельному вызову инструментов посредством программных интерфейсов [2]. Механизм рефлексии, при котором агент анализирует собственные неудачи и корректирует стратегию на последующих попытках, расширил эти идеи в сторону самообучения без обновления весов модели [3].

Появление автономных агентов потребовало новых сред и наборов задач для их испытания. Среда для веб-агентов, воспроизводящая реалистичные интерактивные сайты, позволила измерять способность систем выполнять целенаправленные действия в браузере [4]. Для оценки инженерных способностей был предложен набор реальных задач из репозиториев программного обеспечения, требующих внесения корректных исправлений в код [5]. Обобщающие наборы задач, охватывающие рассуждение, использование инструментов и взаимодействие со средой, заложили основу сравнительного бенчмаркинга универсальных агентов [6].

К 2025 году область получила первые систематические обзоры. Обзор методов оценки агентов на основе БЯМ проанализировал пять измерений: ключевые способности, прикладные бенчмарки, оценку универсальных агентов, базовые характеристики самих бенчмарков и инструментарий разработчика; авторы зафиксировали сдвиг в сторону более реалистичных и постоянно обновляемых испытаний и указали на критические пробелы в оценке стоимости, безопасности и устойчивости [7]. Близкий по охвату обзор предложил таксономию из приблизительно шестидесяти бенчмарков и отдельно выделил корпоративные требования – ролевой доступ к данным, гарантии надёжности и длинногоризонтные взаимодействия [8]. Систематизация вызовов в области «фундаментальных агентов» рассмотрела переход от мозгоподобной архитектуры к эволюционирующим, кооперативным и безопасным системам [9].

Особое место занимают работы, посвящённые именно воспроизводимости. Критический анализ практики оценки агентов показал, что распространённые ошибки – отсутствие контроля стоимости и нестрогие протоколы – приводят к завышенным и невоспроизводимым выводам [10]. В ответ были предложены инфраструктурные решения: бенчмарк вычислительной воспроизводимости исследований [11], набор задач по репликации научных работ в области ИИ силами самих агентов [12] и централизованная платформа сводной и воспроизводимой оценки агентов [13]. Прогресс в моделях рассуждения, обученных с подкреплением, усилил агентные способности и одновременно обострил вопрос о честности сравнений [14].

Анализ литературы показывает, что при обилии методов построения агентов отсутствует общепринятый стандарт их оценки, а проблема воспроизводимости осознана, но не решена системно. Это обуславливает необходимость обобщающей классификации и практических рекомендаций, чему и посвящена настоящая работа.

Материалы и методы

Исследование выполнено в форме структурированного аналитического обзора литературы. Источником материала послужили рецензируемые публикации и препринты за период с 2022 по 2025 год включительно, индексируемые в базах arXiv, ACM Digital Library, а также материалах профильных конференций (NeurIPS, ICLR, ACL, KDD).

Стратегия поиска. Поиск проводился по ключевым словам и их сочетаниям: «LLM agent», «autonomous agent», «agent benchmark», «agent evaluation», «reproducibility», «tool use», «planning», «reflection». Дополнительно применялся метод «снежного кома» – анализ списков литературы найденных обзоров для выявления первоисточников.

Критерии включения. В корпус включались работы, которые: (а) предлагали архитектуру автономного агента на основе БЯМ; либо (б) вводили среду или набор задач для оценки агентов; либо (в) методологически рассматривали проблему достоверности и воспроизводимости агентных экспериментов.

Критерии исключения. Исключались работы, посвящённые исключительно базовым языковым моделям без агентного контура, а также публикации без доступного полного текста или описания методологии.

Метод анализа. Отобранные работы кодировались по двум аналитическим рамкам. Первая рамка фиксировала наличие у описанной системы каждого из четырёх архитектурных компонентов (планирование, использование инструментов, память, рефлексия). Вторая рамка классифицировала методы оценки по двум осям – объект измерения и процедура измерения. На основе кодирования выполнен качественный синтез. Поскольку работа носит обзорно-теоретический характер, собственные вычислительные эксперименты не проводились; все количественные утверждения относятся к свойствам проанализированного корпуса литературы.

Результаты

Архитектурная декомпозиция агентов

Синтез корпуса позволил выделить четыре повторяющихся архитектурных компонента, совокупность которых характеризует автономного агента и отличает его от изолированной языковой модели:

Планирование – декомпозиция цели на упорядоченную последовательность подзадач, в том числе с возможностью пересмотра плана по ходу выполнения.
Использование инструментов – вызов внешних функций и программных интерфейсов (поиск, исполнение кода, обращение к базам данных) для действий, выходящих за пределы текстогенерации.
Память – сохранение и извлечение промежуточных результатов и контекста на горизонте, превышающем одно обращение к модели.
Рефлексия – анализ собственных действий и ошибок с последующей коррекцией стратегии без обновления весов модели.

Зрелость агентной системы тем выше, чем полнее реализованы и согласованы между собой эти компоненты; именно их взаимодействие порождает сложное поведение, не сводимое к качеству отдельного ответа.

Двухосевая классификация методов оценки

Анализ процедур оценки выявил две независимые оси, совместное использование которых позволяет однозначно позиционировать любой существующий метод.

Ось А – объект измерения (что оценивается): итоговый результат – успешность достижения цели; траектория действий – корректность и эффективность промежуточных шагов, а не только финала; отдельная способность – изолированное измерение планирования, использования инструментов или памяти.

Ось Б – процедура измерения (как оценивается): эталонные наборы задач – фиксированные бенчмарки с объективным критерием успеха; автоматические судьи – оценка ответов другой моделью по заданным критериям; человеческая экспертиза – экспертная разметка, дорогостоящая, но незаменимая для субъективных аспектов.

Сочетание осей образует матрицу (см. Приложение А), в которой инженерные бенчмарки занимают ячейку «итоговый результат × эталонные задачи», а оценка качества рассуждений – ячейку «траектория × автоматический судья». Анализ показал концентрацию существующих методов в ячейке «итоговый результат × эталонные задачи» при относительной нехватке инструментов траекторной оценки.

Систематизация угроз воспроизводимости

В проанализированном корпусе устойчиво повторяются четыре класса угроз достоверности результатов:

Стохастическая нестабильность – недетерминированность генерации приводит к различию результатов при повторных запусках; отчётность по единственному прогону завышает мнимую надёжность.
Утечка бенчмарков – попадание тестовых задач в обучающие выборки моделей искажает оценку в сторону завышения.
Игнорирование стоимости – сопоставление систем только по точности без учёта вычислительных затрат делает сравнение неполным и потенциально вводящим в заблуждение.
Непрозрачность протокола – отсутствие фиксации версий модели, промптов, окружения и случайных начальных значений делает независимое повторение невозможным.

На основе систематизации угроз сформулирован минимальный набор требований к отчётности (см. Приложение Б): фиксация версий модели и программного окружения; многократные прогоны с указанием среднего и доверительного интервала; совместная публикация точности и стоимости; раскрытие полных траекторий и промптов; использование обновляемых или закрытых тестовых наборов для противодействия утечке.

Обсуждение

Полученные результаты указывают на фундаментальную асимметрию современного этапа развития агентных систем: инженерная изобретательность в построении агентов значительно опережает методологическую дисциплину в их оценке. Концентрация методов в ячейке «итоговый результат × эталонные задачи» объяснима – такие измерения дёшевы и объективны, – однако она создаёт систематическое слепое пятно. Агент может приходить к правильному ответу неверным путём (например, посредством случайного перебора или эксплуатации артефактов бенчмарка), и оценка только по финалу этого не улавливает. Развитие траекторной оценки представляется приоритетным направлением.

Проблема воспроизводимости в агентной области острее, чем в классическом машинном обучении, по двум причинам. Во-первых, к обычной стохастичности добавляется недетерминированность многошагового взаимодействия со средой, где ошибка на раннем шаге каскадно влияет на исход. Во-вторых, экономический фактор: высокая стоимость прогонов создаёт соблазн ограничиться единственным запуском, что прямо противоречит требованию статистической надёжности. Предложенное требование совместной отчётности точности и затрат переводит сравнение из одномерного («кто точнее») в двумерное («кто эффективнее при заданном бюджете»).

Сравнение с обзорными работами [7; 8] подтверждает выявленные тенденции – сдвиг к реалистичным и обновляемым испытаниям – и согласуется с критикой существующей практики оценки [10]. Вместе с тем настоящая работа вносит вклад, сводя разрозненные наблюдения в единую двухосевую рамку и связывая каждую угрозу воспроизводимости с конкретным механизмом её смягчения.

Ограничения исследования. Работа носит качественный обзорный характер и не включает собственной количественной верификации предложенной классификации; быстрая динамика области означает, что часть выводов требует уточнения по мере появления новых работ. Перспективными направлениями являются эмпирическая валидация двухосевой классификации на репрезентативной выборке бенчмарков и разработка стандартизированного протокола отчётности для агентных экспериментов.

Заключение

Проведённый анализ подтверждает, что переход к автономным ИИ-агентам стал ключевым направлением развития искусственного интеллекта в 2025 году, однако зрелость методов оценки этих систем отстаёт от зрелости методов их построения. В работе решены поставленные задачи: выделены четыре архитектурных компонента агентов; предложена двухосевая классификация методов оценки по объекту и процедуре измерения; систематизированы четыре класса угроз воспроизводимости и сформулированы соответствующие рекомендации.

Главный вывод состоит в том, что доверие к автономному агенту не может основываться на единичном впечатляющем результате – оно формируется лишь воспроизводимой, многократной и учитывающей стоимость оценкой, охватывающей не только финал, но и траекторию действий. Практическое следствие для исследователей и инженеров – необходимость с самого начала проектировать эксперимент как воспроизводимый. Дальнейшая работа видится в эмпирической проверке предложенной классификации и в выработке отраслевого стандарта отчётности.

Приложения

Приложение А. Матрица классификации методов оценки агентов

Объект \ Процедура	Эталонные наборы задач	Автоматические судьи	Человеческая экспертиза
Итоговый результат	Инженерные и веб-бенчмарки (успех/неуспех)	Оценка финального ответа моделью-судьёй	Экспертная проверка решения
Траектория действий	Пошаговые сценарии с контрольными точками	Оценка корректности рассуждений моделью	Аудит логов действий экспертом
Отдельная способность	Изолированные тесты планирования / инструментов	Покритериальная оценка способности	Экспертная оценка отдельного навыка

Приложение Б. Чек-лист воспроизводимости агентного эксперимента

Зафиксированы версия модели, провайдер и дата обращения.
Описаны промпты, температура генерации и параметры окружения.
Указаны случайные начальные значения (где применимо).
Выполнено не менее N повторных прогонов; приведены среднее и доверительный интервал.
Совместно отчётны точность и стоимость (вызовы модели, токены, время).
Опубликованы полные траектории действий агента.
Подтверждено отсутствие пересечения тестовых задач с обучающими данными либо использован обновляемый/закрытый набор.
Приведены ссылки на код и данные, достаточные для независимого повторения.

Список литературы

Yao S., Zhao J., Yu D., Du N., Shafran I., Narasimhan K., Cao Y. ReAct: Synergizing Reasoning and Acting in Language Models // International Conference on Learning Representations (ICLR). 2023. arXiv:2210.03629.
Schick T., Dwivedi-Yu J., Dessì R., Raileanu R., Lomeli M., Zettlemoyer L., Cancedda N., Scialom T. Toolformer: Language Models Can Teach Themselves to Use Tools // Advances in Neural Information Processing Systems (NeurIPS). 2023. arXiv:2302.04761.
Shinn N., Cassano F., Berman E., Gopinath A., Narasimhan K., Yao S. Reflexion: Language Agents with Verbal Reinforcement Learning // Advances in Neural Information Processing Systems (NeurIPS). 2023. arXiv:2303.11366.
Zhou S., Xu F. F., Zhu H., Zhou X., Lo R., Sridhar A., Cheng X., Ou T., Bisk Y., Fried D. et al. WebArena: A Realistic Web Environment for Building Autonomous Agents. 2023. arXiv:2307.13854.
Jimenez C. E., Yang J., Wettig A., Yao S., Pei K., Press O., Narasimhan K. SWE-bench: Can Language Models Resolve Real-World GitHub Issues? // International Conference on Learning Representations (ICLR). 2024. arXiv:2310.06770.
Liu X., Yu H., Zhang H., Xu Y., Lei X., Lai H. et al. AgentBench: Evaluating LLMs as Agents // International Conference on Learning Representations (ICLR). 2024. arXiv:2308.03688.
Yehudai A., Eden L., Li A., Uziel G., Zhao Y., Bar-Haim R., Cohen A., Slonim N. Survey on Evaluation of LLM-based Agents. 2025. arXiv:2503.16416.
Mohammadi M., Li Y., Lo J., Yip W. Evaluation and Benchmarking of LLM Agents: A Survey // Proceedings of the 31st ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD '25). Toronto, Canada: ACM, 2025. arXiv:2507.21504.
Liu B., Li X., Zhang J., Wang J., He T., Hong S. et al. Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems. 2025.
Kapoor S., Stroebl B., Siegel Z. S., Nadgir N., Narayanan A. AI Agents That Matter. 2024. arXiv:2407.01502.
Siegel Z. S., Kapoor S., Nadgir N., Stroebl B., Narayanan A. CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark. 2024.
Starace G., Jaffe O., Sherburn D., Aung J., Chan J. S., Maksin L., Dias R., Mays E., Kinsella B., Thompson W., Heidecke J., Glaese A., Patwardhan T. PaperBench: Evaluating AI's Ability to Replicate AI Research. 2025. arXiv:2504.01848.
Stroebl B., Kapoor S., Narayanan A. HAL: A Holistic Agent Leaderboard for Centralized and Reproducible Agent Evaluation. 2025.
DeepSeek-AI. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. 2025. arXiv:2501.12948.

От прототипа к доверию: оценка и воспроизводимость автономных ИИ-агентов

Цитирование

Похожие статьи

Другие статьи из раздела «Технические науки»