Изучение бенчмарка Vals.ai: ИИ-агенты не готовы заменить финансовых аналитиков

Несмотря на наличие передовых исследовательских инструментов и значительные финансовые вложения, самые современные языковые модели не способны эффективно решать сложные финансовые задачи. Согласно новому бенчмарку от Vals.ai, даже лучшие автономные ИИ-агенты демонстрируют низкую надежность в области финансового анализа. Так, наиболее успешная модель, o3 от OpenAI, продемонстрировала точность всего 48,3% при средней стоимости запроса в $3,69.

Экзамен был разработан в сотрудничестве со Стэнфордской лабораторией и банком с мировым значением, и включал 537 задач, моделирующих реальные обязанности финансовых аналитиков, такие как анализ документов SEC, исследование рынков и составление прогнозов. В тестировании принимали участие 22 ведущие модели.

Модели продемонстрировали относительно скромный успех в простых задачах, например, в извлечении численных данных или резюмировании текстов, где точность варьировалась от 30% до 38%. Однако при выполнении более сложных заданий большинство моделей не справились. В категории «Тенденции» десять моделей показали 0% точности, а лучшая из них, Claude 3.7 Sonnet, достигла всего 28,6%.

Чтобы выполнить тестовые задания, среда бенчмарка предлагала агентам доступ к различным инструментам, таким как EDGAR, Google и HTML-парсер. Модели, такие как o3 от OpenAI и Claude 3.7 Sonnet (Thinking), которые чаще пользовались этими ресурсами, в целом показывали более высокие результаты. В противоположность им, модели, такие как Llama 4 Maverick, зачастую проигнорировали возможности использования инструментов, что привело к неудовлетворительным результатам.

Тем не менее, частое использование инструментов не всегда было показателем лучшей работы. Модель GPT-4o Mini, которая совершила наибольшее количество вызовов инструментов, все равно показала низкую точность в связи с частыми ошибками формата и логики выполнения задач. Llama 4 Maverick, напротив, часто предоставляла ответы, вообще не прибегая к поиску информации.

В некоторых ситуациях стоимость обработки отдельного запроса превышала $5. Модель o1 от OpenAI оказалась особенно неэффективной, отличаясь низким уровнем точности и высокой стоимостью, что в реальных условиях эксплуатации потребовало бы сравнения этих затрат с затратами на труд человека.

Выявленные результаты моделей варьировались. В одной задаче, касающейся выкупа акций Netflix в четвертом квартале 2024 года, Claude 3.7 Sonnet (Thinking) и Gemini 2.5 Pro предоставили точные ответы с необходимыми ссылками на источники. Напротив, GPT-4o и Llama 3.3 либо упустили важную информацию, либо стали источником неверных ответов. Эти расхождения подчеркивают значимость человеческого контроля в таких сферах, как оперативное проектирование, настройка системы и внутренний бенчмаркинг.

Компания Vals.ai заключает, что современные ИИ-агенты способны справляться с простыми, но трудоемкими задачами, однако остаются ненадежными для применения в чувствительных и строго регулируемых областях, таких как финансы. Модели по-прежнему не могут уверенно справляться со сложными задачами, требующими значительного контекста, и, следовательно, не могут стать основой для принятия решений.

Хотя модели способны извлекать базовую информацию из документов, их эффективность резко снижается, когда требуется более глубокий финансовый анализ, что делает их неприменимыми в качестве полноценной замены человеческой аналитики.

«Результаты демонстрируют заметное несоответствие между вложениями и реальной эффективностью. Современные агенты способны выдавать цифры, но не предоставляют необходимых финансовых обоснований для серьезного расширения аналитических возможностей и привлечения ценности в данной области», — отмечает компания.

Базовый фреймворк доступен с открытым исходным кодом на GitHub, хотя тестовые данные остаются закрытыми, чтобы избежать целевого обучения. Полная разбивка результатов бенчмарка доступна на сайте Vals.ai.

[Источник](https://the-decoder.com/benchmark-shows-ai-agents-cant-yet-replace-human-analysts-in-finance/)