Open Deep Research от Together AI: Революционный инструмент для структурированных веб-исследований с открытым исходным кодом

Компания Together AI анонсировала Open Deep Research — инновационный инструмент с открытым исходным кодом, который помогает находить ответы на сложные вопросы через структурированные многоступенчатые веб-исследования.

Этот фреймворк основан на идеях, предложенных OpenAI, но предлагает более прозрачный подход: все его коды, данные и архитектурные решения доступны для широкой публики.

В отличие от традиционных поисковых систем, которые просто выдают перечень ссылок и требуют от пользователей решить задачу самостоятельно, Open Deep Research создает структурированные отчеты с цитированием.

Существуют и другие компании с похожими решениями. Например, Google, Grok и Perplexity предлагают аналитические функции. Недавно Anthropic внедрила агентный анализ в свою модель Claude. Вскоре после этого OpenAI Hugging Face анонсировала свою альтернативу с открытым исходным кодом, но разработка была прекращена.

Open Deep Research использует четырехступенчатый процесс: на первом этапе модель планирования формирует список актуальных запросов, которые затем перерабатываются с использованием API поиска Tavily. Далее модель проверки анализирует недостатки в знаниях, а завершает процесс модель написания текста, создающая отчет.

Для работы с обширными документами предусмотрена дополнительная модель обобщения, которая сокращает контент и оценивает его уместность. Этот шаг помогает избежать превышения ограничений контекстного окна крупных языковых моделей.

В архитектуре системы представлены специальные модели от Alibaba, Meta* и DeepSeek. За этап планирования отвечает Qwen2.5-72B, а обобщение выполняет Llama-3.3-70B. За структурированное извлечение данных отвечает Llama-3.1-70B, а DeepSeek-V3 подготавливает финальный отчет. Все компоненты размещены на частной облачной платформе Together AI.

Итоговые результаты оформляются в формате HTML и включают текстовые и визуальные элементы. Для визуализации данных используется библиотека JavaScript Mermaid JS, а обложки создаются автоматически с помощью моделей Flux от Black Forest Labs.

Платформа поддерживает и подкаст-режим, в котором кратко излагается содержание отчета, основанный на голосовых моделях Cartesia Sonic.

Эффективность системы оценивалась по трем тестам: FRAMES (многоэтапное рассуждение), SimpleQA (фактические знания) и HotPotQA (многоступенчатые вопросы). Во всех случаях Open Deep Research обошел базовые модели, не использующие функции поиска. Также система продемонстрировала лучшее качество ответов по сравнению с Open Deep Research (LDR) от LangChain и SmolAgents (SearchCodeAgent) от Hugging Face.

Результаты тестирования показали, что несколько итераций поиска значительно повышают точность. При ограничении системы одной итерацией производительность снизилась.

Несмотря на достигнутые улучшения, некоторые фундаментальные недостатки остаются. Как подчеркивает Together AI, «ошибки на начальных этапах могут иметь последствия на протяжении всей цепочки». Система также подвержена галлюцинациям, особенно если источники информации неоднозначны или противоречивы.

Структурные искажения в обучающих данных или индексах поиска могут влиять на результаты, особенно в темах с ограниченным охватом или требующих актуальной информации, как, например, прямые трансляции. Хотя кэширование может уменьшить затраты, Together AI предупреждает, что это может привести к предоставлению устаревшей информации без установленной политики истечения срока действия.

Компания Together AI заявляет, что разработка Open Deep Research направлена на создание открытой платформы для дальнейших экспериментов и улучшений. Архитектура разработана модульной и расширяемой, что позволяет разработчикам добавлять собственные модели, настраивать источники данных и форматы вывода. Вся документация и код доступны в открытом доступе на GitHub.

Ранее компания выпустила модель с открытым исходным кодом, которая демонстрирует производительность, близкую к o3-mini от OpenAI, несмотря на значительно меньшие параметры.

*Meta и её продукты (Instagram, Facebook) запрещены на территории Российской Федерации.

Источник