OpenAI o3 устанавливает новый стандарт с рекордной производительностью в работе с длинным контекстом

Одним из наиболее впечатляющих аспектов недавних испытаний модели o3 является её способность справляться с задачами, требующими длительного контекста.

Удерживая до 200 000 токенов, o3 становится первой моделью, которая дала 100-процентный результат на тесте Fiction.live с использованием 128 000 токенов, что соответствует примерно 96 000 словам. Это серьёзный прорыв для языковых моделей, работающих с длинными рассказами или большими текстами. Единственным соперником, который подходит к этому достигнутому уровню, является Google Gemini 2.5 Pro, показавшая 90,6 процента, тогда как модели o3-mini и o4-mini значительно отстают.

Тест Fiction.LiveBench создан для оценки способности моделей к глубокому пониманию и точной передаче смысла длинных и сложных текстов, принимая во внимание контекст.

Например, Llama 4 от Meta* рекламирует возможность обработки контекстного окна до десяти миллионов токенов — это выглядит впечатляюще на словах. Однако на практике это число вряд ли полезно для чего-либо, кроме элементарного поиска слов, и не справляется с осмысленным анализом длинных текстов.

Проблема не ограничивается только Llama 4. В целом, многие языковые модели показывают недостаточные результаты в понимании контекста, используя большие окна не как инструмент, а как маркетинговый трюк. В худшем случае пользователь может получить иллюзию, что модель охватывает весь текст, в то время как значительная его часть может оставаться игнорируемой — такой недостаток был выделен в множестве исследований.

Для специалистов, работающих с реальными задачами, требующими надёжной и эффективной обработки больших объёмов данных, o3 теперь очевидно занимает лидирующие позиции.

*Продукты Meta (Instagram, Facebook) запрещены на территории Российской Федерации.

Источник