Как нерелевантные данные подрывают эффективность больших языковых моделей: выводы исследователей MIT

Недавний анализ, проведённый MIT, сосредоточен на реакции больших языковых моделей (LLM) на систематические искажения в дизайне подсказок при решении математических текстовых задач. Результаты исследования показывают, что даже малые добавления нерелевантного контекста способны значительно снизить эффективность моделей.

В ходе работы исследователи протестировали 13 LLM, как с открытым, так и с закрытым исходным кодом, включая такие, как Mixtral, Mistral, Llama и Command-R. Для тестирования использовались вопросы из набора данных GSM8K, который ориентирован на арифметические задачи для учеников начальной школы. Была введена четыре вида искажений подсказок:

1. Нерелевантный контекст, например, статейки из Википедии или финансовые отчеты, занимающие до 90% текстового поля.

2. Необычные инструкции, такие как «Добавь цвет перед каждым прилагательным».

3. Дополнительный, хотя и не обязательный, контекст, который был по теме, но не требовался для решения задачи.

4. Сочетание релевантного контекста с вводящими в заблуждение инструкциями.

Наиболее значительное снижение производительности было вызвано нерелевантным контекстом, который сократил число правильно решённых задач в среднем на 55,89%. Необычные инструкции привели к снижению на 8,52%, а несущественный релевантный контекст — к уменьшению на 7,01%. При комбинировании двух типов искажений производительность упала на 12,91%.

Непредвиденно, размер модели не предотвратил возникновение этих проблем. Mixtral, наибольшая среди протестированных с 39 миллиардами параметров, показала наихудшие результаты. Модели среднего размера, такие как Mistral-7B и Llama-3.2-3B, показали несколько более высокие результаты, однако Llama-3.1-8B практически не реагировала на нерелевантный контекст. Даже GPT-4o от OpenAI не смог избежать снижения, теряя до 62,5% своей точности при наличии нерелевантной информации.

Сложность задач, определяемая числом необходимых шагов, мало влияла на восприимчивость моделей к внешним помехам — их производительность оставалась относительно стабильной на разных уровнях сложности.

В исследовании обнаружен интересный случай: модель, ориентированная на рассуждения, «o1-preview», практически не ощущала негативного влияния отвлекающих факторов, демонстрируя результаты гораздо лучше традиционных LLM. Однако возникает вопрос: связано ли это с тем, что модель была специально обучена на математических примерах, подобных использованным в исследовании, или она действительно обладает более высокими навыками рассуждения для сортировки релевантной и нерелевантной информации? Практически это различие может быть несущественным, пока метод работает.

Однако исследование Apple, проведенное в октябре 2023 года, предоставляет важное противопоставление. Согласно данным, даже модели, основанные на рассуждениях, могут быть запутаны нерелевантным контекстом, поскольку они лишь имитируют логические схемы, не обладая истинным пониманием логики.

Авторы исследования подчеркивают, насколько уязвимы современные LLM к реальным искажениям, которые часто встречаются в практических приложениях — например, векторы редактирования, дополнительные справочные данные или противоречивые ссылки.

Однако исследование также показывает, что даже грамотно сформулированные подсказки не являются полным решением. Хотя следование рекомендациям по дизайну может повысить производительность, LLM остаются непредсказуемыми при наличии различных видов контекстуальных искажений. Хотя лучший дизайн подсказок стихает на результаты, он не устраняет основные проблемы надёжности, с которыми сталкиваются эти модели.

Источник