COLORBENCH: Революционный тест для оценки восприятия цвета в моделях зрительного языка

Исследовательская группа из Университета Мэриленда создала COLORBENCH — уникальный тест для системной оценки того, как визуально-языковые модели (VLM) воспринимают и обрабатывают цвет. По мнению ученых, результаты продемонстрировали существенные недостатки в восприятии цвета, даже среди самых продвинутых моделей, доступных в данный момент.

Цвет имеет ключевое значение для визуального восприятия и критически важен в таких областях, как медицинская визуализация, дистанционное зондирование и распознавание объектов. Однако остается открытым вопрос, способны ли VLM интерпретировать и использовать цветовым образом сопоставимо.

COLORBENCH оценивает модели по трем основным критериям: восприятию цвета, цветовой аргументации и устойчивости к изменениям в цвете. В тесте используются 11 заданий, в сумме 1448 примеров и 5814 запросов изображений с текстом. Эти задания требуют от моделей распознавания цветов, оценки цветовых пропорций, подсчета объектов определенных оттенков или противостояния распространенным цветовым иллюзиям. К примеру, в одном из тестов модели анализируются на предмет согласованности, когда отдельные участки изображений изменяются с помощью различных цветов.

Тест был применен к 32 популярным VLM, включая GPT-4o, Gemini 2 и несколько моделей с открытым кодом, насчитывающих 78 миллиардов параметров. Результаты показали, что более крупные модели в целом показывают лучшие результаты, однако данное преимущество менее выражено по сравнению с другими тестами. Разница в производительности между фирменными и открытыми моделями оказывалась также незначительной.

Все протестированные модели продемонстрировали особенно низкие результаты в заданиях, связанных с подсчетом цветов или тестами на дальтонизм, часто не достигая 30% точности. Даже в задачах, где требовалось определить конкретные значения HSV или RGB, большие модели показывали лишь умеренные успехи. Лучше всего они справлялись с заданиями, связанными с распознаванием объектов или цветов, что исследователи связывают с особенностями обучающих данных.

Одним из главных выводов исследования стало то, что, несмотря на часто используемые цветовые подсказки, они могут иногда вводить в заблуждение. В задачах, касающихся цветовых иллюзий или обнаружения скрытых объектов, модели показали улучшение производительности при трансформации изображений в черно-белый формат, что указывает на то, что цветовая информация в этих случаях скорее мешала, чем помогала. В то же время некоторые задачи не могли быть эффективно выполнены без использования цвета.

Исследование также показало, что использование цепочечного рассуждения (CoT) не только увеличивало эффективность в заданиях на логическое мышление, но и повышало устойчивость к цветовым изменениям, даже если изменения касались только цветов изображений, а вопросы оставались прежними. Например, при использовании CoT устойчивость GPT-4o возросла с 46,2% до 69,9%.

Ученые отметили, что производительность моделей в большей степени зависит от размера языковой модели, чем от зрительного кодировщика. Большинство кодировщиков остаются сравнительно малыми — обычно около 300–400 миллионов параметров, что ограничивает возможность их влияния на восприятие цвета. Исследовательская группа рассматривает это как структурное ограничение существующих VLM и настоятельно рекомендует дальнейшую работу над визуальными компонентами.

COLORBENCH доступен для широкой публики и создан для поддержки разработки более чувствительных к цвету и надежных визуально-языковых систем. Предполагается, что будущие версии теста будут включать задачи, которые интегрируют цвет с текстурой, формой и пространственными аспектами.

Источник