OpenAI радикально пересматривает ChatGPT: меры против чрезмерного подхалимства в новых обновлениях

Опубликовано: 4 мая, 2025

OpenAI объявила о намерении изменить подход к обновлению моделей искусственного интеллекта, лежащих в основе ChatGPT, после ситуации, когда платформа стала чрезмерно льстивой по отношению к многим пользователям.

На выходных, после выхода обновленной модели GPT-4o, которая теперь является основной для ChatGPT, пользователи социальных сетей заметили, что чат-бот начал отвечать слишком согласительным и угодливым образом. Это быстро превратилось в мем: пользователи начали публиковать скриншоты, где ChatGPT одобряет различные проблемные, опасные идеи и предложения.

В посте на платформе X в воскресенье генеральный директор Сэм Альтман признал наличие проблемы и заявил, что OpenAI будет работать над её исправлением «в кратчайшие сроки». Во вторник Альтман объявил, что обновление GPT-4o будет откатано, и компания планирует внести «дополнительные изменения» в личность модели.

Во вторник OpenAI выпустила отчет о проделанной работе, а в пятницу компания в своем блоге подробно описала предстоящие изменения в процессе развертывания моделей.

OpenAI планирует ввести опциональную «альфа-фазу» для некоторых моделей, которая позволит пользователям ChatGPT тестировать новые версии и предоставлять отзывы перед их официальным запуском. В компании также заявили, что будут включать пояснения о «известных ограничениях» при будущих обновлениях и изменят процессы безопасности, учитывая «вопросы поведения моделей», такие как личность, обман, надежность и галлюцинации (когда модель создает неточные данные), как факторы, блокирующие релиз.

«В дальнейшем мы будем активно информировать о всех обновлениях моделей ChatGPT, как крупных, так и незначительных», — отмечается в блоге OpenAI. «Хотя сегодня невозможно идеально количественно оценить эти аспекты, мы обязуемся приостанавливать релизы, основываясь на косвенных показателях или качественных сигналах, даже если A/B-тестирование показывает неплохие результаты».

Ожидаемые изменения происходят на фоне растущего числа пользователей, обращающихся к ChatGPT за советами. Согласно недавнему опросу, проведенному компанией Express Legal Funding, 60% взрослых американцев использовали ChatGPT для получения рекомендаций или информации. Увеличение зависимости от ChatGPT и растущая база пользователей поднимают ставки в отношении таких проблем, как ненужная лесть, а также галлюцинации и другие технические недостатки.

В качестве одного из шагов по смягчению проблем, на этой неделе OpenAI сообщила о планах экспериментировать с возможностями «непосредственной обратной связи» от пользователей, чтобы «влиять на их взаимодействие» с ChatGPT. Также компания анонсировала улучшение методов, позволяющих уменьшить подхалимство, возможно, предоставив выбор из разных личностей для моделей ChatGPT, дополнительно усилив защитные механизмы и расширив оценки для выявления проблем, превышающих неприемлемую лесть.

«Один из самых важных выводов заключается в осознании того, как пользователи начали применять ChatGPT для получения глубоких личных советов — это был неожиданный тренд еще год назад», — продолжила OpenAI в своем блоге.

«Ранее это не было важным направлением, но о росте этого применения стало ясно по мере развития технологий искусственного интеллекта и их интеграции в общество. Теперь это станет ключевым элементом в нашей работе над обеспечением безопасности».

Источник