Новые версии языковых моделей ИИ o3 и o4-mini от создателя ChatGPT компании OpenAI придумывают ответы, которые не соответствуют действительности, чаще старых, сообщает научно-популярное издание Naked Science со ссылкой на издание TechCrunch.
Разработчики, как сообщают журналисты, пока не могут понять причину увеличившегося процента «галлюцинирования» — в техническом отчете OpenAI указывает, что для этого компании необходимо провести «дополнительные исследования». Эта ситуация нарушает предыдущую тенденцию разработок языковых моделей, когда каждая последующая версия превосходила свою предшественницу.
Внутренние тестирования OpenAI показали, что новые версии выдают неверные ответы даже чаще, чем выпущенные первыми в серии o1 и o1-mini. Модель o3 ошиблась в ответе на 33% вопросов в формате PersonQA — это вдвое больше показателей предыдущих версий. o4-mini показала результат хуже, 48% ошибок.
Независимое исследование, проведенное исследовательской лабораторией Transluce, показало, что o3 может придумывать ответ даже на вопрос о том, какие действия модель предпринимает для поиска ответов. Модель также склонна выдавать неработающие ссылки на сайты. Исследователи предположили, что такой результат может быть связан с тем, что используемый тип обучения для этой линейки моделей усиливает проблемы, которые обычно смягчаются на этапе стандартного постобучения.
OpenAI отмечает, что новые версии моделей все же стабильно работают с запросами по математике и написанию кода. Компания предполагает, что рост количества ошибочных заявлений связан с тем, что ИИ теперь выдает большее количество ответов. При этом сейчас o3 и o4-mini, которые считаются «думающими» моделями, показывают результаты хуже, чем актуальная «недумающая» версия ChatGPT.