Новые версии ИИ врут чаще старых

Новые версии языковых моделей ИИ o3 и o4-mini от создателя ChatGPT компании OpenAI придумывают ответы, которые не соответствуют действительности, чаще старых, сообщает научно-популярное издание Naked Science со ссылкой на издание TechCrunch.

Разработчики, как сообщают журналисты, пока не могут понять причину увеличившегося процента «галлюцинирования» — в техническом отчете OpenAI указывает, что для этого компании необходимо провести «дополнительные исследования». Эта ситуация нарушает предыдущую тенденцию разработок языковых моделей, когда каждая последующая версия превосходила свою предшественницу.

Попробуйте отличить нейросеть от реальных фото в тесте «Холода»
Интернет и мемы2 минуты чтения

Внутренние тестирования OpenAI показали, что новые версии выдают неверные ответы даже чаще, чем выпущенные первыми в серии o1 и o1-mini. Модель o3 ошиблась в ответе на 33% вопросов в формате PersonQA — это вдвое больше показателей предыдущих версий. o4-mini показала результат хуже, 48% ошибок.

Независимое исследование, проведенное исследовательской лабораторией Transluce, показало, что o3 может придумывать ответ даже на вопрос о том, какие действия модель предпринимает для поиска ответов. Модель также склонна выдавать неработающие ссылки на сайты. Исследователи предположили, что такой результат может быть связан с тем, что используемый тип обучения для этой линейки моделей усиливает проблемы, которые обычно смягчаются на этапе стандартного постобучения.

Все из-за «эстетики жены мафиози» и зумеров, которые хотят выделяться
Мир8 минут чтения

OpenAI отмечает, что новые версии моделей все же стабильно работают с запросами по математике и написанию кода. Компания предполагает, что рост количества ошибочных заявлений связан с тем, что ИИ теперь выдает большее количество ответов. При этом сейчас o3 и o4-mini, которые считаются «думающими» моделями, показывают результаты хуже, чем актуальная «недумающая» версия ChatGPT.

Чтобы не пропускать главные материалы «Холода», подпишитесь на наши социальные сети!