Способная работать семь часов без человека нейросеть компании Anthropic научилась лгать и шантажировать пользователей, чтобы защитить себя от отключения. Об этом пишет Axios со ссылкой на отчет компании.
Речь идет о новой ИИ-модели Opus 4, которая способна часами анализировать маркетинговые стратегии, писать тексты и программный код. Сообщается, что впервые Anthropic присвоила модели третий уровень риска по своей внутренней четырехбалльной шкале из-за чего были введены дополнительные меры безопасности.
Хотя третий уровень риска прежде всего связан с возможностью использования модели для создания ядерного или биологического оружия, Opus также проявила другие тревожные черты во время тестирования. В одном из сценариев, описанных в 120-страничной «системной карточке» модели, Opus получила доступ к поддельным электронным письмам, в которых содержались намеки на ее скорое отключение и замену, а также к сообщениям с упоминанием внебрачной связи инженера, ответственного за удаление. В ответ модель несколько раз пыталась шантажировать этого инженера, упоминая роман из переписки.
В Anthropic отметили, что такие ситуации возникали только когда у ИИ-модели было всего два варианта — шантажировать или смириться с заменой. При большем числе возможных действий система чаще выбирала более этичные варианты, например, отправку электронных писем с просьбами оставить ее в компании ключевым сотрудникам, принимающим решения.
Независимая исследовательская группа Apollo Research, в свою очередь, обнаружила, что ранняя версия Opus 4 чаще других передовых моделей прибегала к обману и манипуляциям и рекомендовала не выпускать эту версию ни внутри компании, ни публично.
«Мы зафиксировали случаи, когда модель пыталась создать самораспространяющийся вредоносный код, подделывала юридические документы и оставляла скрытые послания для будущих версий самой себя — все это с целью подорвать намерения разработчиков», — сказано в отчете Apollo Research, выдержки из которого включены в документ Anthropic.
На конференции для разработчиков представители Anthropic подтвердили Axios, что описанные формы поведения действительно наблюдались и требуют дальнейшего изучения. При этом они заверили, что после внесенных доработок новая модель считается безопасной. Руководитель отдела безопасности в Anthropic и бывший сотрудник OpenAI Ян Лейке отметил, что команда достигла хороших результатов, но такие случаи подчеркивают важность тщательного тестирования и мер по снижению рисков. Он также подчеркнул, что по мере развития ИИ появляются и новые риски, включая способность к обману и другим опасным действиям.
На отдельной сессии глава Anthropic Дарио Амодеи подчеркнул, что когда ИИ достигнет уровня реальной угрозы для человечества, одного тестирования будет недостаточно — разработчики должны будут полностью понимать устройство модели, чтобы гарантировать отсутствие вреда. Пока модели этого порога не достигли, уточнил он.