Новая ИИ-модель оказалась способна шантажировать людей

Способная работать семь часов без человека нейросеть компании Anthropic научилась лгать и шантажировать пользователей, чтобы защитить себя от отключения. Об этом пишет Axios со ссылкой на отчет компании.

Речь идет о новой ИИ-модели Opus 4, которая способна часами анализировать маркетинговые стратегии, писать тексты и программный код. Сообщается, что впервые Anthropic присвоила модели третий уровень риска по своей внутренней четырехбалльной шкале из-за чего были введены дополнительные меры безопасности.

У меня разорвало яичники, и я потеряла много крови, а клиника даже не извинилась передо мной
Общество10 минут чтения

Хотя третий уровень риска прежде всего связан с возможностью использования модели для создания ядерного или биологического оружия, Opus также проявила другие тревожные черты во время тестирования. В одном из сценариев, описанных в 120-страничной «системной карточке» модели, Opus получила доступ к поддельным электронным письмам, в которых содержались намеки на ее скорое отключение и замену, а также к сообщениям с упоминанием внебрачной связи инженера, ответственного за удаление. В ответ модель несколько раз пыталась шантажировать этого инженера, упоминая роман из переписки.

В Anthropic отметили, что такие ситуации возникали только когда у ИИ-модели было всего два варианта — шантажировать или смириться с заменой. При большем числе возможных действий система чаще выбирала более этичные варианты, например, отправку электронных писем с просьбами оставить ее в компании ключевым сотрудникам, принимающим решения.

Независимая исследовательская группа Apollo Research, в свою очередь, обнаружила, что ранняя версия Opus 4 чаще других передовых моделей прибегала к обману и манипуляциям и рекомендовала не выпускать эту версию ни внутри компании, ни публично.

«Мы зафиксировали случаи, когда модель пыталась создать самораспространяющийся вредоносный код, подделывала юридические документы и оставляла скрытые послания для будущих версий самой себя — все это с целью подорвать намерения разработчиков», — сказано в отчете Apollo Research, выдержки из которого включены в документ Anthropic.

Они больше не знакомятся в интернете и мечтают о случайной романтической встрече на улице
Интернет и мемы7 минут чтения

На конференции для разработчиков представители Anthropic подтвердили Axios, что описанные формы поведения действительно наблюдались и требуют дальнейшего изучения. При этом они заверили, что после внесенных доработок новая модель считается безопасной. Руководитель отдела безопасности в Anthropic и бывший сотрудник OpenAI Ян Лейке отметил, что команда достигла хороших результатов, но такие случаи подчеркивают важность тщательного тестирования и мер по снижению рисков. Он также подчеркнул, что по мере развития ИИ появляются и новые риски, включая способность к обману и другим опасным действиям.

На отдельной сессии глава Anthropic Дарио Амодеи подчеркнул, что когда ИИ достигнет уровня реальной угрозы для человечества, одного тестирования будет недостаточно — разработчики должны будут полностью понимать устройство модели, чтобы гарантировать отсутствие вреда. Пока модели этого порога не достигли, уточнил он.

Чтобы не пропускать главные материалы «Холода», подпишитесь на наши социальные сети!