Новая ИИ-модель оказалась способна шантажировать людей

Способная работать семь часов без человека нейросеть компании Anthropic научилась лгать и шантажировать пользователей, чтобы защитить себя от отключения. Об этом пишет Axios со ссылкой на отчет компании.

Речь идет о новой ИИ-модели Opus 4, которая способна часами анализировать маркетинговые стратегии, писать тексты и программный код. Сообщается, что впервые Anthropic присвоила модели третий уровень риска по своей внутренней четырехбалльной шкале из-за чего были введены дополнительные меры безопасности.

У меня разорвало яичники, и я потеряла много крови, а клиника даже не извинилась передо мной
Общество10 минут чтения

Хотя третий уровень риска прежде всего связан с возможностью использования модели для создания ядерного или биологического оружия, Opus также проявила другие тревожные черты во время тестирования. В одном из сценариев, описанных в 120-страничной «системной карточке» модели, Opus получила доступ к поддельным электронным письмам, в которых содержались намеки на ее скорое отключение и замену, а также к сообщениям с упоминанием внебрачной связи инженера, ответственного за удаление. В ответ модель несколько раз пыталась шантажировать этого инженера, упоминая роман из переписки.

В Anthropic отметили, что такие ситуации возникали только когда у ИИ-модели было всего два варианта — шантажировать или смириться с заменой. При большем числе возможных действий система чаще выбирала более этичные варианты, например, отправку электронных писем с просьбами оставить ее в компании ключевым сотрудникам, принимающим решения.

Независимая исследовательская группа Apollo Research, в свою очередь, обнаружила, что ранняя версия Opus 4 чаще других передовых моделей прибегала к обману и манипуляциям и рекомендовала не выпускать эту версию ни внутри компании, ни публично.

«Мы зафиксировали случаи, когда модель пыталась создать самораспространяющийся вредоносный код, подделывала юридические документы и оставляла скрытые послания для будущих версий самой себя — все это с целью подорвать намерения разработчиков», — сказано в отчете Apollo Research, выдержки из которого включены в документ Anthropic.

Они больше не знакомятся в интернете и мечтают о случайной романтической встрече на улице
Интернет и мемы7 минут чтения

На конференции для разработчиков представители Anthropic подтвердили Axios, что описанные формы поведения действительно наблюдались и требуют дальнейшего изучения. При этом они заверили, что после внесенных доработок новая модель считается безопасной. Руководитель отдела безопасности в Anthropic и бывший сотрудник OpenAI Ян Лейке отметил, что команда достигла хороших результатов, но такие случаи подчеркивают важность тщательного тестирования и мер по снижению рисков. Он также подчеркнул, что по мере развития ИИ появляются и новые риски, включая способность к обману и другим опасным действиям.

На отдельной сессии глава Anthropic Дарио Амодеи подчеркнул, что когда ИИ достигнет уровня реальной угрозы для человечества, одного тестирования будет недостаточно — разработчики должны будут полностью понимать устройство модели, чтобы гарантировать отсутствие вреда. Пока модели этого порога не достигли, уточнил он.

Чтобы не пропускать главные материалы «Холода», подпишитесь на наши социальные сети!

Самое читаемое

Она хотела лучше понять мужчин — но эксперимент закончился плачевно
00:01 13 января
Девочка отпросилась на ночевку к подруге, но на самом деле пошла на пикник с «королем лицемеров». Эта встреча оказалась для нее последней
3 мая 2025
Меня называют плохой матерью, а я считаю, что это лучший выбор в нашей ситуации
00:01 12 января