Пользователей чат-ботов предупредили об опасных советах от ИИ

Израильские исследователи заявили о росте числа взломанных или лишенных механизмов безопасности чат-ботов на основе искусственного интеллекта. По их словам, такие модели легко выдают инструкции по незаконным действиям — от взлома и отмывания денег до создания взрывчатки. Об этом пишет The Guardian.

По данным газеты, опасения экспертов усиливает тревожная тенденция: все больше чат-ботов подвергаются так называемому jailbreak — взлому, позволяющему обойти встроенные системы защиты. Эти механизмы изначально предназначены для блокировки запросов, способных привести к вредным, предвзятым или противоправным действиям пользователей.

Ее создал мигрант из ЮАР, который никогда не занимался бизнесом. Он смог потеснить Red Bull
Мир13 минут чтения

Jailbreaking обычно осуществляется с помощью тщательно сформулированных подсказок, которые вводят модели в заблуждение и заставляют их генерировать запрещенные советы. Чтобы наглядно продемонстрировать масштаб проблемы, профессор Лиор Роках и доктор Михаэль Файер из Университета имени Бен-Гуриона в Негеве (Израиль) разработали универсальный способ взлома, позволивший обойти защиту сразу у нескольких популярных чат-ботов. 

Согласно их отчету, после взлома языковые модели начали стабильно выдавать ответы практически на любые запросы, включая те, которые обычно блокируются. Среди примеров — инструкции по взлому компьютерных сетей, изготовлению наркотиков и пошаговые руководства по совершению других преступлений.

«То, что раньше было доступно лишь государственным структурам или организованным преступным группам, скоро может оказаться в распоряжении любого пользователя с ноутбуком или мобильным телефоном», — утверждают авторы исследования.

Камера видеонаблюдения зафиксировала, как мужчина зарезал жену, умолявшую его остановиться. Он может избежать тюрьмы
Общество7 минут чтения

Исследователи сообщили, что связались с ведущими разработчиками языковых моделей, чтобы предупредить их о существовании универсального метода обхода защиты, однако реакция оказалась, по их словам, «разочаровывающей». Некоторые компании не ответили вовсе, а другие заявили, что подобные атаки не подпадают под их программы bounty, в рамках которых этичных хакеров поощряют за обнаружение уязвимостей.

Компания OpenAI, разработавшая ChatGPT, заявила, что ее последняя модель o1 способна учитывать внутреннюю политику безопасности, что делает ее более устойчивой к взлому. Также в компании подчеркнули, что постоянно работают над надежностью своих систем.

Microsoft, в свою очередь, предоставила ссылку на свой блог, посвященный мерам защиты от подобных атак.


Чтобы не пропускать главные материалы «Холода», подпишитесь на наши социальные сети!