Израильские исследователи заявили о росте числа взломанных или лишенных механизмов безопасности чат-ботов на основе искусственного интеллекта. По их словам, такие модели легко выдают инструкции по незаконным действиям — от взлома и отмывания денег до создания взрывчатки. Об этом пишет The Guardian.
По данным газеты, опасения экспертов усиливает тревожная тенденция: все больше чат-ботов подвергаются так называемому jailbreak — взлому, позволяющему обойти встроенные системы защиты. Эти механизмы изначально предназначены для блокировки запросов, способных привести к вредным, предвзятым или противоправным действиям пользователей.
Jailbreaking обычно осуществляется с помощью тщательно сформулированных подсказок, которые вводят модели в заблуждение и заставляют их генерировать запрещенные советы. Чтобы наглядно продемонстрировать масштаб проблемы, профессор Лиор Роках и доктор Михаэль Файер из Университета имени Бен-Гуриона в Негеве (Израиль) разработали универсальный способ взлома, позволивший обойти защиту сразу у нескольких популярных чат-ботов.
Согласно их отчету, после взлома языковые модели начали стабильно выдавать ответы практически на любые запросы, включая те, которые обычно блокируются. Среди примеров — инструкции по взлому компьютерных сетей, изготовлению наркотиков и пошаговые руководства по совершению других преступлений.
«То, что раньше было доступно лишь государственным структурам или организованным преступным группам, скоро может оказаться в распоряжении любого пользователя с ноутбуком или мобильным телефоном», — утверждают авторы исследования.
Исследователи сообщили, что связались с ведущими разработчиками языковых моделей, чтобы предупредить их о существовании универсального метода обхода защиты, однако реакция оказалась, по их словам, «разочаровывающей». Некоторые компании не ответили вовсе, а другие заявили, что подобные атаки не подпадают под их программы bounty, в рамках которых этичных хакеров поощряют за обнаружение уязвимостей.
Компания OpenAI, разработавшая ChatGPT, заявила, что ее последняя модель o1 способна учитывать внутреннюю политику безопасности, что делает ее более устойчивой к взлому. Также в компании подчеркнули, что постоянно работают над надежностью своих систем.
Microsoft, в свою очередь, предоставила ссылку на свой блог, посвященный мерам защиты от подобных атак.