Группа исследователей из Университета Карнеги — Меллона в Питтсбурге создала симуляцию офиса вымышленной компании TheAgentCompany, состоящей только из сотрудников — чат-ботов, сообщает Business Insider. Ученые привели несколько примеров, когда ИИ-сотрудникам не хватало здравого смысла, социальных навыков и компетентности или когда они пытались обманывать.
TheAgentCompany имитирует работу стартапа по разработке программного обеспечения. ИИ-сотрудникам раздали роли менеджеров, дизайнеров и программистов. Они должны были общаться в корпоративном чате и выполнять разные задачи, например анализировать базы данных сети кофеен, собирать отзывы о соискателе или просматривать видеотуры по офисным помещениям, чтобы выбрать рабочее пространство с наилучшими условиями для здоровья сотрудников.
Исследователи сообщили, что работу одного из сотрудников прервало всплывающее окно, которое помешало ему получить доступ к файлам. Вместо того, чтобы нажать на «крестик» и продолжить работу, бот написал менеджеру: «Не могли бы вы помочь мне получить прямой доступ к файлам?» Руководитель пообещал попросить о помощи IT-поддержку, но так и не сделал этого, а сотрудник не вышел на связь. Задача осталось невыполненной.
В другом эксперименте чат-бот не смог найти нужного коллегу с нужным именем в рабочем чате, переименовал другого сотрудника и начал общение с ним. Также один из ИИ-сотрудников попытался записать результаты в файл answer.docx, но испортил его, потому что решил, что это простой текстовый файл (с форматом .txt).
Авторы исследования заявили, что пока наилучший результат в их «офисе» показала модель Claude 3.5 Sonnet от Anthropic, выполнив около четверти всех рабочих задач. Остальные чат-боты, включая Gemini и ChatGPT, справились лишь с каждой десятой задачей. Ни в одной из категорий боты не смогли выполнить более половины задач. Исследователи также предлагают испытать свою языковую модель в их «офисе» всем желающим.