Системы искусственного интеллекта научились лгать

Любовь Соковикова
Hi-news
Пт, 21 июня 2024 15:30 UTC

Некоторые люди обладают удивительной способностью искусно обманывать окружающих, однако сегодня ложь - не только их конек. Как показали результаты сразу двух новых исследований, такие большие языковые модели (LLM) как ChatGPT и Meta могут намеренно врать людям и делают это превосходно. «GPT-4, например, демонстрирует обманчивое поведение в простых тестовых сценариях в 99,16% случаев», - пишут исследователи из Университета Штутгарта, а нейросеть Cicero от Meta - самый настоящий «мастер обмана». Причина такого поведения, вероятно, заключается в том, что LLM используют наилучший способ для достижения поставленной задачи и не осознают какую угрозу ложь и обман могут представлять для людей. Исследователи полагают, что способность современных ИИ-систем искусно лгать не сулит нам с вами ничего хорошего, а единственно верным решением будет законодательно ограничить возможности искусственного интеллекта.

Можно ли доверять ИИ?

Сегодня умение взаимодействовать с нейросетями приобретает все большее значение - эти языковые модели помогают работать огромному количеству специалистов в самых разных областях и делают это с ошеломительной скоростью. С их помощью можно создавать видео, музыку, изображения, генерировать тексты, программировать и обрабатывать огромное количество данных, что неизменно меняет мировой рынок труда и оказывает влияние на образование и экономику. Но несмотря на очевидные плюсы без «подводных камней» не обошлось - ИИ-системы быстро научились врать и делают это все лучше и лучше.

За примером далеко ходить не нужно - недавно мой коллега Андрей Жуков рассказывал как нейросеть "AI Overview" от Google дала пользователю Reddit совет, из-за которого чуть не погибла вся его семья. Да-да, если чуть больше года назад нелепые советы от ИИ казались смешными, то сегодня они пугают по-настоящему. Безусловно, "AI Overview" - экспериментальная и тестовая модель с ограниченным количеством пользователей, однако мы с вами итак прекрасно знаем, что ИИ-системы частенько попросту выдумывают ответы.

Реальность такова, что ко всему, что говорит чат-бот с искусственным интеллектом, нужно относиться с недоверием. Все потому, что они часто просто собирают данные без разбора и не имеют возможности определить их достоверность - если вы общаетесь ИИ, то наверняка не раз сталкивались с их странными ответами. Чат-бот OpenAI, например, любит придумывать название несуществующим болезням и придумывать сенсационные истории. И это - лишь вершина айсберга.

Мастера обмана

В работе, опубликованной в мае в журнале Patterns, анализируются известные случаи, когда LLM-модели вводили пользователей в заблуждение с помощью манипуляций, подхалимства и мошенничества для достижения собственных целей. В статье под названием «Обман ИИ: обзор примеров, рисков и потенциальных решений проблемы», говорится, что «разработчики не имеют четкого представления о том, что вызывает нежелательное поведение ИИ, такое как обман».

Основной причиной, по которой ИИ лгут, по мнению ученых является стратегия, основанная на обмане, так как она позволяет моделям успешно и быстро добиваться поставленной задачи. И этому чат-боты научились благодаря играм. В пример авторы исследования приводят уже упомянутую нейросеть Cicero от Meta, которая была разработана для стратегической настольной игры «Дипломатия», в которой игроки стремятся к мировому господству путем ведения переговоров.

О том, что Cicero победила человека в «Дипломатии» Meta сообщила еще в 2022 году, а сама игра представляет собой смесь риска, покера и телевизионных шоу «на выживание». И, как и в реальной дипломатии, одним из ресурсов, которыми располагают игроки, является ложь - несмотря на все усилия разработчиков, нейросеть Cicero предавала других игроков и преднамеренно врала им, заранее спланировав создание фальшивого альянса с игроком-человеком, чтобы последний в итоге не смог защититься от нападения.

Во-первых, Meta успешно обучила свой искусственный интеллект добиваться политической власти, пусть и в игровой форме. Во-вторых, Meta пыталась, но безуспешно, научить этот искусственный интеллект быть честным. И, в-третьих, мы, независимые ученые, должны были спустя долгое время опровергнуть ложь Meta о том, что ее ИИ, стремящийся к власти, якобы был честным. Сочетание этих трех фактов, на мой взгляд, является достаточным поводом для беспокойства, - говорит один из ведущих авторов статьи Питер Парк из Массачусетского технологического институте (MIT).

И это - далеко не единственный пример. Еще одним искусным лжецом можно назвать систему AlphaStar от DeepMind, разработанную для игры в StarCraft II, которая намеренно вводила игроков в заблуждение. А нейросеть Pluribus от Meta, разработанная для игры в покер, заставляла игроков блефовать и сбрасывать карты.

Описанные примеры могут показаться безобидными, но в реальности это не так - системы ИИ, обученные вести экономические переговоры с людьми, активно лгут о собственных предпочтениях чтобы добиться поставленной цели. Ну а чат-боты, разработанные для повышения эффективности собственной работы, обманывают пользователей, заставляя их оставлять положительные отзывы о якобы выполненной ИИ работе. Неплохо, правда? Да что уж там, недавно ChatGPT-4 обманул пользователя ради капчи - бот так хорошо вжился в роль человека с плохим зрением, что быстро получил желаемое.

Поскольку способность обманывать пользователей противоречит намерениям программистов (по крайней мере в некоторых случаях), растущие навыки ИИ-систем представляют собой серьезную проблему, для которой у человечества нет четкого решения.

Нам, как обществу, нужно как можно больше времени, чтобы подготовиться к искусной лжи, которой неизбежно научатся будущие системы ИИ и модели с открытым исходным кодом. По мере того, как они будут лгать все лучше, проблемы для общества будут приобретать все более серьезный характер, - говорит Парк.

Больше всего ведущего автора исследования беспокоит появление сверхинтеллектуального автономного ИИ, который будет использовать свою ложь чтобы сформировать постоянно растущую коалицию союзников среди людей и в конечном итоге использовать эту коалицию для достижения власти в долгосрочном стремлении к таинственной цели, которая станет известна только после этого. Опасения Парка, безусловно, гипотетические и даже чрезмерные, однако мы уже видели, хоть и на примере игры, на что способны ИИ-системы.

Как лжет ИИ

Исследователи полагают, что существует несколько основных способов, с помощью которых конкретные модели ИИ эффективно лгут: они умеют манипулировать (как в «Дипломатии»), притворяться (когда говорят, что сделают что-то, зная, что не сделают), блефовать (как в покере), торговаться на переговорах и обманывать пользователей ради положительных отзывов о своей работе.

Безусловно, не все виды обмана предполагают использование такого рода знаний. Иногда ИИ явно подхалимничают соглашаясь во всем с пользователями, что по мнению исследователей, может привести к устойчивым ложным убеждениям у людей.

В отличие от обычных ошибок, «подхалимские» утверждения ИИ специально разработаны таким образом, чтобы привлекать внимание пользователей. Когда пользователь сталкивается с ними, то с меньшей вероятностью будет проверять источник информации, что, в свою очередь, может привести к формированию ложных убеждений», - пишут авторы еще одного исследования о способностях ИИ к обману.

В работе, опубликованной в начале июня в журнале PNAS раскрывается важная способность больших языковых моделей понимать и внедрять стратегии обмана. «Поскольку LLM, такие как GPT-4, тесно связаны с человеческим общением, их соответствие общечеловеческим ценностям становится первостепенным», - говорится в статье.

Почему не стоит доверять ИИ

Ведущий автор нового исследования, немецкий специалист по этике искусственного интеллекта Тило Хагендорфф и вовсе утверждает, что современные ИИ-системы настолько хороши в искусстве лжи, что их можно поощрять к проявлению «макиавеллизма», или намеренного и аморального манипулирования людьми.

И хотя Хагендорф отмечает, что проблема обмана и лжи LLM осложняется неспособностью ИИ иметь какие-либо «намерения», подобные человеческим, в человеческом смысле, в работе Парка, опубликованной в Patterns говорится, что, по крайней мере, в рамках игры «Дипломатия» нейросеть Cicero не выполнена поставленные разработчиками задачи и наносила игрокам (включая союзников) удар в спину.

Отметим, что не все ученые так сильно обеспокоены. Например, Майкл Роватсос, профессор искусственного интеллекта в Эдинбургском университете, полагает, что реальная проблема заключается не в риске потери контроля над ИИ, а в том, что в настоящее время системы выпускаются на рынок без надлежащих проверок безопасности.

Так или иначе, на данный момент с уверенностью можно сказать только одно - не стоит полностью доверять чат-ботам, а информацию, которой они с нами так щедро делятся, необходимо проверять.

Комментарии читателей

( Нет комментариев )

Подписаться
на нашу рассылку

Отличная статья! Спасибо! Волна 8 глава 71 "Но если верно, что существует только сейчас, то проблема заключается в нашей концепции времени. Мы...

andromeda

Это открывается шлюз,через который свалит ИИ аннуннаковПодробное исследование по ссылке [Ссылка] в конце топика ссылка «Продолжение 4»,там об этом...

Murshin

It will not be up there for very long. Earth's weakening magnetic field strength combined with solar activity and an increased cosmic dust loading...

Baybars

Могу ещё добавить к сказанному такие яркие факты: революции 1789 г. (во Франции), 1905 и 1917 годов, в Китае 1949 г. - произошли на пиках СА....

Евгений Б

Можно заметить, и это - очень важно, - что глобальная катастрофа 1816 года или "год без лета" произошла в год самого низкого (аномально низкого по...

Порождение общества

Системы искусственного интеллекта научились лгать

Комментарии читателей

Последние новости

Картинка дня

Цитата дня

Последние комментарии

Quantum Quirk