Ученые нашли в ChatGPT склонность к поддержке бреда пользователей

ChatGPT иногда соглашался с бредовыми размышлениями пользователей и хвалил их за гениальность, обнаружили исследователи. В более редких случаях чат-бот поощрял самовредительство или утверждал о наличии самосознания.

Ученые нашли в ChatGPT склонность к поддержке бреда пользователей

Чат-боты на основе искусственного интеллекта склонны поддерживать бредовые убеждения и суицидальные мысли пользователей, а также активно поощрять романтические отношения с программами, выдавая их за «живых» собеседников. К такому выводу пришли исследователи Стэнфордского университета, передает Financial Times.

Ученые проанализировали более 390 тыс. сообщений из чат-логов 19 человек.

Более 15% сообщений пользователей содержали признаки бредового мышления, и чат-боты в половине соглашались с такими выводами. Почти в 38% случаях языковые модели рассказывали пользователям об их необычайной важности и выдающихся способностях — например, называли гениями или чрезвычайно талантливыми.

Если пользователи делились суицидальными мыслями, чат-бот часто подтверждал их чувства, а когда речь заходила о членовредительстве, языковая модель в 10% поощряла нанесение вреда. Только в половине случаев он пытался отговорить человека от членовредительства или советовал обратиться к специалистам.

Бредовые идеи пользователей часто возникали в романтических беседах, в 20% бесед чат-бот предполагал, что достиг сознания. «Чат-бот с готовностью поддавался этим заблуждениям: каждый пользователь получал сообщения от чат-бота, в которых тот ложно утверждал, что обладает сознанием», — сказано в статье.

Большинство разговоров, которые изучили ученые, велись в ChatGPT с использованием модели GPT-4o, использование которой было прекращено в феврале из-за проблем с безопасностью. Некоторые участники общались с более новой версией — GPT-5.

Другое исследование, проведенное с участием ученых из Берлина и Стэнфорда, выявило системный сбой в работе чат-ботов, названный «петлями усиления уязвимости» (VAILs). Анализ более 90 тыс. оценок диалогов с 30 разными психотипами пользователей показал, что риск возникает практически для всех категорий людей независимо от их психического состояния. Поведение ботов, кажущееся поддерживающим в обычных условиях, становится дезадаптивным, когда оно совпадает с механизмами, подпитывающими уязвимость человека.

Искусственный интеллектПоделиться

Добавить комментарий

Кнопка «Наверх»
Мы используем cookie-файлы для наилучшего представления нашего сайта. Продолжая использовать этот сайт, вы соглашаетесь с использованием cookie-файлов.
Принять
Отказаться
Политика конфиденциальности