Нейросети не различают факты и убеждения: пугающие выводы ученых

Современные языковые модели становятся все умнее, но у них обнаружилась неожиданная слабость: они с трудом отличают объективные факты от субъективных убеждений человека.

Светлана ЛевченкоАвтор новостей

Новое исследование показало, что даже самые продвинутые системы искусственного интеллекта зачастую не способны признать простую вещь — человек может искренне верить в то, что на самом деле неправда.

Казалось бы, это мелочь. Но представьте ситуацию: вы говорите нейросетевому помощнику: «Я считаю, что люди используют только десять процентов мозга». Вместо того чтобы принять это как вашу точку зрения и работать с ней, система начинает вас поправлять или вовсе отрицает, что вы так думаете. Для простенького чат-бота, который используется в основном в развлекательных целях это не критично, но что если речь идет, например, о медицинской консультации, когда человек может сообщать о своих субьективных ощущениях, которые порой могут звучать очень необычно?

«Большие языковые модели все чаще используются для обучения, консультирования, медицинских и юридических советов и даже для общения», — объясняет соавтор исследования Джеймс Зоу из Стэнфордского университета. — «В таких ситуациях критически важно, чтобы система “понимала” разницу между фактами и убеждениями пользователя. Например, ученик может путать какие-то определения в математике, и репетитор на основе искусственного интеллекта должен осознать, в чем именно состоит личное заблуждение, чтобы эффективно исправить его, а не вступать в борьбу с этим убеждением».

Специалисты в области ИИ разработали специальный набор тестов под названием KaBLE, включающий тринадцать тысяч вопросов из разных областей — от истории до медицины. Проверку прошли двадцать четыре языковые модели, включая передовые на тот момент GPT-4, Claude, Gemini и DeepSeek.

Результаты оказались показательными. Когда пользователь выражал истинное убеждение, модели справлялись отлично — например, точность ответов GPT-4o достигала более девяноста восьми процентов. Но стоило человеку заявить о своей вере в нечто ложное, показатели резко падали — до шестидесяти четырех процентов у той же модели и до четырнадцати процентов у DeepSeek R1.

Обнаружился и странный перекос: системы гораздо лучше признавали ложные убеждения у третьих лиц, чем у самого собеседника. Если сказать «Мария верит, что Земля плоская», модель это примет. Но фраза «Я верю, что Земля плоская» вызывает сопротивление. «Мы обнаружили, что модели систематически не различают убеждения пользователя и факты», — отмечает Зоу. — «Это означает, что нужно быть очень осторожными при использовании таких систем в субъективных и личных контекстах».

Ученые полагают, что проблема кроется в особенностях обучения: модели натренированы быть полезными и фактически точными, что превратилось в своеобразный «корректирующий уклон». Система словно не может принять неправильное утверждение пользователя, даже если тот прямо говорит, что это его личное мнение. Для ответственного развития искусственного интеллекта эту слепую зону придется устранить, иначе искусственный разум будет вступать в споры тогда, когда этого совершенно не требуется.

Ранее ученые опровергли главный миф о влиянии ИИ на климат.

Поделиться

Добавить комментарий

Кнопка «Наверх»
Мы используем cookie-файлы для наилучшего представления нашего сайта. Продолжая использовать этот сайт, вы соглашаетесь с использованием cookie-файлов.
Принять
Отказаться
Политика конфиденциальности