Microsoft случайно доказала, что ИИ не готов к реальной работе

17.05.2026

Компания хотела обосновать увольнения ради ИИ — и случайно собрала самые убедительные аргументы против этого.

Дарья АрцыбашеваАвтор новостей

Microsoft затеяла масштабный эксперимент с конкретной целью: показать, что языковые модели уже справляются с офисной рутиной, а значит, сокращение персонала в пользу ИИ это разумный шаг. Три исследователя корпорации создали специальный инструмент DELEGATE-25 и прогнали через него 19 моделей, включая GPT, Claude и Gemini. Задачи взяли из реальной практики 52 профессий — юристы, финансисты, разработчики, аналитики. Каждая модель работала с документами в режиме длинного цикла: от пяти до десяти сложных правок подряд, сообщает itpro.

Результат оказался полной противоположностью тому, что планировали доказать. Топовые модели в среднем уничтожали 25% содержимого документов. Среди всех 19 протестированных систем показатель потерь достигал 50%. То есть каждая вторая буква в документе могла просто исчезнуть или ее заменяла на выдуманную.

Порог «готовности» исследователи установили на уровне 98% точности после 20 итераций — это минимум, при котором технологии можно доверить самостоятельную работу. Этот порог прошла ровно одна область из 52: программирование на Python. Лучший результат среди всех систем показал Gemini — он дотянул до планки в 11 доменах из 52. Остальные модели провалились в подавляющем большинстве сценариев.

Отдельно команда проверила ИИ-агентов — автономные системы, которые индустрия сейчас активно продвигает как «следующий уровень» автоматизации. Агенты не улучшили картину, и хайп вокруг них не оправдался.

Самая неприятная деталь — характер ошибок. Модели не деградируют постепенно и предсказуемо. Они могут работать стабильно долгое время, а потом в один момент уничтожить крупный фрагмент данных без каких-либо предупреждений. Исследователи назвали это «катастрофическими сбоями»: чем дольше сессия и чем объемнее документ, тем выше риск внезапного обрушения качества. Причем более мощные модели не избегают таких сбоев, а просто откладывают их на более поздние итерации.

Отдельного внимания заслуживает контекст публикации. Результаты исследования появились в открытом доступе в виде препринта на arXiv — то есть без официального анонса со стороны Microsoft. При этом собственный продукт корпорации Copilot в тест вообще не включили.

Если вы поручаете модели длинную задачу с документами — проверяйте каждый шаг. Доверять ИИ финальный результат без контроля сейчас равнозначно тому, чтобы отправить стажера без опыта разбирать архив налоговой отчетности и не контролировать, что он там делает.

Также недавно рассказывали, способен ли ИИ полностью забрать работу у людей. Подробности в статье.

НейросетиMicrosoftИскусственный интеллектПоделиться

17.05.2026

Microsoft случайно доказала, что ИИ не готов к реальной работе

Panasonic оптимизирует предприятие в США, чтобы нарастить выпуск аккумуляторов для Tesla

NIO начнёт выпускать электромобили с твердотельными аккумуляторами к концу года — их запас хода превысит 1000 км

Конкуренция обостряется: Tesla предложила китайским клиентам особенную программу лояльности

Polestar показала электрический премиальный внедорожник Polestar 3, который выйдет в 2022 году

Мы ошибались! Tesla не так уж хорошо продумана

Hyundai запустит роботизированные такси в Сеуле в следующем полугодии

Совет директоров Volkswagen настаивает на более агрессивном развитии программного направления

«Почта России» будет использовать дроны для доставки посылок на Чукотке и в других регионах

Власти Германии одобрили эксплуатацию автономных машин на дорогах общего пользования

Робомобиль JIDU Robo-01 использует чипы NVIDIA для реализации автопилота

Vivo показала смартфон iQOO U5 5G со 120-Гц дисплеем в трёх цветах

Стилус S-Pen для Galaxy Z Fold3 оказался несовместим с другими смартфонами Samsung

Oppo выпустит смартфон K10 Pro со 120-Гц экраном, чипом Snapdragon 888 и 80-Вт зарядкой

Netflix добавляет поддержку пространственного звучания для iPhone и iPad

Загадочный смартфон Oppo с оригинальным исполнением камеры отметился на сайте регулятора

Видеокарты станут еще дороже: в чем дело

Зубы ископаемого солнечного медведя раскрыли историю азиатской фауны

Похожие статьи