Новый метод института AIRI ускоряет адаптацию роботов к реальным условиям почти вдвое

Новый метод института AIRI ускоряет адаптацию роботов к реальным условиям почти вдвое

Ученые института AIRI предложили способ, который помогает ИИ-агентам быстро подстраиваться под новые условия работы без дополнительного дообучения. То есть модель сама определяет, в какой среде она оказалась, и сразу выбирает подходящую стратегию поведения.

Современные поведенческие фундаментальные модели умеют решать много разных задач без отдельной настройки под каждую из них, но плохо адаптируются к изменениям внешних условий. Это отражает ключевую проблему физического ИИ — разрыв между обучением в симуляции и работой в реальном мире, где параметры среды постоянно меняются и заранее неизвестны. Например, если появляются препятствия, меняются физические параметры – сцепление с поверхностью, гравитация и так далее., – качество работы может заметно падать. Один из популярных подходов – Forward-Backward строится на прогнозировании возможных будущих состояний системы и путей к целям, но в нестабильной среде он начинает усреднять разные варианты развития событий и из-за этого чаще ошибается при выборе действий.

Чтобы исправить это, ученые расширили базовую архитектуру двумя модификациями – Belief-FB и Rotation-FB. Belief-FB помогает модели по последовательности наблюдений понять, с какой средой она столкнулась. Rotation-FB дополнительно организует внутренние представления стратегий так, чтобы варианты поведения для разных условий не смешивались друг с другом. В результате модель лучше связывает конкретные параметры среды с нужными действиями, адаптируется и может переносить знания на ситуации, которых не было в обёучающих данных.

Метод протестировали в экспериментах на дискретных и непрерывных средах – в задачах навигации и управления, где изменялись структура пространства и его физические параметры. Подход сравнили с базовыми методами как в знакомых условиях, встречавшихся во время обучения, так и в новых конфигурациях, которые система ранее не видела.

В результате качество выполнения задач выросло почти в два раза по сравнению с базовыми подходами. При чем и в знакомых условиях, встречавшихся во время обучения, и в новых конфигурациях, которые система ранее не наблюдала. Визуализация внутренних внедрений показала, что разные типы динамики действительно разделяются на отдельные группы – то есть система различает режимы среды, а не просто повторяет заученные действия.

«Путь от идеи до полноценной реализации занял около трех месяцев, еще месяц ушел на подготовку статьи, доработку результатов и визуальных материалов. В дальнейшем мы планируем развивать идею непрерывной адаптации: изучать, как интеллектуальные агенты могут постоянно сталкиваться с новыми мирами, не теряя старые знания и не требуя постоянного переобучения. Отдельный интерес представляет их адаптация к другим агентам – людям или роботам, с которыми нужно взаимодействовать в реальном времени. Скажем, например, на складах или дорогах общего пользования.», – отметил Владислав Куренков, руководитель группы «Адаптивные агенты» института AIRI.

Добавить комментарий

Кнопка «Наверх»
Мы используем cookie-файлы для наилучшего представления нашего сайта. Продолжая использовать этот сайт, вы соглашаетесь с использованием cookie-файлов.
Принять
Отказаться
Политика конфиденциальности