Создан универсальный инструмент для проверки русскоязычных ИИ-ассистентов

24.03.2026

Российские исследователи разработали универсальный подход, который позволяет всесторонне проверять качество работы русскоязычных систем генеративного искусственного интеллекта, дополненных поиском.

Разработка будет представлена публике на крупнейшей международной конференции в области компьютерной лингвистики EACL 2026, проходящей на этой неделе в Марокко, сообщила ТАСС пресс-служба MWS AI (входит в МТС Web Services).

«Основной спрос корпораций сегодня сосредоточен на качестве извлечения данных, их актуальности и жестком контроле фактов. Методология легко адаптируется к любым языкам и сценариям — от анализа научных публикаций до судебных документов, становясь фундаментом для создания надежных ИИ-систем в любой отрасли», — пояснил руководитель центра разработки больших языковых моделей MWS AI Валентин Малых, чьи слова приводит пресс-служба.

Как отмечается в сообщении, многие крупные корпорации в настоящее время активно используют большие языковые модели для создания помощников, способных извлекать уже известные сведения из корпоративных баз знаний и информационных систем, а также искать новую информацию по заданной тематике в глобальной сети при подготовке ответов на запросы пользователей. Для обеспечения корректной работы этих ИИ-помощников крайне важно, чтобы они совершали как можно меньше ошибок и максимально редко вырабатывали галлюцинации.

Чаще всего для решения этой проблемы используются стандартизированные тесты, которые либо не отражают поведение таких систем в реальной среде из-за расхождения между тестовыми данными и базами знаний конкретной компании, либо опираются на статичные наборы данных, которые со временем устаревают и могут попадать в обучающую выборку моделей, что снижает объективность тестирования.

Исследователи из России разработали подход, который позволяет автоматизировать процесс подготовки этих тестов и при этом делает их максимально актуальными. В его рамках система берет свежие новостные ленты и автоматически строит из них «карту знаний», вычленяя новые факты, которых еще нет в архивах, и на их базе создает многоуровневые логические задачи для проверки способности ИИ-помощника сопоставлять факты и решать другие проблемы.

Опираясь на этот подход, исследователи проверили качество работы нескольких ИИ-помощников, основанных на популярных открытых языковых моделях, и создали первый публичный рейтинг для подобных систем. В перспективе, разработка исследователей и созданный ими рейтинг помогут корпорациям быстро оценивать точность работы создаваемых ими ИИ-ассистентов и сравнивать их эффективность с уже существующими решениями такого рода, подытожили ученые.

НейросетиПоделиться

24.03.2026

Создан универсальный инструмент для проверки русскоязычных ИИ-ассистентов

«Почта России» начнёт перевозить посылки и письма по Москве на электрогрузовиках Drive Electro

Boeing 737 MAX 8 совершил первый пассажирский рейс с одним из двигателей, полностью работающим на биотопливе

Электрический кроссовер Polestar 3 будет стоить от €75 тысяч

Пятый пошёл: китайская марка Xpeng тоже поднимет цены на свои электромобили

Panasonic на первых порах собирается сосредоточиться на выпуске аккумуляторов типа 4680 в Японии

Hyundai завершила покупку Boston Dynamics и пообещала расширить ассортимент роботов

Японский разработчик Socionext создал 5-нм процессор для систем автопилота

Учёные научили роботов ориентироваться в помещениях по точкам доступа Wi-Fi

В России изобрели ползающего робота-инспектора для космических аппаратов

На первом этапе Waymo будет перевозить в такси без водителя собственных сотрудников

Лучшие бюджетные смартфоны до 15 000 рублей

Анонсирован смартфон Poco M4 5G с чипом MediaTek, 50-Мп камерой и ценой от $170

Грядущий складной смартфон Honor Magic V показался на фото

Samsung намерена расширить контрактное производство смартфонов почти до 70 млн экземпляров в год

Vivo представит смартфон T1X 4G с процессором Snapdragon 680 и 50-Мп камерой

В РФ выяснили, как изменение климата меняет пищевую конкуренцию рыб в озерах

НИИ молекулярной электроники оштрафован за срыв производства чипов на замену Texas Instruments

Похожие статьи