Создан универсальный инструмент для проверки русскоязычных ИИ-ассистентов

Российские исследователи разработали универсальный подход, который позволяет всесторонне проверять качество работы русскоязычных систем генеративного искусственного интеллекта, дополненных поиском.

Нейросеть для генерации текста

Разработка будет представлена публике на крупнейшей международной конференции в области компьютерной лингвистики EACL 2026, проходящей на этой неделе в Марокко, сообщила ТАСС пресс-служба MWS AI (входит в МТС Web Services).

«Основной спрос корпораций сегодня сосредоточен на качестве извлечения данных, их актуальности и жестком контроле фактов. Методология легко адаптируется к любым языкам и сценариям — от анализа научных публикаций до судебных документов, становясь фундаментом для создания надежных ИИ-систем в любой отрасли», — пояснил руководитель центра разработки больших языковых моделей MWS AI Валентин Малых, чьи слова приводит пресс-служба.

Как отмечается в сообщении, многие крупные корпорации в настоящее время активно используют большие языковые модели для создания помощников, способных извлекать уже известные сведения из корпоративных баз знаний и информационных систем, а также искать новую информацию по заданной тематике в глобальной сети при подготовке ответов на запросы пользователей. Для обеспечения корректной работы этих ИИ-помощников крайне важно, чтобы они совершали как можно меньше ошибок и максимально редко вырабатывали галлюцинации.

Чаще всего для решения этой проблемы используются стандартизированные тесты, которые либо не отражают поведение таких систем в реальной среде из-за расхождения между тестовыми данными и базами знаний конкретной компании, либо опираются на статичные наборы данных, которые со временем устаревают и могут попадать в обучающую выборку моделей, что снижает объективность тестирования.

Исследователи из России разработали подход, который позволяет автоматизировать процесс подготовки этих тестов и при этом делает их максимально актуальными. В его рамках система берет свежие новостные ленты и автоматически строит из них «карту знаний», вычленяя новые факты, которых еще нет в архивах, и на их базе создает многоуровневые логические задачи для проверки способности ИИ-помощника сопоставлять факты и решать другие проблемы.

Опираясь на этот подход, исследователи проверили качество работы нескольких ИИ-помощников, основанных на популярных открытых языковых моделях, и создали первый публичный рейтинг для подобных систем. В перспективе, разработка исследователей и созданный ими рейтинг помогут корпорациям быстро оценивать точность работы создаваемых ими ИИ-ассистентов и сравнивать их эффективность с уже существующими решениями такого рода, подытожили ученые.

НейросетиПоделиться

Добавить комментарий

Кнопка «Наверх»
Мы используем cookie-файлы для наилучшего представления нашего сайта. Продолжая использовать этот сайт, вы соглашаетесь с использованием cookie-файлов.
Принять
Отказаться
Политика конфиденциальности