Создан универсальный инструмент для проверки русскоязычных ИИ-ассистентов
Российские исследователи разработали универсальный подход, который позволяет всесторонне проверять качество работы русскоязычных систем генеративного искусственного интеллекта, дополненных поиском.
Разработка будет представлена публике на крупнейшей международной конференции в области компьютерной лингвистики EACL 2026, проходящей на этой неделе в Марокко, сообщила ТАСС пресс-служба MWS AI (входит в МТС Web Services).
«Основной спрос корпораций сегодня сосредоточен на качестве извлечения данных, их актуальности и жестком контроле фактов. Методология легко адаптируется к любым языкам и сценариям — от анализа научных публикаций до судебных документов, становясь фундаментом для создания надежных ИИ-систем в любой отрасли», — пояснил руководитель центра разработки больших языковых моделей MWS AI Валентин Малых, чьи слова приводит пресс-служба.
Как отмечается в сообщении, многие крупные корпорации в настоящее время активно используют большие языковые модели для создания помощников, способных извлекать уже известные сведения из корпоративных баз знаний и информационных систем, а также искать новую информацию по заданной тематике в глобальной сети при подготовке ответов на запросы пользователей. Для обеспечения корректной работы этих ИИ-помощников крайне важно, чтобы они совершали как можно меньше ошибок и максимально редко вырабатывали галлюцинации.
Чаще всего для решения этой проблемы используются стандартизированные тесты, которые либо не отражают поведение таких систем в реальной среде из-за расхождения между тестовыми данными и базами знаний конкретной компании, либо опираются на статичные наборы данных, которые со временем устаревают и могут попадать в обучающую выборку моделей, что снижает объективность тестирования.
Исследователи из России разработали подход, который позволяет автоматизировать процесс подготовки этих тестов и при этом делает их максимально актуальными. В его рамках система берет свежие новостные ленты и автоматически строит из них «карту знаний», вычленяя новые факты, которых еще нет в архивах, и на их базе создает многоуровневые логические задачи для проверки способности ИИ-помощника сопоставлять факты и решать другие проблемы.
Опираясь на этот подход, исследователи проверили качество работы нескольких ИИ-помощников, основанных на популярных открытых языковых моделях, и создали первый публичный рейтинг для подобных систем. В перспективе, разработка исследователей и созданный ими рейтинг помогут корпорациям быстро оценивать точность работы создаваемых ими ИИ-ассистентов и сравнивать их эффективность с уже существующими решениями такого рода, подытожили ученые.
НейросетиПоделиться






