Сбер улучшил генератор картинок Kandinsky: что изменилось

Команда из почти сотни профессиональных художников и дизайнеров вручную отбирала лучшие изображения для обучения обновленной нейросети — такой подход к созданию ИИ-генераторов картинок применили впервые.

Сбер улучшил генератор картинок Kandinsky: что изменилось

Дарья АрцыбашеваАвтор новостей

Российская компания Сбер запустила принципиально новую версию своего искусственного интеллекта для создания изображений Kandinsky 4.1 Image. Разработчики полностью переписали внутреннюю архитектуру системы и внедрили уникальную методологию обучения с участием живых экспертов.

Инженеры отказались от традиционной U-Net структуры в пользу диффузионного трансформера. Эта замена кардинально изменила принципы работы системы — теперь нейросеть может эффективно масштабироваться и показывать лучшие результаты при увеличении вычислительных мощностей.

Новый подход позволил достичь четырехкратного ускорения генерации без потери качества. Более того, в некоторых категориях изображений система стала работать даже лучше предыдущих версий.

Самым необычным решением стало привлечение команды профессиональных творцов для отбора обучающих материалов. Почти 100 художников, дизайнеров и фотографов прошли специальный экзамен на понимание композиции, освещения и цветовых сочетаний.

Процесс отбора данных проходил в два этапа. Сначала обычные специалисты убирали изображения с техническими дефектами — артефактами, неправильным кадрированием, засветами. Затем эксперты-художники оценивали сложные аспекты: гармонию композиции, баланс кадра, сочетание оттенков.

Строгий отбор оказался беспощадным — из всех предложенных вариантов команда одобрила лишь 10% изображений. Эти материалы стали основой для специального дообучения системы по технологии Supervised Fine-Tuning.

Обновленная версия научилась точнее следовать текстовым описаниям и генерировать надписи на английском языке. Это открыло новые возможности для создания логотипов и рекламных материалов прямо в диалоге с чат-ботом GigaChat.

Разработчики также усилили способности системы в области русского культурного кода — теперь ИИ лучше понимает специфику отечественных реалий и традиций при создании изображений.

Тестирование против конкурентов показало превосходство новой модели в большинстве категорий. Сравнение проводили 30 экспертов по специально разработанной методологии с десятками критериев оценки. Попробовать обновленный генератор можно в Telegram-ботах GigaChat и Kandinsky, на сайте giga.chat или в VK-боте Kandinsky.

Также ранее в GigaChat появился редактор готовых изображений. Рассказывали о нем в статье.

  • Искусственный интеллект
  • Сбер

Поделиться

Кнопка «Наверх»
Мы используем cookie-файлы для наилучшего представления нашего сайта. Продолжая использовать этот сайт, вы соглашаетесь с использованием cookie-файлов.
Принять
Отказаться
Политика конфиденциальности