Обучить за 72 часа: российские ученые ускорили настройку системы распознавания текста
Представлен инновационный метод обучения систем OCR, базирующийся на сочетании инструментов машинного обучения и новейших генеративных моделей искусственного интеллекта.
Юлия УгловаАвтор Hi-Tech Mail
Специалисты НИТУ МИСИС предложили инновационный метод ускорения процесса оптимизации систем оптического распознавания текста (OCR). За счет интеграции технологий машинного обучения и передовых генеративных моделей искусственного интеллекта ученым удалось существенно увеличить точность обработки русскоязычных документов и снизить срок настройки таких систем с нескольких недель до трех суток, говорится на сайте учебного заведения.
Современные организации активно внедряют технологии оцифровки бумажных материалов, начиная от бухгалтерских отчетов и заканчивая историческими архивами. Для преобразования изображений документов в читаемый компьютером текст применяется OCR-технология. Однако традиционные алгоритмы часто допускают ошибки, сталкиваясь с помехами вроде штампов, подписей, искаженных фрагментов или редких шрифтов. Обучение системы требует значительного времени — обычно оно длится около месяца.
Команда отечественных экспертов разработала революционную технологию, объединившую инструменты машинного обучения и современные генеративные модели искусственного интеллекта. Созданная ими схема обеспечивает постоянный обмен информацией между движком OCR и языковой моделью, позволяющей автоматически анализировать результаты распознавания и исправлять погрешности. Эта методика позволила радикально ускорить процесс обучения, сократив сроки полного цикла подготовки системы с традиционных восьми недель до всего лишь 72 часов постоянного функционирования.
«Одним из ключевых результатов стало повышение качества распознавания — оно превысило 90% для русского языка, что соответствует современным требованиям к автоматизации документооборота. Кроме того, затраты на обучение моделей удалось снизить почти на треть, а использование генеративных нейросетей сократило необходимый объем тестовой выборки», — комментирует один из авторов разработки, магистрант Института компьютерных наук НИТУ МИСИС Кирилл Пронин.
Разработчики детально исследовали работу систем на «идеальных» документах и на «реалистичных» сканах с неровными подписями и печатями. Анализ полученных результатов помог выявить оптимальные комбинации используемых технологий.
«Мы предложили подход, где языковая модель, понимающая контекст и смысл, помогает создавать более сложные и “хитрые” обучающие данные — например, имитирующие плохое качество печати, нестандартные шрифты или сложную верстку. Это позволяет научить систему распознавать текст в реальных, “неидеальных” условиях, существенно повышая ее точность и надежность», — заключает к.т.н. Александр Сулейкин, доцент кафедры бизнес-информатики и систем управления производством НИТУ МИСИС.
Ранее нейросеть обнаружила слабое место в опасном вирусе. Рассказали об этом в другом материале Hi-Tech Mail.
- российские ученые
- Нейросети
- Искусственный интеллект
Поделиться






