В Новосибирске студентка создала приложение для анализа тибетских текстов

20.07.2025

Студентка Новосибирского государственного университета (НГУ) создала приложение для автоматического распознавания, оцифровки и анализа классических тибетских текстов.

«Уникальная программная платформа, предназначенная для автоматизированной обработки документов на тибетском языке, будет востребована исследователями, архивными работниками и библиотекарями. Новый фреймворк должен способствовать сохранению тибетского текстового наследия, являющегося, в том числе, частью культурного достояния бурятского народа», — заявили в вузе.

Система ориентирована на старопечатные документы на основе тибетского слогового письма, восходящего к древнеиндийскому письму брахми. Ее автором стала студентка направления «Фундаментальная и прикладная лингвистика» гуманитарного института НГУ Анна Мурашкина, работающая в Институте вычислительной математики и математической геофизики Сибирского отделения РАН.

Она использовала изображения страниц классических тибетских текстов XVIII—XX вв.еков из архивов.

«Старопечатные документы, рукописи и ксилографы содержат уникальные сведения о философии, религии, медицине, истории и искусстве, играя ключевую роль в изучении культурных традиций региона. Эти знания передаются в Тибете из поколения в поколение. Однако со временем, под воздействием природных и антропогенных факторов, бумажные носители подвержены физическому разрушению, что ведет к утрате бесценной информации и ограничивает доступ к этим уникальным материалам. В настоящее время в Тибетском фонде Института монголоведения, буддологии и тибетологии СО РАН хранится до 70 тысяч единиц хроники, которые рискуют быть утерянными. Один из наиболее надежных способов сохранения и систематизации исторических документов — их оцифровка», — рассказала исследовательница.

Мурашкина решила построить модель с применением машинного обучения. Ее задачей было распознавать символы тибетского алфавита и переводить тексты в машиночитаемый вид, показывая при этом большую точность, чем уже существующие открытые решения.

Для этого исследовательница вручную выполнила лингвистическую разметку строк тибетского текста и разработала систему оценки качества оптического распознавания символов с учетом специфики тибетской графики. Затем она сравнила существующие архитектуры и выбрала модель сверхточной нейросети, которая потребовала дообучения.

В результате Мурашкина создала полный модульный алгоритм оптического распознавания символов, включающий этапы предобработки, сегментации, распознавания и постобработки. У ученых появились новые возможности оцифровки древних тибетских рукописей.

История

20.07.2025

В Новосибирске студентка создала приложение для анализа тибетских текстов

Отзывная кампания в связи с дефектами электромобилей Chevrolet Bolt EV ударит по доходам GM и LG

Автопилот Tesla виноват в гибели двух людей: правда или нет?

Показан Genesis GV60 — первый люксовый электромобиль на платформе Hyundai E-GMP

Ещё до запуска предприятия в Германии Tesla получит право выпустить на нём более двух тысяч кузовов для Model Y

Hyundai вложит в производство электромобилей и батарей в США около $5,54 млрд

Стартап Aurora разработал средство оценки безопасности систем автопилота

Американские инженеры предложили совершенно новый способ получения электричества из окружающей среды

Tesla только сейчас начала использовать камеру в салоне для слежения за состоянием водителя

Главный конкурент Boston Dynamics научился работать с другими роботами. Посмотрите сами

Boston Dynamics объявила о начале продаж робота-грузчика Stretch

Дебютировал доступный смартфон Vivo Y02s с чипом Helio P35 и батареей на 5000 мА·ч

Смартфон Moto G82 получит процессор Snapdragon 695 и 50-Мп камеру

Складной смартфон Samsung Galaxy Z Fold4 обрастает подробностями — до 1 Тбайт памяти и защита от воды

Зарядка мощностью 200 Вт появится в серийных смартфонах Xiaomi в следующем году

Apple обвинили в воровстве технологий для камер iPhone 12, iPhone 13 и iPad Pro последнего поколения

Пенсионер из Нижнего Новгорода отдал более 14 млн рублей ради замены домофона

Ткань, связавшая космос: Как ленинградский ученый спас стыковку «Союза» и «Аполлона»

Похожие статьи