Анна Мурашкина, студентка Новосибирского государственного университета, разработала уникальную систему на базе машинного обучения для автоматического распознавания и оцифровки старопечатных тибетских документов.
Проект призван спасти от исчезновения более 70 тысяч рукописей XVIII–XX веков, хранящихся в архивах СО РАН и находящихся под угрозой разрушения.
Приложение студентки работает со сверхточной нейросетью, обученной на рукописных текстах из фондов Института монголоведения, буддологии и тибетологии СО РАН.
Анна вручную сделала лингвистическую разметку строк тибетского текста из фонда ИМБТ СО РАН и разработала систему оценки качества оптического распознавания символов с учетом специфики тибетской графики.
После проделанной работы система распознает символы тибетского письма, восходящего к древнеиндийскому брахми, с точностью выше, чем у аналогов. Процесс работы автоматизирован от сегментации изображений до постобработки данных.
Мурашкина говорит, что тексты содержат уникальные данные по философии, медицине и истории Тибета, но бумажные носители разрушаются из-за времени и климата. Разработка девушки переносит знания сквозь века, делая их доступными для исследователей и всех, кто интересуется культурой региона.
В планах внедрение системы в работу архивов СО РАН и переговоры о сотрудничестве с Буддийским центром цифровых технологий для оцифровки документов монастырей.