17 июля. ПРАВМИР. Студентка Новосибирского государственного университета Анна Мурашкина создала приложение для автоматического распознавания, оцифровки и анализа классических тибетских текстов.
Платформа позволит сохранить древние рукописи и сделать их доступными для исследователей, архивистов и библиотекарей,пишетРИА Новости.
По словам представителей вуза, новая программная платформа ориентирована на старопечатные документы, созданные на основе тибетского слогового письма, происходящего от древнеиндийского письма брахми. Она может оказаться особенно полезной в сохранении текстового наследия, являющегося частью культурной традиции бурятского народа.
Анна Мурашкина — студентка направления «Фундаментальная и прикладная лингвистика» гуманитарного института НГУ и сотрудница Института вычислительной математики и математической геофизики СО РАН.
Для разработки она использовала изображения страниц тибетских текстов XVIII–XX веков, хранящихся в архивах.
По словам девушки, рукописные и старопечатные документы содержат «уникальные знания в области философии, медицины, истории и искусства». Но со временем бумажные носители разрушаются, и, чтобы спасти бесценную информацию, необходима оцифровка.
Сейчас в фонде Института монголоведения, буддологии и тибетологии РАН хранится до 70 тысяч единиц тибетской хроники, которая может быть утрачена из-за разрушения.
Для решения этой задачи Мурашкина вручную разметила строки тибетского текста, разработала систему оценки качества оптического распознавания символов и дообучила сверхточную нейросеть.
Результатом стал модульный алгоритм, включающий этапы предобработки, сегментации, распознавания и постобработки символов.
Поскольку вы здесь...
У нас есть небольшая просьба. Эту историю удалось рассказать благодаря поддержке читателей. Даже самое небольшое ежемесячное пожертвование помогает работать редакции и создавать важные материалы для людей.
Сейчас ваша помощь нужна как никогда.