Студентка НГУ Анна Мурашкина создала систему автоматического распознавания и транслитерации текстов на классическом тибетском языке. Система ориентирована на расшифровку и цифровизацию тестов тибетских монахов и служителей церкви XVIII — XX веков. Об этом сообщает официальный сайт НГУ.
«Старопечатные документы, рукописи и ксилографы содержат уникальные сведения о философии, религии, медицине, истории и искусстве, играя ключевую роль в изучении культурных традиций региона. Эти знания передаются в Тибете из поколения в поколение. Однако со временем, под воздействием природных и антропогенных факторов, бумажные носители подвержены физическому разрушению, что ведет к утрате бесценной информации и ограничивает доступ к этим уникальным материалам. В настоящее время в Тибетском фонде Института монголоведения, буддологии и тибетологии СО РАН хранится до 70 тысяч единиц хроники, которые рискуют быть утерянными», — объяснила девушка.
Ка отмечают эксперты, студентка создала систему, которая по точности распознавания опередила уже существующие решения. Исследовательнице пришлось разработать систему оценки качества оптического распознавания символов. Затем Мурашкина выбрала модель сверточной нейросети и дообучила ее на размеченном корпусе документов. Разметку пришлось делать вручную.
Разработку Анны Мурашкиной уже по достоинству оценили исследователи культуры Тибета и буддизма.
«Я сделала это для того, чтобы впоследствии каждый человек мог прикоснуться к этому бесценному наследию и ознакомиться с документами, которые находятся в храмах и хранилищах архивов», — рассказала девушка.