В диссертационном Совете по техническим наукам ФИТ НГУ прошли первые защиты кандидатских диссертаций

Первые два аттестата о присуждении ученой степени вручены в Диссертационном Совете по техническим наукам Факультета информационных технологий Новосибирского государственного университета. Обе кандидатские диссертации посвящены компьютерной лингвистике: Дмитрий Морозов разработал систему оценки сложности текста методами машинного обучения на примере русского языка, а Давлатер Менглиев – гибридный алгоритм распознавания именованных сущностей в узбекском языке. В августе состоится защита еще одной кандидатской диссертации, которая посвящена применению методов математического моделирования в геофизике .

Мы отмечаем высокую востребованность созданного на нашем факультете научного Совета по техническим наукам. Его требования к защитам диссертации менее формализованы, нежели у Высшей аттестационной комиссии (ВАК), однако в нем установлены более высокие требования к качеству публикаций. В силу этих обстоятельств, наш Совет будет востребован со стороны целого ряда сотрудников как научных организаций, так и высокотехнологичных компаний, которым установленный у нас порядок защиты диссертаций будет более удобен, но не следует полагать, что он прост. Это могут подтвердить два наших первых соискателя, которые представили в Совет все необходимые документы и успешно прошли все установленные и строго регламентированные процедуры, несколько раз выступали на семинарах перед научным сообществом, получили высокую оценку качества своих работ от специально созданных комиссий с привлечением экспертов нашего Диссертационного совета и внешних экспертов из нескольких регионов нашей страны и ближнего зарубежья. Мы рады, что Дмитрий Морозов и Давлатер Менглиев успешно прошли все эти испытания и их дипломы кандидатов наук имеют тот же статус, что и дипломы, выданные ВАК, — сказал декан ФИТ НГУ член-корр. РАН Михаил Лаврентьев.

Заведующий кафедрой математического моделирования Механико-математического факультета НГУ, профессор кафедры систем информатики и кафедры общей информатики ФИТ НГУ, доктор технических наук Владимир Барахнин отметил, что не случайно две первые защиты диссертаций на соискание ученой степени кандидата наук связаны с компьютерной лингвистикой  —  это свидетельство актуальности данной тематики.

По мере своего развития нейросети и большие языковые модели все больше проявляют так называемые глюки. Обилие информации, подгружаемой к ним, неизбежно порождает более широкий круг фейковой информации, и эти модели уже просто не в состоянии дать оценку истинности информации. Поэтому продолжают оставаться важными прямые или комбинированные методы обработки информации, содержащие в себе классические прямые подходы. Именно они, как представляются многим специалистам, будут способны скорректировать работу больших языковых моделей. Данные подходы применяли в своих работах Дмитрий Морозов и Давлатер Менглиев. Чтобы развитие нейросетей и больших языковых моделей не зашло в тупик, необходимо привлечение классических методов компьютерной лингвистики, в которой используется знание о языке. В данном контексте это знание представляет собой моделирование человеческого мышления. Нейросети моделируют нейронные связи в человеческом мозге, но не мышление, и тем самым реализуют чисто механистический подход к процессу обработки информации, который немыслим без участия человека, потому что он является и производителем, и конечным потребителем любой информации. Поэтому обработка языка должна включать понимание того, как он устроен, а не быть механическим собиранием информации в большие языковые модели, — объяснил научный руководитель обоих соискателей ученой степени Владимир Барахнин.

Исследование Дмитрия Морозова имеет особую актуальность вследствие того, что оно направлено на установление соответствия между текстом и его возможным читателем. Как пояснил Владимир Барахнин, в настоящее время существует большой разрыв между поколениями: немало слов в текстах, которые кажутся вполне понятными представителям старшего поколения, оказываются совершенно не воспринимаемыми для молодежи. В большинстве случаев это устаревшие слова, и чтобы понять их, школьникам приходится обращаться к словарям. Разработанные Дмитрием Морозовым алгоритмы нацелены на то, чтобы потребитель информации получал информацию, адекватную своему уровню образования. Тогда его развитие и обогащение его словарного запаса будет проходить постепенно. Важность данных алгоритмов состоит в их реальной адаптации к свойствам потребителя информации и учет его возможностей. Оценка эксперта по большей части субъективна, а потому и не слишком надежна, а методы объективного контроля, разработанные в диссертации Дмитрия Морозова, позволяют более тщательно проводить образовательный процесс в гуманитарной области.

— Тема моей диссертации — «Оценка сложности текста методами машинного обучения на материале русского языка». Она посвящена оценке того, насколько текст будет понят читателем или насколько читатель должен быть подготовлен, чтобы понять написанное. Это необходимо, чтобы оценить сложность различных инструкций. Такие тексты должны быть понятны людям без специального образования и подготовки. Но возникает проблема: создают их люди, которые обладают специальными знаниями о предмете повествования, а потому многое из того, что непонятно посторонним, кажется им очевидным. Им трудно объективно оценить создаваемый ими текст. С другой стороны, человек, не обладающий этими знаниями, оценивая сложность текста, должен полностью с ним ознакомиться и дать свою оценку. На это уходит немало времени. Поэтому в данной области образуется обширное поле для автоматизации процесса.  У нас появились разнообразные предобученные большие языковые модели, которые можно использовать в рамках разных алгоритмических подходов, и оценивать сложность текста автоматически. В моей диссертации подробно рассказывается о том, как их использовать для конструирования описания текста, чтобы потом полученное описание можно было конвертировать в оценку лингвистической сложности, — рассказал Дмитрий Морозов.

Разработка молодого ученого найдет применение при составлении инструкций к сложным товарам. Также предполагается использовать данный комплекс, для создания коллекции текстов, которые были бы понятны школьникам разных возрастов. Это необходимо, чтобы ученые-лингвисты могли в дальнейшем исследовать их вокабуляр, потому что разнообразные тексты, читаемые школьниками, становятся важным источником новых слов в их словаре. Таким образом они смогут составлять разные коллекции слов и прогнозировать, какие из них школьникам известны, а какие нет, опираясь при этом не на субъективный опыт, а на объективные данные.

Исследование второго соискателя ученой степени Давлатера Менглиева, по мнению его научного руководителя Владимира Барахнина, является пионерным для узбекской компьютерной лингвистики, которая начала развиваться сравнительно недавно. По его словам, в настоящий момент в НГУ начала складываться целая научная школа и разработкой данной тематики занимаются несколько аспирантов из Республики Узбекистан.

Свою кандидатскую диссертацию я посвятил разработке гибридного алгоритма распознавания именованных сущностей в узбекском языке. Данный алгоритм позволяет извлекать из текста ключевую информацию и распознавать ее. Аналогичные разработки уже существуют для других языков, но для узбекского, как и для всех тюркских в целом, таких работ еще сделано не было. Дополнительную актуальность моей работе придает использование гибридного подхода, предполагающего применение не только современных нейросетей, но и традиционных правилоориентированных алгоритмов, которые совместно с несколькими архитектурами способствовали достижению хороших результатов. На данный момент моя разработка внедрена в различных организациях Республики Узбекистан, в частности, в офисе приемной губернатора Хорезмской области. С помощью данного алгоритма из обращений и заявлений, поступающих в учреждение, извлекается ключевая информация и направляется в соответствующие подразделения и отделы. Поскольку в узбекском языке имеется множество диалектов, моя работа в данном направлении еще не завершена, — объяснил Давлатер Менглиев.

Секретарь научного семинара  ФИТ НГУ, в рамках которого проходят предзащиты диссертационных работ, Александр Власов уверен, что первые две защиты кандидатских диссертаций – это начало большого пути как в рамках факультета, так и НГУ и в целом Академгородка.

1/5

Данные о правообладателе фото и видеоматериалов взяты с сайта «Новосибирский государственный университет», подробнее в Правилах сервиса