В Новосибирске создали алгоритм машинного обучения для перевода с бурятского

НОВОСИБИРСК, 31 мая. /ТАСС/. Нейросетевую модель, превосходящую существующие аналоги русско-бурятского перевода, разработали в Новосибирском государственном университете (НГУ). Алгоритм станет основой для создания русско-бурятского онлайн-переводчика на основе нейросетей, сообщили ТАСС в пресс-службе вуза.

"Основная сложность состояла в том, что бурятский язык является малоресурсным. В онлайн-переводчиках он не представлен. В интернете можно найти разве что электронные словари или разговорники. По этой причине собрать данные для создания параллельного корпуса было затруднительно. Молодежь не выражает сильной заинтересованности в сохранении и продвижении бурятского языка, передача его из поколения в поколение, к сожалению, происходит все реже. Согласно переписи населения России, в 2002 году 79% бурят указали, что владеют бурятским языком, в 2020 же году - 63%. А между тем бурятский язык внесен в "Атлас языков мира, находящихся под угрозой исчезновения" ЮНЕСКО со статусом "есть угроза исчезновения", - привели в пресс-службе слова разработчицы Дари Батурова.

Батурова создала русско-бурятский и русско-монгольский параллельный корпус - это собрания текстов на одном языке вместе с переводом на другой язык. Он состоит из пар текстов на двух языках - оригинал и перевод. Помимо этого параллельный корпус может состоять из пар отдельных предложений. Также она обучила две модели для русско-бурятского перевода и сравнила их с лучшей моделью из ранее существовавших для данной задачи. Выяснилось, что по результатам оценки, одна из моделей, обученных исследовательницей, превзошла другие существующие ранее аналоги. В основу работы вошли более 4 тыс. новостных текстов.

В дальнейшем исследователь намерена преобразовать его в более доступный и удобный формат для будущих пользователей - сайт с русско-бурятским онлайн-переводчиком. С этой целью она объединила свои усилия с выпускницей Санкт-Петербургского университета Сараной Абидуевой, которая создала первую нейросетевую модель для русско-бурятского перевода в рамках своей дипломной работы. Благодаря совместной работе они создали первый в открытом доступе русско-бурятский параллельный корпус, состоящий из собранных данных в интернете и полученных текстов от различных организаций.

В дальнейшем они планируют усовершенствовать алгоритм для русско-бурятского перевода и разместить сайт с ним. Батурова уверена, что этот ресурс будет полезен для носителей бурятского языка и людей, изучающих его, а также исследователей языка и культуры, лингвистов, переводчиков и всех, кто заинтересован в сохранении и продвижении бурятского языка.