В Мордовии создали чат-бот для перевода с русского языка на эрзянский

ТАСС, 16 апреля. Ученые Мордовского государственного университета имени Н. П. Огарева запустили чат-бот в мессенджере Telegram для перевода с русского языка на эрзянский. Об этом сообщил ректор вуза Дмитрий Глушко в своем Telegram-канале.

МГУ Огарева разработан чат-бот в Telegram для перевода с русского языка на эрзянский. Усилиями лингвистов, студентов, носителей языка и энтузиастов собрано 100 тыс. пар параллельных предложений на эрзянском и русском языках и около 50 тыс. еще на подходе", - говорится в сообщении.

Telegram-бот, позволяющий генерировать перевод предложений с русского на эрзянский, открыт для бета-тестирования IT-специалистов и носителей языка. После доработки бот откроют для широкой аудитории, сообщил разработчик, доцент кафедры фундаментальной информатики, директор лаборатории интеллектуального анализа данных МГУ имени Огарева Артем Андронов.

"Сейчас мы начинаем сбор аудиозаписей на эрзянском языке для решения задач синтеза и распознавания речи. Кроме того, собираем и предложения для языковой пары русский-мокшанский, с дальнейшей реализацией такой же модели в виде чат-бота", - рассказал Андронов.

Онлайн-переводчик

Как пояснили в вузе, сейчас ученые университета также разрабатывают онлайн-переводчик с русского на эрзянский.

"Основным инструментом для создания сервиса по переводу является параллельный корпус. Это двуязычные корпуса текстов, имеющие перевод с одного языка на другой. Все тексты в корпусах должны быть выравнены: отдельные фрагменты оригинала должны совпадать с соответствующими фрагментами перевода. На основе корпуса будут созданы наборы обучающих данных вычислительных моделей мордовских языков, процесс перевода будет моделироваться с помощью нейронной сети", - рассказали в пресс-службе вуза.

Сейчас в корпусе уже собраны тексты, содержащие около 50 тыс. предложений - это художественные тексты, тексты официальных новостей, фразы из разговорников, учебников, научной литературы.

Работа ведется по проекту "Университет - центр социокультурного развития региона" федеральной программы "Приоритет 2030" на средства гранта в размере 8,5 млн рублей.

Всего, по данным Федерального агентства по делам национальностей за 2023 год, онлайн-переводчики разработаны для шести из 277 языков народов России: татарского, башкирского, чувашского, марийского, якутского и удмуртского.

Численность мордвы сегодня превышает 484 тыс. человек, из них 30% проживают в Мордовии, остальные расселены по Нижегородской, Ульяновской, Оренбургской, Самарской и Пензенской областям.