Ещё

Яндекс. Переводчик научился переводить «хайповые» слова 

Фото: N+1
Язык постоянно пополняется новыми словами. Одни неологизмы надолго остаются в языке, другие быстро забываются. Сервисы онлайн-переводов от Google или Яндекса должны быстро научиться их распознавать и корректно переводить на другие языки.
Системы автоматического перевода обучаются с помощью параллельных текстов. Они одинаковы по содержанию, но написаны на разных языках. Один из самых известных в истории примеров параллельных текстов — Розеттский камень, благодаря которому расшифровали древнеегипетские иероглифы.
Большие объемы параллельных текстов называют корпусами. Неологизмы могут попадать в корпус со свежими параллельными текстами. Проблема в том, что обновление корпусов занимает достаточно много времени, несколько месяцев. Для неологизмов это очень долгий срок.
Чтобы Яндекс. Переводчик быстрее реагировал на новые слова, разработчики начали использовать дополнительный источник данных — поисковые запросы. Услышав новое слово, люди уточняют его значение в поиске. Слова, к которым возник всплеск запросов — кандидаты на роль неологизмов.
Системе переводчика необходимо отсеять новые хайповые слова от сезонных запросов («как готовить кулич», «где купить елку»). Для этого используют лингвистические фильтры, а также смотрят на контекст: в запросах с неологизмами нередко встречаются уточнения («хайп что это значит», «блокчейн что это такое простыми словами»). Из 78 тысяч кандидатов в неологизмы в прошлом году после фильтрации специалисты из Яндекс выделили всего тысячу слов.
Неологизмы необходимо не только обнаружить, но и правильно перевести. Система переводчика обучается на примерах переводов заимствованных слов, и выдает несколько вариантов перевода неологизма. Ранжирует переводы по на основе машинного обучения недавно созданный специалистами Яндекса метод CatBoost. Он составляет список вариантов, где вверху находятся наиболее вероятные переводы, а внизу — наименее вероятные. На финальную проверку неологизмы поступают сотрудникам Яндекса, а затем пополняют базу переводчика. С этого момента сервис будет верно переводить слова в текстах и показывать для него словарную статью.
После апгрейда переводчик выучивает неологизмы очень быстро — спустя несколько дней после того, как о них начали спрашивать у Яндекса, отмечают в блоге сотрудники компании.
О нововведении компания сообщает в своем блоге.
Подробнее о принципах работы алгоритмов Яндекса, в том числе и нового — «Королев», читайте на «Чердаке».
 Ещё 1 источник 
Читайте также
Новости партнеров
Больше видео