Трудности перевода. Хорошо ли ИИ разбирается в языках?
Это может иметь серьезные последствия: например, переводческие ошибки на основе ИИ сорвали несколько дел о предоставлении убежища в США.
Проблема в том, что в мире существует более 7000 языков, но большинство ИИ-чат-ботов обучены всего на сотне из них, причем английский язык доминирует, хотя на нем говорит менее 20% мирового населения. Это приводит к распространению ошибок и недоразумений, особенно в критических ситуациях.
Основные языковые модели (LLM) обычно отражают предпочтения своих создателей, которые в большинстве случаев живут в англоязычных странах. Из-за этого они плохо адаптируются к культурным и языковым особенностям других регионов. Это особенно важно, потому что такие чат-боты становятся всё популярнее, от работы в службах поддержки до умных помощников.
IT-World изучил исследование Стэнфорда, посвященное этой проблеме. Оно показало, что попытки «настроить» LLM под различные культуры и языки часто приводят к ошибкам, потому что разработчики не всегда правильно интерпретируют местные культурные контексты. Например, фразы или идиомы на английском могут быть неверно поняты и неудачно переведены, что затрудняет общение с пользователями из других стран.
Исследователи подчеркивают важность прозрачности в процессе разработки. Это значит, что нужно открыто сообщать, какие культурные и языковые аспекты были учтены при создании модели. Такой подход поможет избежать предвзятости и улучшит взаимодействие с пользователями по всему миру.
Кроме того, рекомендуется проводить обширное тестирование с местными пользователями до того, как чат-боты будут запущены в работу. Это поможет выявить и исправить культурные ошибки, которые могут возникнуть при использовании ботов. Важно также предоставлять пользователям возможность выбора языка и культурного контекста, чтобы они могли настроить бота под свои нужды.
Ольга Попова, главный редактор IT Manager: "Как главный редактор, хочу отметить одну важную проблему, с которой сталкиваются многие, кто занимается созданием контента. Определенные выражения на русском языке плохо поддаются переводу на другие языки. Например, фраза «два сапога — пара» понятна каждому соотечественнику. Но попробуйте передать это в другом языке, и смысл легко может потеряться. Эта сложность особенно актуальна в наше время, когда в ИТ-сфере и не только появляется всё больше сленга, где смешиваются русские и английские слова. В результате получается своего рода гибрид, который будет понятен узкому кругу специалистов, но вызывает недоумение у тех, кто не знаком с таким жаргоном".
Есть признаки того, что проблема начинает решаться. Например, правительство Индии разрабатывает систему перевода Bhashini, обученную на местных языках, а технологическая фирма Karya создает наборы данных для ИИ-моделей. В ОАЭ создана первая арабская языковая модель Jais AI, а в Новой Зеландии Te Hiku Media использует ИИ для сохранения и продвижения языка маори.
В Африке инициатива Masakhane занимается продвижением исследований NLP для африканских языков, а правительство Нигерии запустило свою первую многоязычную языковую модель. В Бразилии и Турции также предпринимаются усилия по сохранению и продвижению местных языков с помощью технологий ИИ.
Таким образом, несмотря на серьезные проблемы с языковой предвзятостью, предпринимаются активные шаги по ее преодолению. Генеративный ИИ может сыграть важную роль в сохранении языкового разнообразия, если будет правильно разработан и адаптирован для работы с разными языками и культурами.
К 2033 году объём мирового рынка чат-ботов на основе искусственного интеллекта прогнозируется на уровне 66,6 млрд долларов США, что значительно выше по сравнению с 6,4 млрд долларов в 2023 году. Ожидается, что в период с 2024 по 2033 год среднегодовой темп роста составит 26,4%.