Chatbot Arena манипулирует рейтингами ИИ?

04 мая 2025, 11:01

Chatbot Arena выглядела красиво. Удобная платформа: две модели отвечают на один и тот же запрос, пользователь выбирает, чей ответ лучше — вслепую, без знания, кто есть кто. Всё выглядит как демократичный конкурс качества. Но под внешней нейтральностью скрывается тщательно выстроенная система перекосов. И теперь это не догадки, а подтверждённый факт.

Chatbot Arena манипулирует рейтингами ИИ? — © It-world

Chatbot Arena манипулирует рейтингами ИИ?. Рис. 1

Нейросети выходят за пределы человеческого знания

Исследование, подготовленное группой учёных из Google DeepMind, ETH Zurich, Университета Вашингтона и других институтов, показало, что арена вовсе не равна для всех. Она явно играет на стороне крупных игроков — таких как OpenAI, Meta*, Google и Anthropic. Эти компании получают не просто больше внимания — им фактически предоставлены технические и статистические привилегии.

Пример — Meta* протестировала 27 разных версий Llama 4, и в рейтинге осталась, конечно, только та, что выглядела наилучшим образом. Остальные 26? В корзину. А ведь Chatbot Arena не ограничивает число приватных версий: компании могут бесконечно «шлифовать» результат. В то время как независимые команды выкладывают одну, максимум две версии — без права на дубль.

Дальше — хуже.

62,8% всех пользовательских сравнений приходятся на четыре компании. Оставшиеся 29,7% распределяются между 83 открытыми моделями.

То есть шансы попасть в выборку — мягко говоря, неравные. А ведь речь идёт не только о месте в рейтинге. Эти запросы — ценнейший тренировочный материал. По оценке исследователей, дообучение на данных Arena может дать до 112% прироста производительности. А доступ к таким данным — строго по рангу.

Всё это создает эффект самоподпитки: больше трафика → лучше модель → ещё больше трафика. И наоборот — у открытых моделей почти нет шанса выйти из тени.

Дополняет картину отсутствие прозрачности. Модели могут менять идентификаторы, версии могут заменяться без уведомлений, а в некоторых случаях проприетарные решения маскируются под open-source. Это подрывает саму суть оценки: нельзя сравнивать то, что не отслеживается и не верифицируется.

Но самый токсичный элемент — механизм исключения моделей. Он есть. Только работает он тихо и выборочно.

Из 243 удалённых моделей 205 были открытыми. Это две трети.

Причины удаления не публикуются. Разработчиков не предупреждают. Более того, удалённые модели могут ещё долго фигурировать в сравнениях, хотя уже не представлены в рейтинге — что делает их по сути «фоновыми участниками» без возможности победить.

Команда LMSYS Foundation, управляющая Arena, признала часть претензий. В ответ были введены ограничения: не более пяти активных приватных версий модели, обязательное уведомление при замене. Но по-настоящему важные аспекты остались нетронутыми: распределение запросов, публикация логов, доступ к метаинформации — всё это до сих пор закрыто. Сравнения идут, но понять, как именно формируются результаты, невозможно.

Кто дотянет до финиша в гонке ИИ?

Реакция сообщества — ожидаемая. В X и Reddit всё больше жалоб: у разработчиков исчезают модели, снижается трафик, блокируются обновления. В ход идут призывы перейти на альтернативные площадки — например, Hugging Face Open LLM Leaderboard, где хотя бы понятно, как устроен рейтинг и кто с кем соревнуется.

Авторы исследования не ограничились критикой и предложили конкретные шаги, чтобы спасти ситуацию:

Публиковать все версии моделей и результаты сравнений. Ограничить число приватных вариантов от одного разработчика. Справедливо распределять пользовательские запросы между всеми участниками. Уведомлять об исключении модели, объяснять причины, давать возможность ответить. Открыть доступ к логам и метаданным — чтобы можно было перепроверить любой вывод.

Chatbot Arena — это не просто сайт с таблицей. Это зеркало индустрии. Его данные влияют на инвестиции, принимаемые решения, академические публикации и публичные дискуссии. И если в этом зеркале отражается только выгодный угол крупного игрока, то это уже не отражение реальности — а инструмент давления.

Сама идея честного сравнения моделей — важна. Но пока она реализована через закрытую платформу с ручным управлением, доверие к ней будет снижаться. Кто знает: может, следующая революционная модель уже создана — но у неё просто не было шанса попасть в нужный рейтинг.

* - признана экстремисткой организацией и запрещена в РФ.

Игры

Google

Вашингтон

Россия