Более 170 000 видео с YouTube вошли в огромный датасет для обучения ИИ систем, как выяснили Proof News и Wired. Компании Apple, Anthropic, Nvidia и Salesforce использовали субтитры, взятые с платформы без разрешения.
Датасет включает субтитры из видео с более чем 48 000 каналов, включая популярные ролики от MrBeast и Marques Brownlee, но также были использованы новости. Marques Brownlee подтвердил, что Apple использовала данные с его видео, и отметил, что это проблема будет актуальной долгое время. YouTube пока не прокомментировал ситуацию.
Proof News создали интерактивный инструмент, позволяющий проверить, какие видео попали в датасет. Этот случай вновь поднимает вопрос прозрачности использования данных для обучения ИИ.