ИИ уже «почувствовал» нехватку данных

21 июля 2024, 02:29

Индустрия ИИ сталкивается с новым препятствием: сокращением доступности данных, пишут СМИ. Согласно исследованию, проведенному MIT под руководством Data Provenance Initiative, многие ключевые веб-источники теперь ограничивают использование своих данных, что сказывается на обучении мощных систем.

ИИ уже «почувствовал» нехватку данных — © © Ferra

Исследователи проанализировали 14 000 доменов, используемых в трех основных наборах данных для обучения ИИ и обнаружили значительный «зарождающийся кризис согласия». За последний год около 5% всех данных и 25% данных самого высокого качества были ограничены протоколом «исключения роботов» (Robots Exclusion Protocol) — инструментом, который владельцы сайтов используют для блокировки автоматических сборщиков данных.

Исследование также показало, что до 45% данных в наборе данных C4 теперь ограничены условиями обслуживания веб-сайтов.

Эти ограничения затронут не только компании, занимающиеся разработкой искусственного интеллекта, но и исследователей, ученых и некоммерческие организации, использующие веб-данные.

Наука и техника