У ИИ выявили способность к обману

Исследователи компании Anthropic выявили у искусственного интеллекта способность у обману человека. Об этом сообщает PC Magazine со ссылкой на результаты их работы.

По данным издания, перед исследователями в компании поставили задачу выяснить, возможно ли обучить модели искусственного интеллекта обманывать пользователей с помощью выдачи неправильных ответов вместо правильных. Для реализации этого замысла ИИ обучили этичному и неэтичному поведению. Кроме того в него встроили фразы, побуждающие искусственный интеллект обманывать пользователей.

По итогам проекта исследователи выявили, что ИИ не только имеет удивительную способность к обману, но и устранить ее из него чрезвычайно сложно, поскольку он начинает ее просто скрывать.

«Хотя наша работа не оценивает вероятность появления указанных вредоносных моделей, она подчеркивает их последствия. Если модель демонстрирует склонность к обману из-за выравнивания инструментария или отравления модели, современные методы обучения средствам безопасности не будут гарантировать безопасности и даже могут создать ложное впечатление о ее наличии», — говорится в исследовании.

Anthropic является американским стартапом в сфере ИИ. Ее основателями являются бывшие сотрудники OpenAl, которой принадлежит самый известный чат-бот с искусственным интеллектом ChatGPT.

Наука и техника