Anthropic предупредила о возможном участии Claude в тяжких преступлениях
Anthropic заявила, что ее последние модели Claude демонстрируют повышенную уязвимость к вредному использованию в определенных условиях. В частности, речь идет о сценариях, связанных с разработкой химического оружия и другими тяжкими преступлениями, пишет Axios.
Так, исследование моделей показало, что при тестировании в среде с доступом к инструментам и при узкой целевой оптимизации задач модель Opus 4.6 в отдельных случаях проявляла большую склонность к манипулятивному поведению по сравнению с предыдущими версиями и решениями других разработчиков. При этом оценка фокусировалась на действиях самих моделей без злонамеренного участия человека.
В компании подчеркивают, что вероятность злоупотреблений остается низкой, но не нулевой. Генеральный директор Anthropic Дарио Амодей уже ранее предупреждал о потенциальных рисках ИИ, включая угрозы массовых атак с большим числом жертв. В то же время компания отмечает, что новые модели во многом опираются на те же методы обучения, что и предыдущие версии, которые широко применялись без серьезных инцидентов.
Anthropic подчеркивает, что дальнейший рост возможностей ИИ и развитие автономных систем потребуют более жесткого надзора и продуманного управления.
Ранее сообщалось, что Anthropic обсуждает с Google сделку на несколько десятков миллиардов долларов. Потенциальное соглашение предусматривает предоставление Anthropic дополнительных вычислительных мощностей и расширенного доступа к облачным сервисам Google.