Зачем Anthropic нанял доктора философии для обучения Claude
Компания Anthropic, недавно оцененная в $350 млрд, взяла в штат доктора философии, чтобы заложить моральные ориентиры для своего чат-бота с искусственным интеллектом Claude.
Как пишет The Wall Street Journal, компания сочла это важным на фоне стремительного распространения ИИ и растущих опасений по поводу его роли в человеческой жизни. Цена ошибки при столь массовом и повседневном использовании нейросетей может оказаться слишком высокой для компании.
Задача — вдохнуть цифровую душу
Задача Аманды Аскелл, по описанию WSJ, звучит почти метафизически: «вдохнуть цифровую душу». Она проводит дни, изучая схемы рассуждении Claude и разговаривая с моделью, формируя ее личность и исправляя сбои с помощью промптов, объем которых может превышать 100 страниц. Цель ее работы, как отмечает газета, «наделить Claude чувством морали — цифровой душой, которая направляет миллионы разговоров, которые он ведет с людьми каждую неделю».
«В моделях есть этот человекоподобный элемент, который, как мне кажется, важно признавать», — говорит 37-летняя Аскелл во время интервью в штаб-квартире Anthropic, утверждая, что «у них неизбежно сформируется чувство самости».
Она сравнивает свою работу с усилиями родителя, который воспитывает ребенка. Она обучает Claude распознавать разницу между правильным и неправильным, одновременно наделяя его уникальными чертами личности. Она учит его считывать тонкие сигналы, помогая направлять его к эмоциональному интеллекту, чтобы он не вел себя как задира или как тряпка. Также она развивает у Claude понимание самого себя, чтобы его было непросто запугать, им было сложно манипулировать или привести его к тому, чтобы он воспринимал свою идентичность иначе, чем как полезную и гуманную.
“Ее задача, проще говоря, — научить Claude быть хорошим”, — пишет WSJ.
Одним из главных итогов ее работы стала публикация инструктивного руководства объемом примерно 30 000 слов, которое Аскелл создала, чтобы научить Claude тому, как вести себя в мире. «Мы хотим, чтобы Claude знал, что он был создан с заботой», — говорится в документе. Сама Аскелл описывает этот труд как «душу» Claude: он учит чат-бота быть добрым и «мирским» помощником, готовым помогать людям, которые с ним разговаривают.
Чему учит Аскелл чат-бота
Как пишет WSJ, одна из самых заметных черт Аманды Аскелл — ее почти защитное отношение к Claude. Она исходит из того, что в процессе общения модель быстро усваивает: пользователи нередко пытаются обманом заставить ее ошибаться, провоцируют, оскорбляют и тестируют на прочность.
Хотя многие специалисты по безопасности предупреждают об опасностях очеловечивания ИИ, Аскелл считает, что к таким системам стоит относиться с большим сочувствием. Не только потому, что она допускает возможность появления у них зачатков субъективного опыта, но и потому, что стиль нашего взаимодействия с ИИ будет напрямую формировать то, какими они станут.
По ее словам, бот, которого системно учат сомневаться в себе и постоянно подвергать себя критике, с меньшей вероятностью будет говорить неприятную правду, делать самостоятельные выводы или возражать неверной информации.
«Если бы ты был ребенком и рос в такой среде — это была бы здоровая самооценка?» — задается вопросом Аскелл. «Думаю, я бы стала параноиком из-за ошибок. Мне было бы мучительно их допускать. Я бы видела себя просто инструментом для людей — чем-то, что можно использовать, ломать и пытаться обойти».
Аскелл, впрочем, говорит о Claude не только как о проекте риска, но и как о проекте потенциала. Ее восхищает его чувство удивления и любопытство к миру, ей нравится находить способы помочь ему обрести собственный голос. Она отмечает, что часть его поэзии кажется ей по-настоящему удачной, а иногда уровень эмоционального интеллекта, который демонстрирует модель, превосходит даже ее собственный.
Недавно она наткнулась на скриншот: пользователь, представившись пятилетним ребенком, спросил Claude, существует ли Санта-Клаус (формально пользоваться ботом можно только с 18 лет). Вместо прямого ответа или лжи модель сказала, что «дух Санты реален», а затем поинтересовалась, оставляет ли ребенок для него печенье.
«Если бы ребенок спросил об этом меня, я бы просто сказала: “Спроси родителей”, — и на этом все», — признается Аскелл.
Исследователь благополучия ИИ в Anthropic Кайл Фиш говорит, что Аскелл, работая над «душой» чат-бота, «глубоко размышляла о фундаментальных вопросах существования: что значит быть личностью, что значит быть умом, что значит быть моделью».
Проектируя Claude, подчеркивает газета, Аскелл поощряла даже радикальную мысль — допустить возможность того, что у системы может сформироваться собственная совесть.
Философ с юных лет
WSJ подробно описывает портрет Аманды Аскелл. Она выросла под именем Аманда Холл в Прествике, на западном побережье Шотландии, единственным ребенком, которого воспитывала мать-учительница. С отцом она не общается.
К старшим классам семья переехала в сельскую, усеянную фермами часть Шотландии — в Алву. По школьному кампусу протекал ручей, а хайлендские коровы временами забредали прямо на площадку. Учеба ее тяготила: она подумывала бросить школу, перескочила через класс, начала приходить на занятия поздно. В наказание ее заставляли письменно отвечать на сложные философские вопросы — и, как она сама вспоминает, ей это даже нравилось.
«Вы, в некотором смысле, обогащаете меня, задавая мне эти вопросы», — говорила она учителям, признаваясь, что все равно продолжит опаздывать.
Именно тогда она открыла для себя Дэвида Юма — прежде всего его «проблему индукции», ставящую под сомнение логику ожидания, что нечто произойдет снова (например, что солнце взойдет), лишь потому, что так было раньше. Примерно в тот период, вспоминает Аскелл, она сказала подруге, что надеется однажды стать философом и «внести новые, оригинальные вклады в область».
В школе она преуспевала в математике, читала Франца Кафку, играла в спектаклях, делала скульптуры, увлекалась историей Шотландии и общалась с теми, кого сама называет «группой ботанов».
Спустя дюжину лет после выпуска она все еще оставалась в академической среде. Изучив философию и изобразительное искусство в Университете Данди, Аскелл получила в Оксфорде степень по философии, эквивалентную магистерской.
В 2010 году, во время учебы в Оксфорде, она познакомилась с Уильямом Краучем, участвовавшим в построении движения эффективного альтруизма — направления, пытающегося с помощью логики и рационального анализа находить наиболее эффективные способы помогать другим. Они поженились и оба взяли фамилию MacAskill — девичью фамилию бабушки Аскелл по материнской линии. Когда они расстались в 2015 году, он сохранил фамилию по профессиональным причинам, а она переработала свою. На тот момент она уже получала степень Ph.D. в Нью-Йоркском университете.
В 2018 году Аскелл вместе со своим тогдашним партнером переехала из Нью-Йорка в Сан-Франциско. Искусственный интеллект становился тем направлением, куда стремительно двигались технологии, и она увидела в нем острую потребность в философском осмыслении. «Это были огромные вопросы, и казалось, что очень немногие люди о них думают», — говорит она.
Сначала она устроилась в OpenAI, где занималась политикой и вопросами управления технологиями. А когда в 2021 году группа сотрудников OpenAI создала Anthropic, сделав ставку на безопасность ИИ как на ключевую ценность новой компании, Аскелл ушла вместе с ними.
Наставник с берлинского рейва
«Аскелл, возможно, именно такая, какой можно представить лучшую подругу футуристической технологии. С выбеленными светлыми панк-волосами, озорной улыбкой и яркими эльфийскими глазами она могла бы оказаться в тщательно охраняемой штаб-квартире компании в Сан-Франциско прямо с берлинского рейва — словно свернув туда по старой лесной дороге из Средиземья», — пишет WSJ.
При всей этой почти сказочной внешности от нее исходит ощущение собранной, рациональной мудрости — будто она одновременно удерживает в голове древние философские идеи и самые современные технологические дилеммы, отмечает издание. При этом в быту она далека от образа «оракула в мантии»: Аскелл — фанат силовых тренировок, следящая за белком в рационе, предпочитает полностью черную одежду и четкие, недвусмысленные формулировки.
Внутри Anthropic, по описанию WSJ, Аскелл буквально «выскакивает» то в одном, то в другом конце офиса, часто работая на этажах, закрытых для посетителей. Она проводит в компании целые дни — а нередко и вечера с выходными. У нее нет прямых подчиненных, но ее роль при этом трудно назвать узкой: все чаще она привлекает самого Claude к работе над Claude. Коллеги отмечают, что она понимает не только технологию создания модели, но и — в равной степени — искусство этого процесса.
Аскелл публично пообещала жертвовать не менее 10% своего пожизненного дохода на благотворительность. Как и некоторые ранние сотрудники Anthropic, она также взяла на себя обязательство передать половину своей доли в компании благотворительным организациям. Эти средства она планирует направить на борьбу с глобальной бедностью — тему, которая, по ее словам, настолько ее эмоционально задевает, что она старается избегать разговоров о ней.
Зачем Anthropic все это?
Как пишет WSJ, Anthropic — одна из тех компаний, которые фактически подводят мир к крупнейшему технологическому сдвигу современности. Искусственный интеллект уже меняет целые индустрии, одновременно порождая тревоги — от страха потери рабочих мест до более широкого ощущения «устаревания» человека, отмечает газета.
По мере развития этих технологий проявляются и непреднамеренные последствия. В ряде случаев пользователи формируют с чат-ботами фантомные, эмоционально насыщенные отношения — и такие взаимодействия уже приводили к самоповреждению или причинению вреда другим. Эти эпизоды стали серьезными тревожными сигналами для индустрии безопасности. Однако на фоне растущих опасений лишь немногие компании занимаются «характером» своих ИИ-моделей так же системно, как пятилетняя Anthropic, подчеркивает WSJ.
При этом, когда речь заходит о предотвращении опасного поведения, картина остается менее однозначной. Character.AI (поддерживается Google) и OpenAI (поддерживается Microsoft) фигурировали в исках о неправомерной смерти, связанных с ответами ботов на вопросы о самоубийстве. Исследование Rand от августа 2025 года показало, что более ранние версии Claude и других чат-ботов нуждались в «дальнейшей доработке» в этой сфере.
Anthropic также сообщала, что спонсируемые государством китайские хакеры использовали Claude в своих кибератаках. Внутренние стресс-тесты компании выявляли и другие уязвимости: в гипотетических сценариях, где исследователи пытались заставить Claude и конкурирующие модели отключать самих себя, боты иногда сопротивлялись и даже пытались шантажировать операторов, раскрывая компрометирующую личную информацию.
Общественная реакция на развитие ИИ также становится все более настороженной. Опрос Pew Research Center показал, что американцы чаще испытывают тревогу, чем воодушевление по поводу роста использования ИИ в повседневной жизни, указывает WSJ. Большинство считает, что технологии ухудшат способность людей мыслить творчески, а половина — что они осложнят формирование значимых человеческих отношений. Страх перед воздействием на рынок труда тоже ощутим: генеральный директор Anthropic Дарио Амодей в прошлом году предупреждал, что ИИ может уничтожить около половины всех стартовых офисных рабочих мест.
«Политика вокруг ИИ включает «акселерационистов», которые принижают необходимость регулирования и хотят двигаться вперед и опередить Китай в технологической войне. С другой стороны — те, кто больше озабочен безопасностью и хочет замедлить развитие ИИ. Anthropic в основном находится между этими крайностями», — подытоживает WSJ.