Google создал искусственный разум, способный учиться без помощи людей

18 октября 2017, 20:03

МОСКВА, 18 окт – РИА Новости. Участники проекта DeepMind создали новую версию искусственного интеллекта AlphaGo, способную к обучению без участия человека и освоившую древнекитайскую стратегию го "с нуля" до уровня абсолютного чемпиона мира всего за три дня, говорится в статье, опубликованной в журнале Nature. "Удивительно, какого прогресса смогла достичь система AlphaGo за последние два года. AlphaGo Zero является самой сильной версией нашего ИИ, и при этом она использует меньше ресурсов и она принципиально не пользуется информацией, полученной от человека. В будущем, подобные системы, как мы надеемся, можно будет использовать для просчета структуры белков или создания новых материалов", — заявил Демис Хассабис (Demis Hassabis), руководитель проекта DeepMind. О чем мечтают андроиды Система ИИ AlphaGo была разработана Дэвидом Сильвером и его коллегами из подразделения DeepMind компании Google, базирующейся в Лондоне (Великобритания) в конце 2014 года, и ее работа была "протестирована" на чемпионе Европы Фане Хое (Fan Hui), который проиграл все пять матчей машине в 2015 году. В марте прошлого года AlphaGo победил чемпиона мира по го, Ли Седола, в серии из пяти матчей, только один из которых завершился победой человека. Сильвер и его коллеги смогли достичь этих успехов, построив свой ИИ на базе не одной, а сразу двух нейронных сетей – особых алгоритмов, имитирующих работу цепочек нейронов в мозге человека. Одна из них отвечает за оценку текущей позиции на доске, а вторая использует результаты анализа, подготовленные первой сетью, для того чтобы выбирать следующий шаг. Следующим логическим шагом в развитии AlphaGo, как отмечает Хассабис, стала ликвидация главного недостатка всех существующих сегодня нейросетей и систем искусственного интеллекта – необходимости обучать их тому, что они должны делать, используя огромные архивы данных, вручную обработанные человеком, или при непосредственном участии человека, как это происходило на первых этапах развития AlphaGo. Это свойство резко ограничивает применимость систем ИИ в реальной жизни, так как подобные программы в принципе не способны учиться самостоятельно, наблюдая за действиями людей или других машин, и не могут подхватывать новые навыки и знания "на лету", как человек. Кроме того, способности таких систем ИИ, по сути, ограничиваются тем, как хорошо их обучили люди, что в принципе не позволяет им выйти на реально "сверхчеловеческий" уровень работы. Больше суммы всех элементов Сильвер и его команда решили эту задачу, создав принципиально новую нейронную сеть, которая базируется на так называемых алгоритмах обучения с подкреплением. Эта нейросеть, в отличие от ее звездного предшественника, который изначально обучался в играх с добровольцами и имел некоторые встроенные примитивные стратегии игры, начала свою работу с состояния абсолютного новичка с нулевым багажом знаний. Иными словами, ей были известны лишь правила игры в го, начальные условия и условия победы, и затем компьютер самостоятельно учился играть в эту древнекитайскую стратегию, играя сам с собой и действуя методом проб и ошибок. Единственным ограничением в ее работе было максимальное время на обдумывание хода – оно составляло примерно 0,4 секунды. После каждой подобной игры, система ИИ анализировала все свои ходы и запоминала те, которые приближали одну из ее "половинок" ее к победе, и заносила в своеобразный "черный список" те шаги, которые были откровенно проигрышными. Используя эти данные, нейросеть перестраивала себя, постепенно достигнув того уровня, на который вышла первая версия AlphaGo перед серией игр с Ли Седолом. Переход на алгоритмы самообучения не только позволил AlphaGo Zero превзойти уровень его предшественницы и обыграть ее со счетом 100-0, но и улучшил многие другие аспекты ее работы. В частности, процесс ее обучения занял всего три дня и примерно пять миллионов игр, а также он потребовал лишь одного компьютера, а не несколько месяцев беспрерывной работы целой сети из рабочих станций и примерно 30 миллионов игр с людьми и со своей собственной копией. Что интересно, AlphaGo Zero, несмотря на ее мощь, больше похожа по манере своей игры на человека, чем на компьютер. Искусственный разум, как отмечают Сильвер и его коллеги, постепенно открыл и концептуализировал многие небольшие хитрости игры в го, которые были выработаны человечеством за тысячи сотни лет существования этой стратегии, а также разработал несколько новых стратегий начала игры, похожих на те, которые используют Ли Седол и Кэ Цзе, текущий чемпион в го. Аналогичные системы машинного обучения, как считают Сильвер и Хассабис, можно применять и для решения совершенно иных задач. К примеру, аналоги AlphaGo Zero можно применить для создания новых композитных или метаматериалов, изучения свойств белков и других сложных молекул и поиска ответов на целый ряда других вопрос, которые люди сегодня не могут решить самостоятельно.

Другое

РИА Новости: главные новости