Как стать миллионером, предсказывая гололедицу
Как с помощью нейросетей предсказывать обледенение на дорогах и выборы, почему в Сколтехе не любят термин Big Data и что такое решающее дерево, читайте в материале Indicator.Ru о современном предсказательном моделировании. Миллион рублей можно получить, не только сыграв в телевизионной игре с Дмитрием Дибровым. Правда, нужно будет постараться чуть больше, чем просто отвечать на вопросы, зато принести при этом намного больше пользы обществу. В День российской науки правительство Москвы распределило 33 миллиона рублей среди 48 молодых ученых, которые отличились в 2017 году своими исследованиями и разработками в совершенно разных областях науки и техники, от астрономии и приборостроения до гуманитарных наук и городской инфраструктуры. В номинации «Передача, хранение, обработка, защита информации» премию получил коллектив ученых из Сколковского института науки и технологий за «разработку методов предсказательной аналитики в задачах обработки индустриальных, биомедицинских и экономических данных», которой руководит доцент Сколтеха Евгений Бурнаев. Это не первая его награда: например, в конце сентября прошлого года аспиранты и студенты из научной группы Евгения выиграли международное соревнование Data Science Game 2017, проходившее в Париже. Предсказательное моделирование и зачем оно нужно По словам Евгения, подобными задачами его научная группа занимается с 2008 года, когда на базе Института проблем передачи информации (ИППИ РАН) был организован сектор №5 интеллектуального анализа данных и предсказательного моделирования (позже — одноименная лаборатория № 10). В 2016 году научная группа, получившая название ADASE (Advanced Data Analytics in Science and Engineeringс), стала работать на базе Сколтеха. Суть предсказательного моделирования состоит в том, чтобы, располагая данными о поведении той или иной системы в прошлом, построить прогноз ее поведения в будущем, и на основе этого прогноза принимать те или иные решения о ее дизайне, управлении ее поведением, и тому подобное. Такие задачи регулярно возникают в самых разных сферах — от косметической промышленности до двигателестроения и от борьбы с кражами конфиденциальной информации до прогнозирования результатов терапии онкологических заболеваний. При этом в ряде случаев приходится не только строить математические модели, но и обрабатывать «большие данные» (Big Data). «Честно говоря, мы не очень любим этот расхожий термин, Big Data. Для нас — людей, занятых решением практических задач – этот термин имеет смысл тогда, когда анализируемая информация уже не помещается на отдельном компьютере. Приходится специальным образом организовывать работу с данными из разных источников, учитывать то, что данные могут поступать не одновременно, а вычислительных ресурсов одного компьютера оказывается недостаточно» — пояснил Евгений Бурнаев. Он также добавил, что, несмотря на популярность термина, далеко не все современные промышленные и бизнес-задачи требуют специализированного программного обеспечения, алгоритмов и инфраструктуры, которые относятся к понятию «большие данные» — иногда требуется построить предсказание на основе сравнительно небольшого объема информации. «Допустим, у нас есть данные об эффективности косметического средства и эти данные представлены в виде таблицы, состоящей из 500 строк. Данные, конечно, не могут быть названы большими – однако это не умаляет важность самой задачи — производителю нужно понять, какая же комбинация ингредиентов может оказаться наиболее удачной», — говорит исследователь. Предсказательная модель может помогать не только с прогнозом поведения системы. Такая модель может выделить отклонения от нормального режима работы и это полезно как в технике для предупреждения аварий, так и в бизнесе, например, для своевременного выявления аномальной активности работников. «Предположим, с определенного компьютера начинают каждый вечер пересылаться те файлы, которые раньше никогда не пересылались — это может быть признаком того, что пользователь переправляет внутреннюю информацию конкурентам», — отмечает Евгений. Такие системы сейчас активно внедряют многие организации, и в их основе лежат все те же методы. Применяются такие модели и в инженерном деле. К примеру, расчет характеристик потока жидкости или газа вокруг некоего объекта; эксперименты in silico, компьютерное моделирование, стоят дешевле экспериментов с аэродинамической трубой, но все равно требуют много вычислительных ресурсов и времени. «Например, задачи, связанные с численным решением уравнения Навье-Стокса, считаются довольно долго; с другой стороны, при проектировании изделия обычно необходимо просчитать множество разных вариантов. Набрав некоторое количество данных, мы можем сделать предсказательную модель, которая будет работать гораздо быстрее и определить те изменения дизайна объекта, которые способны помочь в получении нужного результата». Сокращение затрат на проектирование и моделирование в инженерных приложениях, бизнес-аналитика, контроль за износом оборудования, подбор технологических параметров на производстве – по словам Евгения Бурнаева, анализ данных может применяться в самых разных отраслях. Фактически, его область применения ограничена только возможностью добычи численной информации о той или иной системе, возможностью построения адекватных моделей и экономическим интересом. «Если можно нечто математически описать и получить какой-то параметр, оптимизация которого экономически целесообразна – то нам найдется работа», — подытожил исследователь. Предсказательное моделирование можно применять и для сугубо «гуманитарных» целей — например, с его помощью можно прогнозировать исход выборов. Но есть и свои нюансы. «Прежде чем перейти к подобной задаче, надо потратить очень много сил и средств на чисто техническую работу, связанную с агрегацией различных источников данных, построением соответствующей инфраструктуры, приведением этих данных в подходящий для анализа вид, — отрезвляет Евгений желающих легко получить политический прогноз. — Такого рода работу и проект могли бы эффективно делать компании типа Mail.ru или Яндекса, у которых уже есть необходимая инфраструктура и данные». Работают ученые и над другими направлениями. «Сейчас мы активно занимаемся обработкой данных дистанционного зондирования Земли, — делится Евгений Бурнаев. — Речь идет о том, чтобы по последовательным во времени снимкам со спутников для заданной территории определять, что произошли какие-то нежелательные изменения в обстановке, например, дерево упало на железнодорожные пути, или определять типы строений и потенциальное количество людей, в них проживающих. Это полезно, например, для ритейла, чтобы принять обоснованное решение о том, где же именно стоит расположить очередной магазин сети». Другое направление исследований ученых связано с обработкой трехмерных данных. Они используются во многих областях — начиная от медицины (данные структурной и функциональной МРТ), заканчивая IT (компьютерная графика) и горным делом. «Например, по данным структурной МРТ образца керна можно прогнозировать его проницаемость, и использовать такого рода прогнозы в цифровых петрофизических моделях, которые востребованы такими компаниями, как "Газпром нефть"», — объясняет глава научной группы. Ученые используют и гораздо более традиционные данные МРТ: создают методику, которая поможет обнаруживать депрессию и эпилепсию по данным томографии. Алгоритмы и методы О том, как именно устроены алгоритмы анализа данных, рассказал коллега Евгения, аспирант Сколтеха Никита Ключников. «Модели бывают двух разных типов: интерпретируемые и неинтерпретируемые. Оба типа позволяют предсказать поведение системы или выделить аномалии, однако лишь в первом случае можно говорить о выделении некой понятной человеку закономерности: скажем, интерпретируемая модель позволяет сказать, какие черты потенциального заемщика указывают на высокий риск невозврата кредита» – пояснил он. Оба типа моделей строятся методами машинного обучения: такое название обозначает свойство «обучения» компьютерной системы на некой заранее сформированной выборке. Суть обучения заключается в том, что созданная тем или иным методом предсказательная система пытается сделать прогноз для ситуации, ответ в которой уже известен. Если прогноз оказывается далеким от правильного, в систему вносится определенная модификация и процесс повторяется: иногда подобный процесс насчитывает сотни или даже тысячи шагов со все большим приближением к желаемой цели. «Один из вариантов машинного обучения – это нейронные сети. Они, с одной стороны, очень популярны, с другой же это неинтерпретируемая модель, и вы зачастую не можете узнать, как конкретно она работает. Например, в Париже (во время соревнований Data Science Game 2017, — прим. Indicator.Ru) мы сфокусировались не на нейронных сетях, а на ином методе, градиентном бустинге», – говорит Никита Ключников. Градиентный бустинг – а точнее, градиентный бустинг на решающих деревьях – это процедура последовательного построения нужного алгоритма, для решения заданной задачи: например, выделения из общего перечня наименований тех запчастей, спрос на которые скоро вырастет. Решающим деревом называют совокупность переходов между вопросами вида «да/нет» по серии признаков, и для иллюстрации можно привести пример такого дерева: 1.Сейчас зима? 1а.Да. Спросом будут пользоваться зимние покрышки и жидкость для омывания стекол. 1б.Нет, задать вопрос номер 2. 2.Клиент ездит на внедорожнике? 2а.Да. Спросом пользуются лебедки для вытаскивания машины из болота. 2б.Нет. Задать вопрос номер 3. 3.Клиент живет в городе? Реальное дерево насчитывает гораздо больше ветвей. И, что самое важное, оно «выращивается» автоматически, то есть все вопросы формулируются не человеком на основе каких-то своих соображений, а алгоритмом на основе выделенных в базе данных закономерностей. Дерево решений, полученное многошаговой процедурой минимизации ошибки, может иметь крайне сложную с человеческой точки зрения структуру и неочевидные узлы – поэтому в ряде случаев такая модель оказывается фактически неинтерпретируемой. «Чем больше итераций, тем точнее дерево, но и тем сложнее его интерпретировать», прокомментировал Никита Ключников. Наука в жизнь Свои наработки ученые используют не только на соревнованиях или для получения премий. Исследователи из ADASE работали со всемирно известными компаниями — японской корпорацией тяжелого машиностроения IHI, разработчиком элементов питания и аккумуляторов SAFT, самолетостроителем Airbus, производителем космических аппаратов Astrium. Есть у них и отечественные контракты. «Например, для компании "Минимакс" мы строим нейросетевые модели для прогнозирования температуры поверхности дороги», — рассказывает Евгений. На автомагистралях работают погодные станции, установленные компанией. Данные с них — сила ветра, давление, температура воздуха и так далее, а также прогноз погоды от Росгидромета — передаются нейросети. На основе получившегося прогноза температуры поверхности дороги современные методы машинного обучения позволяют, например, предсказывать обледенение. Искать себе клиентов команде, работающей в Сколтехе, стены помогают. Точнее, не столько стены, сколько работающие в них коллеги. «В Сколтехе есть проектный офис, сотрудники которого проводят встречи с различными высокотехнологичными компаниями, — комментирует Евгений Бурнаев. — Они формируют портфель потенциальных задач, которые мы начинаем прорабатывать, чтобы сформулировать техническое задание и наше предложение для компании». Обращаются к ученым и стартапы из Сколково — в основном за консультациями. «В этом направлении также часто рождаются интересные проекты», — говорит Евгений. Не последнюю роль играют и личные знакомства. Выступления на конференциях в России и за рубежом часто помогают найти нужные контакты. «Подходят люди, задают вопросы, мы знакомимся, и результаты обсуждения также иногда превращаются в проекты», — заключает ученый. Подписывайтесь на Indicator.Ru в соцсетях: Facebook, ВКонтакте, Twitter, Telegram, Одноклассники.