Мир в терабайтах: "Большие данные - это поток опыта"
Джеффри Болтон - профессор, офицер ордена Британской империи, почетный королевский профессор геологии Эдинбургского университета, действительный член Королевского общества и Королевского общества Эдинбурга, президент комитета по данным в области науки и технологий (CODATA) в составе Международного совета по науке (International Council for Science). Профессор Болтон занимается исследованиями в области геологии и гляциологии. Возглавляет крупный проект по изучению ледяного щита Антарктиды. Его научная работа часто связана с большими объемами разнообразных данных. - Порой люди размышляют, как на самом деле связаны между собой те или иные явления. Бывает, что поиск скрытых закономерностей приводит к научным прорывам. Достаточно вспомнить, как были открыты закон всемирного тяготения, генетический код или тектоника плит. Когда на смену дискам и кассетам пришли цифровые запоминающие устройства, стоимость хранения данных резко снизилась, скорость проведения операций - возросла, а коммуникация между людьми стала глобальной и мгновенной. Мы стали получать огромное количество самых разных данных. Появилась новая, уникальная возможность исследовать глубинные закономерности явлений, ставить перед собой новые вопросы. Ну а правильно поставленные вопросы - ключ к научным открытиям. Компьютеры позволяют моделировать чрезвычайно сложные системы - человеческий мозг или прогноз погоды, а большие данные помогают описать эти системы с потрясающей точностью. В каких сферах жизни, в каких областях науки большие данные сейчас наиболее востребованы? В первую очередь в политике, государственном управлении, торговле (например, изучение привычек покупателей), логистике. В науке это прогноз погоды, генетика и геномика, наблюдение за поверхностью Земли, экология, сердечные и инфекционные заболевания, сфера медицинских услуг, исследование человеческого поведения, ликвидация последствий стихийных бедствий. В ценности и силе больших данных убеждаются сегодня отдельные люди, компании, университеты, исследовательские институты и даже правительства. Постоянный поток данных позволяет машине оценивать и корректировать свои ответы. Иными словами, она учится так же, как человек, - посредством опыта. Но, в отличие от людей, компьютерам устоявшиеся представления не мешают учиться на новом опыте. Машинное обучение будет играть доминирующую роль в нашей жизни уже в самом скором времени. Большие данные, которые получает машина в процессе обучения, - это поток опыта. Некоторые компьютеры получают за минуту ровно столько же опыта, сколько человек за всю свою жизнь. Роботы, способные обучаться, будут решать задачи, которые всегда считались по плечу лишь человеку, - причем с гораздо большей скоростью и намного точнее. Огромные потоки данных приближают появление искусственного интеллекта. Обучающиеся машины могли бы взять на себя задачи из области управленческой работы, аудита, финансовых операций. Они могли бы оказать огромное влияние на рынок труда. Глобальные вызовы современного мира чрезвычайно сложны, хаотичны, нелинейны и непредсказуемы. К этим вызовам относятся, в частности, изменение климата и будущее сельского хозяйства. Большие данные и цифровая революция дают нам инструменты, которые помогут сделать мир устойчивым и справедливым. Без этих инструментов наши шансы на выживание невелики. Благодаря микроскопу мы можем изучать окружающий мир гораздо детальнее, чем невооруженным глазом, замечать неочевидные закономерности. В этом смысле большие данные подобны миру, который нидерландский изобретатель Антони ван Левенгук первым увидел в свой микроскоп в 70-е годы XVII века. Факты Термин "большие данные" - big data - впервые использовал в публичном докладе в 1998 году Джон Мэши, ведущий исследователь компании Silicon Graphics. Доклад назывался "Большие данные и новая волна инфрастресса". Под инфрастрессом Мэши понимал нагрузку на компьютерные системы, которую создадут растущие объемы данных. В 2003-м количество данных, созданных человечеством за один год, составило примерно 5 000 000 000 DVD. В 2011-м мы генерировали такое количество данных каждые два дня. В 2014-м - каждые десять минут. В 2016-м - каждые две секунды. В 2003 году впервые был секвенирован геном человека. На это ушло 10 лет и 4 миллиарда долларов. Сегодня эта процедура занимает два дня и стоит тысячу долларов. 0,5% всех существующих данных проанализировано на сегодняшний день. Сколько? Большие данные измеряются терабайтами, петабайтами и даже эксабайтами. Это выглядит так: 1 бит. Компьютеры оперируют двоичной системой счисления, где есть только нули и единицы. Представьте клеточку в тетради, где можно нарисовать либо 0, либо 1, - это и будет бит, минимальная единица информации. Однобитный ответ невесты на вопрос жениха: "Согласна ли ты выйти за меня?" предполагает либо "да" (1), либо "нет" (0). 1 байт. Состоит из восьми битов, то есть представляет собой последовательность из восьми нулей и единиц, расставленных в произвольном порядке: 0000 0001, 0000 1110… Если коротко, байт равен двум в степени восемь. Следовательно, вопрос из предыдущего пункта, адресованный восьми невестам сразу, предполагает 256 вариантов ответа вместо двух. Килобайт = 1024 байта. Страница текста в редакторе Word весит 10-20 Кбайт. Небольшая картинка содержит порядка 30 Кбайт информации. Мегабайт = 1024 килобайта. Музыкальный трек весит 3-10 Мбайт. Популярная песня Дэдди Янки Despacito занимает 9 Мбайт в формате mp3. Фотография хорошего качества - 10 Мбайт. Гигабайт = 1024 мегабайта. Гбайт в месяц - типичный трафик мобильного интернета на телефоне рядового юзера. Этого объема достаточно, чтобы в течение 30 дней пользоваться социальными сетями, иногда слушать онлайн-музыку, посмотреть несколько видео на ютубе, регулярно постить истории и листать ленту в инстаграме и даже пару раз сыграть в Сети. Примерно гигабайт весит полуторачасовой фильм среднего качества. Терабайт = 1024 гигабайта. Терабайт - объем, с которого начинаются реально большие данные. 1-2 Тбайта - объем жесткого диска на современном компьютере. На Большом адронном коллайдере исследователи стремятся получать 27 Тбайт необработанных данных в день. Петабайт = 1024 терабайта. Весь ютуб весит примерно 5 петабайт. Объем оперативной памяти самого производительного в мире суперкомпьютера - китайского Sunway TaihuLight - 1,3 петабайта. Эксабайт = 1024 петабайта. Суммарный объем данных, которыми оперирует компания Яндекс, измеряется эксабайтами. Имеется в виду не только поиск, но и остальные сервисы. Зеттабайт = 1024 эксабайта. Мировой объем интернет-трафика в 2016 году перешагнул отметку в зеттабайт. По прогнозу компании Cisco, удвоение этого объема произойдет в 2019 году. Йоттабайт = 1024 зеттабайта. ICANN (Internet Corporation for Assigned Names and Numbers) - международная организация, регулирующая вопросы, связанные с интернетом, прогнозирует, что к концу XXI века количество информации в мире составит более четырех йоттабайт. За помощь в подготовке текста благодарим партнера Фестиваля науки - Британский совет (The British Council). Научный фестиваль Nauka 0+ 6-8 октября в Москве пройдет фестиваль Nauka 0+. На 90 площадках понятным, "человеческим" языком будут рассказывать о том, чем занимаются ученые, как научный поиск улучшает качество жизни, какие перспективы он открывает. Подробнее узнать о мероприятих Nauka 0+ можно в специальном номере журнала "Кот Шрёдингера".