«Проблемы гигантского количества данных нет, есть проблема работы с ними»

Космический мониторинг Системы мониторинга Земли, собирающие спутниковую и другую географическую информацию из различных источников, дают специалистам одновременный доступ к данным спутниковых наблюдений, результатам их обработки и всей сопутствующей информации. О создании аналогичного инструмента для исследования Марса рассказывает , доктор технических наук, заведующий отделом технологий спутникового мониторинга, заместитель директора Института космических исследований РАН. Идея разрабатываемой в ИКИ РАН системы спутникового мониторинга Марса состоит в том, чтобы аккумулировать уже достаточно большой объем данных дистанционного зондирования Марса и разработать инструментарий работы с ним, причем так, чтобы системой мог пользоваться любой желающий, при наличии доступа в интернет. Сейчас мы имеем большой опыт решения различных задач, связанных с мониторинговыми исследованиями Земли из космоса. Однако в случае Марса не все так просто. Основная проблема работы с данными в том, что есть много разной информации, исчисляемой многими петабайтами и накопленной в разных архивах. Наша задача сделать так, чтобы ее можно было эффективно использовать. Для этого надо создать систему, которая позволяла бы не только удаленно получать разные произвольные наборы данных, но и их обрабатывать. Обработка может быть разной: классификация, фильтрация или еще сложнее. Причем работать предстоит с очень большими архивами, расположенными в разных местах, полученными с разных аппаратов по разным проектам. В основном это пространственные данные, то есть изображения или их ряды, которые могут быть как многомерными, так и одномерными (иными словами, одному пикселю изображения могут соответствовать один или несколько физических параметров). Обычно поступают так: мы находим данные, формируем набор, перекачиваем эти данные на свои вычислительные мощности, а затем обрабатываем. А совмещение инструментария и архива сейчас представлено всего несколькими системами в мире; самая известная Earth Engine. По моим предположениям, на следующем месте по функционалу -- мы. Наша система несколько отличается. Если данные Google Earth Engine рассчитаны на специалистов, хорошо подготовленных с точки зрения программирования, то наша цель -- сделать специализированную программу-приложение обработки и анализа данных, которая будет устанавливаться на компьютер пользователя и использовать удаленные ресурсы. Такой подход мы с коллегами из Отдела физики планет и малых тел Солнечной системы и Отдела наземных научных комплексов планируем применить и для данных по Марсу. Причем в работе с Марсом есть особенности. В последние годы получено много данных о планете: и съемки в оптическом диапазоне, и атмосферные профили, и данные радарного зондирования. Но все равно их количество несопоставимо с тем набором данных, который существует для Земли. Причина простая: вокруг Земли сегодня летают около двухсот аппаратов, а вокруг Марса -- единицы, и те с перерывами. Поэтому проблемы гигантского количества данных нет. Но есть другая: данные получены, но накоплены они в разных экспериментах и в разных местах. Грубо говоря, "полетали, поснимали, бросили, забыли". С данными поработали постановщики эксперимента, их коллеги,-- а через некоторое время другим людям работать с этими же данными становится трудно -- какие-то из форматов поддерживаются, какие-то нет, программ обработки может и не быть, и многое другое. Значительная часть информации по миссии "ЭкзоМарс-2016" и по следующему этапу этого же проекта (в 2020 году) представляет собой даже не картинки, а трассовые измерения, целые ряды данных. И тут наша задача -- сделать регулярную систему, где данные будут поддерживаться долго, вне зависимости от того, идет проект или уже закончился. И вторая наша цель -- чтобы вы эти данные могли видеть так, как будто у вас уже работают разные программы обработки изображений, где вы их классифицируете, растрируете, измеряете, а потом можете построить графики, померить среднее значение, вставить модели. И сделать это можно везде, где есть доступ в интернет, и никакого особенного оборудования для этого не надо. Когда под рукой имеется инструмент для решения наших тематических задач, совершенно по-другому начинаешь относиться к данным: пришла в голову мысль, и ее можно быстро проверить. Например, мне на рецензию присылают статью о том, что в Охотском море в этом году была аномалия метана, и я хочу посмотреть, что происходило в Охотском море, связано ли это, например, с ледовой обстановкой. Я быстро нахожу в системе нужные данные и вижу, что в этом году было больше льда, он образовался тогда-то, по сравнению с прошлым годом так-то. Эта система ускоряет процессы в наблюдательной науки очень сильно. Пока нельзя сказать конкретно, какие задачи будут актуальны для Марса. По аналогии с Землей понятно, что есть атмосферные процессы, что-то происходит на поверхности: например, меняется содержание водяного пара в зависимости от времени года, аэрозолей и дымки, как-то дуют ветры. Но с точки зрения организации работы с данными, совершенно все равно, делать ли инструменты для работы с данными по Земле, или по Марсу, или по Венере. Нас можно сравнить с людьми, которые делают прибор. Перед инженерами не стоит задачи найти воду на Марсе, у них задача сделать откалиброванный прибор, дающий достоверные показания высокой точности, который может зафиксировать определенных частицы. Правда, в том, что касается Земли, наш стандартный путь такой: мы начинаем делать инструмент, а потом уже разбираться в природе вещей. Например, мы с коллегами создали систему мониторинга вулканической активности Камчатки и Курил. Началось с того, что со специалистами из Института вулканологии и сейсмологии и Института морской геологии и геофизики мы создавали инструмент, позволяющий им каждый день получать данные по вулканической активности, такие, чтобы они могли посмотреть и проанализировать пепловые и лавовые выбросы и т. д. Мы делали его вместе с коллегами, занимающимися спутниковым мониторингом, из , из Дальневосточного отделения РАН, притом что никогда не занимались вулканами специально, только на уровне общего понимания. А когда разрабатывали и реализовали не только схему наблюдения и работы со спутниковыми данными, но и, например, систему моделирования распространения пеплового шлейфа, то выяснилось, что вовсе не все параметры вулкана можно измерить. Поэтому сейчас мы занимаемся уже тематической задачей: как при наличии выборочных спутниковых данных и определенной системы моделирования подобрать такие параметры, при которых моделирование будет максимально совпадать с явлением, которое мы наблюдаем. Таким образом, мы решаем задачу восстановления параметров извержений. Наша идея -- сделать все максимально просто и однотипно, чтобы о технических проблемах люди не думали. Ведь данные эти -- и по проектам по Земле, и по дальнему космосу,-- когда проходит какой-то пик активности, остаются лежать мертвым грузом. А если они будут в таком простом и понятном инструментарии, могут возникнуть совершенно новые задачи. На примере данных по Земле хорошо видно, что основная наука делается не на оперативных данных, а на тех, которые уже отлежались. Думаю, с данными по Марсу будет то же.