Войти в почту

Разбираемся с «тёмными данными»: версия дата-журналиста

Чтобы разобраться с тем, что такое «тёмные данные» и как их использовать, мы обратились к специалистам, которые работают с данными каждый день, и задали им несколько вопросов. Лауреат конкурса Data Journalism Awards в номинации «Лучший молодой дата-журналист года» Дада Линделл рассказала о работе дата-журналистов, о пропусках в больших данных, которые можно игнорировать, и тех, которые нельзя игнорировать ни в коем случае.Подробнее о книгеДэвид ХэндТемные данные«Практическое руководство по принятию правильных решений в мире недостающих данных»Человечество научилось собирать, обрабатывать и использовать в науке, бизнесе и повседневной жизни огромные массивы данных. Но что делать с данными, которых у нас нет? Допустимо ли игнорировать то, чего мы не замечаем?Британский статистик Дэвид Хэнд считает, что это по меньшей мере недальновидно, а порой крайне опасно. Хэнд также рассказывает о том, какие меры могут сгладить эффект темных данных и как их можно обратить себе на пользу.Читайте также: Разбираемся с «тёмными данными»: версия исследователя данныхДэвид Хэнд в книге «Тёмные данные» говорит о том, что на нашу жизнь большое влияние оказывают данные, которых у нас нет. Мы опираемся только на известную информацию и не подозреваем, что не знаем чего-то. Это приводит к ошибочным выводам. Можете объяснить, почему возникают «тёмные данные»? Само по себе возникновение того, что профессор Хэнд в своей классификации называет «темными данными», — это нормально; известно, что никакого новаторства тут нет. Однако ценность книги как раз в том, что с её помощью можно в качестве введения ознакомиться с широким спектром возможных ошибок в статистических измерениях и выводах в сжатом виде. Вообще описанные классы «тёмных данных» называются иначе, missing data (неполные данные), к которым профессор Хэнд присовокупляет погрешности измерений. Или это можно назвать также пропусками в данных (missingness).«Тёмные данные», как правило, возникают в случае непродуманной методологии. В другом возможном варианте их появление вследствие принятой методологии было продумано, и тогда исследователь пытается устранить возможную ошибку статистическими методами. В медицинских исследованиях — да и в любых других, просто все это началось с медицины — есть понятия non-ignorable missingness, те пропуски, которые нельзя игнорировать. Именно с утрированного примера такого пропуска и начинается книга; в противовес есть ignorable missingness — такие пропуски, которые можно игнорировать. Существование и работа с такими пропусками должны быть прописаны в методологии, в этом и состоит работа исследователя.Читайте также:Много цифр«Анализ больших данных при помощи Excel»Джон Форман книги доказывает, что анализ данных можно организовать в простом, понятном, очень эффективном и знакомом многим Excel. Причем не важно, сколь велик ваш массив данных. Техники, предложенные в этой книге, будут полезны и владельцу небольшого интернет-магазина, и аналитику крупной торговой компании. Книга будет интересна маркетологам, бизнес-аналитикам и руководителям разных уровней, которым важно владеть статистикой для прогнозирования и планирования будущей деятельности компаний. Читать дальше → Как дата-сайентисты и дата-журналисты работают с этими отсутствующими данными? Учитывают ли они их, и если да, то как? Как журналист, я ставлю перед собой задачу делать выводы на основе собранных самостоятельно данных, и минимизация возможных ошибок из-за «тёмных данных» тогда находится на моей стороне: приходится тщательно продумывать методологию, учитывать возможность влияния на выводы разных факторов. Нередко мы с редакторами отказывались от историй, в которых могли возникнуть ошибки из-за «тёмных данных». А вот работая с государственной статистикой или с предоставленными кем-то уже обработанными данными, самое главное — понять, как и кем они собирались. Я всегда советую читать формы статистических наблюдений, регламенты или опросники. Кажется, например, что исследование Росстата по зарплатному неравенству охватывает всю Россию, однако это не так, ведь в нем берется информация о зарплатах только на средних и крупных предприятиях, а малый бизнес в исследовании не участвует. К тому же не учитывается теневая экономика. Такие исследования, если их правильно не интерпретировать и не донести эту информацию до читателя, могут привести к неправильным выводам.Читайте также:Как лгать при помощи статистикиВ этой всемирно известной работе Дарелл Хафф рассказывает о различных способах злоупотребления статистикой в целях обмана аудитории и манипулирования ее мнением. Каждый день на вас пытаются повлиять, чтобы сподвигнуть на покупку какого-то «нужного» продукта или на выбор «правильного» кандидата: Как понять, насколько достоверны те или иные данные? Каким образом происходят подсчеты? Что учитывается, а что остается за кадром? Ответы на эти и многие другие вопросы вы найдете в этой книге. Читать дальше → Можете привести пример из практики или истории, когда ошибка в анализе больших данных привела к масштабным последствиям и повлияла на многих людей?Такой пример приводит в книге сам профессор Хэнд, это катастрофа шаттла Challenger. В советской истории был еще более ужасающий пример ситуации, произошедшей по схожей причине: взрыв на Чернобыльской АЭС. Одна из наиболее вероятных причин этой трагедии — незнание конструкторами определённого эффекта, возникающего в топливных элементах при их резком извлечении из реактора при его низкой мощности. Яркое описание того, что происходит в топливных элементах в этой ситуации, приведено в сериале «Чернобыль» (HBO, 2019). По этой версии выходит, что, если бы конструкторы топливных элементов в полной мере осознавали этот процесс, они, наверное, могли бы его учесть. Но, возможно, у них не было доступа к таким данным, и учесть их никто не мог, чтобы внести правки в эксплуатационные инструкции.Читайте также:Чернобыль«История катастрофы»«Чернобыль: История катастрофы» — неизгладимая картина одного из величайших несчастий ХХ века и одновременно документ человеческой стойкости и изобретательности, свидетельство тяжелых уроков, усвоенных человечеством, пытающимся подчинить природу своей воле, — уроков, которые перед лицом наступающих изменений климата и других угроз современности выглядят не просто важными, а жизненно необходимыми. Читать дальше → Читайте также:Разбираемся с «тёмными данными»: версия исследователя данныхВсё переплетено: 7 правил системного мышленияМаркетплейс осудит: о чёрных и белых методах сбора отзывов

Альпина Паблишер: главные новости