От цифры к смыслу

14 августа 2017, 20:27

К 1960-м годам историки поняли, что информацию можно извлекать не только из традиционных источников — грамот, указов и дневников, но и из налоговых отчетов, записей в податных книгах и медицинской статистики. Отдельные записи в них не представляют ценности для исследователя, но, взятые в большом количестве, они дают прекрасный материал для статистического анализа. В 1964 и 1974 годах экономист Роберт Фогель выпустил две сенсационных научных работы: «Железные дороги и рост американской экономики: эссе по эконометрической истории» (Railroads and American Economic Growth: Essays in Econometric History) и «Срок на кресте: экономика рабства американских негров» (Time on the Cross: The Economics of American Negro Slavery), которые перевернули два традиционных представления: об исключительной необходимости железных дорог для роста американской экономики во второй половине XIX века и о полной неэффективности рабского труда на юге США. Исследования Фогеля показали, что дороги особой роли не сыграли и их легко можно было заменить водными путями, а рабство оказалось весьма эффективным и поддерживало доходы населения южных штатов на уровне развитых стран того времени. Рабство, таким образом, пало исключительно по социальным и политическим причинам. К выводам обоих исследований ученый пришел, построив математическую модель на основе исторической статистики. В 1993 году он, совместно с Дугласом Нортом, получил за .это Нобелевскую премию. Фогель и Норт стали одними из основоположников клиометрики — применения методов математики и статистики в исторических исследованиях. Позже в СССР, например, сложилась целая школа количественных методов, основанная Иваном Ковальченко. Клиометрические модели сделали возможным сослагательное наклонение в истории. «С именем Фогеля связано контрфактическое моделирование: добавляем в математическую модель фактор, которого не было, или убираем фактор, который точно имел место, и смотрим, что будет. Это позволяет понять действительную значимость или незначимость этого фактора», — говорит доцент Пермского государственного университета, сотрудник центра цифровой гуманитаристики и лаборатории исторической и политической информатики Динара Гагарина. С 1950-х годов статистические методы начали применять в языкознании, а в 1960-е годы, задолго до эпохи массовой компьютеризации и поисковых систем, для этой области знания появился специальный термин: корпусная лингвистика. Социология, которую традиционно относят к общественным наукам, была задумана Огюстом Контом как точная («социальная физика»). Максимальной точности социологи пытались достичь, применяя статистику. Правда, быстро стало понятно, что сама по себе статистика мало что дает без понимания смысла, причин и следствий исследуемых процессов. «По мере развития истории и философии науки, те, кто ими занимается, стали задаваться вопросом — а есть ли вообще разделение общественных и необщественных, естественных и „неестественных“ наук? Это лишь две категории или целый спектр? Исследования науки показали, что некоторые области, традиционно считающиеся естественнонаучным (например, медицина), по тому, как в них устроено взаимодействие ученых, гораздо больше похожи на социологию, чем на физику», — говорит кандидат социологических наук, профессор факультета политических наук и социологии Европейского университета в Санкт-Петербурге Михаил Соколов. Похоже, математические методы были актуальными для некоторых гуманитарных дисциплин «до того, как это стало мейнстримом». Появление интернета, компьютеров, гаджетов, поисковых систем и социальных сетей не совершило переворот в этих науках, но дало ученым новые инструменты: науку о данных (data science), интеллектуальный анализ текста (text mining), геоинформатику. Так появились «цифровые гуманитарии». Термин digital humanities возник в начале 2000-х. Он оказался удачным: соответствовал «цифровому повороту» в обществе и был достаточно понятен для фондов и госструктур, чтобы просить у них деньги на проекты в этой области, — считает Динара Гагарина. На русский digital humanities обычно переводят как «цифровые гуманитарные науки» или «цифровая гуманитаристика». Определений у этого термина не один десяток, обобщая их, можно сказать, что DH — это все виды применения информационных технологий и математических методов к решению задач в гуманитарных дисциплинах. Сюда же относят популяризацию гуманитарного знания с помощью digital-инструментов (яркий пример — проект «1917. Свободная история»). «В некотором смысле digital humanities — это „зонтичный бренд“, объединяющий компьютерную лингвистику, историческую информатику и другие отраслевые информатики», — считает Гагарина. По словам Динары Гагариной, цифровые гуманитарные науки решают два типа задач. Первый — сохранение и расширение доступа к историко-культурному наследию, второй — разработка средств анализа данных и сам анализ. Впрочем, некоторые эксперты относятся к «цифровой гуманитаристике» скептически. «Digital humanities — просто модный термин, описывающий любую работу гуманитария, в которой участвует компьютер. Но какая работа сегодня делается без него? В итоге термин описывает и совершенно новые направления и традиционные. Например, работы по оцифровке архивов, безусловно, полезны. Но называть это новым направлением, которое перевернет все, довольно сомнительно. Источники публикуются уже века два, а теперь мы просто стали вывешивать их в интернете. Но зато digital humanities вызывают позитивные ассоциации у спонсоров и позволяют просить деньги на проекты», — считает Соколов. Цифровой инструментарий, появившийся в распоряжении гуманитариев, довольно обширен. Когда вы видите новость из серии «Ученый подсчитал вероятность смерти персонажей в «Игре престолов», будьте уверены, что к тексту книги или сценарию сериала применили теорию графов. На ней базируется одна из ключевых техник современной социологии — анализ социальных сетей, который изучает связи между объектами социальной реальности: пользователями, группами, институтами. Если же вам попадается интерактивная карта письменностей, культур или исторических событий, значит специалисты соединили данные гуманитарных наук с геоинформационной системой. Но, пожалуй, самая сложная и быстро развивающаяся область компьютерных наук, проникшая в гуманитарные науки — технологии big data — больших, непрерывно генерируемых объемов данных разной степени структурированности. «Большие данные появляются без запроса со стороны исследователя, просто потому что бизнес и государственные ведомства организуют рабочие процессы через информационные системы, которые автоматически накапливают информацию. Люди пользуются социальными сетями, мобильными телефонами, совершают покупки и расплачиваются банковскими картами. Все это оставляет следы, к некоторым из них ученые получают доступ, что и позволяет проводить научные исследования», — говорит младший научный сотрудник Института проблем правоприменения Европейского университета в Санкт-Петербурге Катерина Губа. На больших данных построено машинное обучение: с их помощью нейросети учатся распознавать изображения и писать стихи, а алгоритмы поисковых систем — выдавать релевантные результаты. «Такому поисковику как Яндекс требуются миллионы событий, производимых миллионами людей, чтобы он выдавал нужный результат. Каждое из этих событий совершенно неинтересно. По правилам статистики они обретают смысл, только когда их много. Система учитывает десятки тысяч параметров, и формулы, которые это высчитывают, невероятно сложные», — говорит менеджер проектов Яндекса, специалист по компьютерному зрению и обработке медиаданных Александр Крайнов. По его словам, чтобы обучить нейросеть, необходимы фундаментальные математические знания, сильные аналитические способности, понимание теории алгоритмов и умение программировать. Поэтому классическим анализом данных применительно к ИИ пока занимаются в основном специалисты- «технари». Но к данным можно подступиться и с другой стороны, и тогда мы говорим о data mining — извлечении полезной информации из «тысяч тонн информационной руды». Для этой задачи достаточно понимать теорию вероятностей и математическую статистику. К тому же, для «добычи данных» появляется все больше удобных инструментов, что делает их привлекательными для гуманитарных исследований. Анализ данных больше в чести у лингвистов, социологов и экономистов. В качестве их источника обычно выступают всевозможные электронные базы данных. Например, исследование Михаила Соколова о городских практиках культурного потребления основано на анализе системы городских библиотек ИРБИС, а Катерина Губа, изучающая, какие ученые и как ссылаются друг на друга, работает с базами научных статей Web of Science и Scopus. Иногда в руки исследователей попадают нетипичные источники, такие как личная переписка сотрудников компании Enron, в которой содержится 600 тысяч (по другим данным — 1,6 миллионов) сообщений 158 работников высшего звена. Она представляет интерес не только для специалистов в машинном обучении, но и для лингвистов. Большие данные помогают исследователям, когда их можно формализовать, а также найти критерий для поиска закономерностей. Одно из известных исследований на эту тему — о влиянии поведения пользователей в Facebook на политический процесс, проведенное на 60 миллионах американцев. Специалисты искали ответ на вопрос, как одни люди влияют на решения других людей, в частности, сходить на выборы в конгрессменов. 60 миллионам человек в новостной ленте показали баннер о выборах с кнопкой «I voted» (англ. я проголосовал). В этом сообщении не только была информация, где проходят выборы, но и показывались профили людей из числа друзей пользователя, которые уже проголосовали. Увидев сообщение, люди могли сами нажать на кнопку и тем самым рассказать другим о том, что они проголосовали. Оказалось, что люди, которые видели это сообщение у себя в ленте, действительно делали это чаще, чем те, кому не сообщали, что их друзья нажали «I voted». При этом изменение в поведении наблюдалось у тех, кто видел среди проголосовавших своих самых близких друзей, а вот посторонние люди на поведение пользователей никак не повлияли. Так большие данные показали, что мнение близких нам людей способно влиять на наше политическое поведение. Анализ больших данных проникает и в юриспруденцию. Судебная статистика обширна, а канцелярский язык максимально формализован, что позволяет ученым применять к ним машинное обучение. Так, команда аналитиков научила искусственный интеллект предсказывать решения Европейского суда по правам человека на основе анализа его предыдущих решений. Наконец, благодаря большим данным в лингвистике стало возможным появление новых изданий Шекспира: с помощью машинного обучения на корпусе текстов британского драматурга отделили фрагменты текста, написанные им самим, от тех, что созданы соавторами. Как и любой инструмент, большие данные не делают науку лучше сами по себе. Их ценность зависит от исследователя, который решает, как эти данные структурировать и по каким признакам отбирать. «Но предположим, показатель для изучения выбран. Как его измерить? Хорошо физикам, у них есть килограммы и метры в секунду, а вот у историков и философов они есть не всегда. Да, некоторым областям истории повезло чуть больше — относительно легко, если есть данные источников, измерить смертность и ВВП, поэтому именно историческая демография и экономическая история претерпели наибольшую по сравнению с остальными областями истории трансформацию в связи с внедрением математики. Но как измерить уровень политической культуры или культуры в стране вообще, геополитический статус, стилистическую близость произведений искусства или текстов? Ответы на эти вопросы не всегда очевидны и общеприняты», — говорит Динара Гагарина. Бывает, что большой объем данных не так уж и нужен для получения хорошего результата. «У больших данных перед традиционной статистикой — опросами — только два преимущества. Во-первых, они позволяют оценить значимость слабых эффектов, — объясняет Михаил Соколов, — а если эффект сильный, его видно и на небольшой выборке. Можно получить информацию о связи роста, пола и массы тела и выяснить, что мужчины тяжелее и выше женщин. Мы можем установить эту закономерность, обмерив 1000 человек, а можем получить доступ к файлам ВОЗ, если им придет в голову обмерить 7 миллиардов. Но если закономерность есть, она будет видна и на тысяче человек». «Если же связь слабая, возникает проблема с объяснением результатов. Допустим, мы обсчитали всю криминальную статистику и достоверно установили, что для людей, рожденных в мае, вероятность быть замешанными в преступлении с применением сексуального насилия на 0,001% выше, чем для тех, кто родился в ноябре. Возможно, эта информация имеет какую-то ценность для страховых агентств. Но для социальных наук она сама по себе бесполезна, поскольку социальные науки стараются найти объяснения — а тут объяснений бесконечно много. Может, дело в том, что годовые циклы сексуального поведения у разных социальных и этнических групп отличаются. А может, освещение в первые годы жизни влияет на темперамент. Это в лучшем случае отправная точка, но у социологов уже сколько угодно таких отправных точек в виде куда более сильных необъясненных корреляций», — продолжает Соколов. Поэтому big data не дает специалистам ничего принципиально нового. Ведь, в отличие, например, от древней истории, проблемы социологии никогда не были связаны с недостатком данных. «Если историки найдут в Помпеях манускрипт, сравнимый с „Историей“ Тацита, наше представление об истории Рима, вероятно, перевернется. Но в случае с социологией, экономикой или психологией наша проблема не в том, что данных нет — их было слишком много уже в XIX веке. Проблема в воображении исследователя — в том, насколько грамотно он сможет вычленить полезные паттерны, основываясь на опыте и знании теории, а большие данные сами по себе в этом совершенно не помогают», — поясняет социолог. Второе же преимущество больших данных в том, что они дешевле и доступнее для изучения. Произвести обычный репрезентативный опрос для всей страны один аспирант не может, а качать поля «интересы, любимая музыка/фильмы/книги» из соцсети «ВКонтакте» — запросто. «Мы можем скачать миллион профилей «ВКонтакте, но лучше ли этот массив, чем традиционно собираемые опросы? Нет. Главная проблема больших данных — мы толком не знаем, характеристики какой группы они отражают. Чем отличаются те, кто завел аккаунт от тех, у кого его нет, какую часть населения они представляют и тому подобное». Специализированные курсы и программы по анализу данных для гуманитариев в России только начинают появляться. Программа, где вам предстоит изучать историю и антропологию наравне с программированием и дискретной математикой есть в Сибирском федеральном университете, цифровыми технологиями в гуманитарных исследованиях можно заняться в созданном на базе ТГУ несколько лет назад Центре социально-политических исследований технологий. Факультеты и программы подготовки по корпусной лингвистике есть в НИУ ВШЭ, СПбГУ и НГУ. Активно применяют анализ данных исследователи Европейского университета в Санкт-Петербурге, специалистов по «Интеллектуальным системам в гуманитарной сфере» учат в РГГУ. В Пермском госуниверситете есть Центр цифровой гуманитаристики. В Высшей школе экономики в 2016 году появился Центр цифровых гуманитарных исследований, объединивший специалистов в области digital humanities, а с 2017 учебного года курс «Цифровая грамотность» станет обязательных для всех специальностей факультета гуманитарных наук. Он состоит из лекций и семинаров, на котором студенты будут учиться прикладным навыкам, например, как программировать на Python. «Сейчас инструменты машинного обучения и анализа данных стали настолько доступными, что не нужно быть семи пядей во лбу, чтобы выучить язык программирования. Иногда и он не нужен, так как есть визуальные инструменты. Задачи, с которыми к нам приходят гуманитарии, обычно не такие сложные, как обучение нейросети, машинный перевод или компьютерное зрение, — говорит соруководитель специализации «Машинное обучение и приложения» на факультете компьютерных наук ВШЭ и сотрудник Яндекса Евгений Соколов. По его словам, понять математический фундамент анализа данных в рамках такого курса скорее всего не получится, но вполне можно научиться работать с инструментами как пользователь. Справедливости ради, цифровые инструменты все же видоизменяют гуманитарные науки. Главным образом — ускоряют поиск информации и ее обработку. А также позволяют в некоторых случаях перейти от описания к измерению. «Студенты-историки на моих парах постоянно говорят: „История, люди, общество слишком сложны, чтобы их измерять“. К сожалению или счастью, это не так. С большой долей уверенности можно сказать, сколько людей родится, умрет, женится или поступит в университет в следующем году. Жизнь общества и поведение людей измеримы и моделируемы, иначе не работали бы политические и рекламные технологии», — говорит Динара Гагарина. «Нужно ли гуманитариям осваивать математику и computer science? Это будет сильно зависеть от конкретной области, — рассуждает Михаил Соколов, — в литературоведении, философии и значительной части истории ни больше денные, ни статистика, ни программирование не являются необходимыми навыками. Но в социологии требования к знанию статистики, конечно, стали гораздо выше, а статистика — более продвинутой, чем 20 лет назад». «Я не считаю, что каждый должен уметь программировать или владеть матметодами, — считает Гагарина, — Достаточно хорошо владеть одной технологией — той, которую вы будете использовать. Но важно понимать спектр современных возможностей для вашей науки, чтобы правильно поставить задачу и решать ее совместно с программистом или математиком». Ученые согласны, что для действительно сложных проектов, связанных, с нейросетями и машинным обучением, удобнее всего обратиться к профильному специалисту. Цифровые гуманитарные науки ориентированы на сотрудничество ученых из разных областей, это проектно-ориентированная область, где большая часть работы должна производиться в коллаборациях. Вне всякого сомнения, важность знания, полученного такими методами, будет повышаться, но ценность гуманитарной экспертизы — понимания смысла событий и причин явлений — не ослабеет, и даже, вероятнее, повысится, так как данных уже сейчас невероятно много, но сделать из них корректные выводы без понимания широкого социокультурного контекста невозможно. «В ситуации с большими данными обычно нет никаких проблем, чтобы привести примеры их пользы для внешнего мира, — говорит Катерина Губа, — О научных достижениях пока говорить сложнее. За последние пять лет появилось множество статей о больших данных, но в них пока больше можно встретить разговоры о прекрасном (или ужасном) новом будущем. Настоящие прорывы все еще впереди».

Роберт Фогель

Александр Крайнов

Михаил Соколов

Дуглас Норт