Lie to me. В МГУ создали программу, которая лучше специалистов считывает микродвижения лица
Почему ученые передовых стран решили отказаться от анализа эмоций и использования нейросетей для анализа поведения людей? В чем нейросети ошибаются, когда пытаются «прочесть» выражение лица человека и предположить, о чем он думает? Как работает созданная психологами МГУ им. Ломоносова программа-профайлер, которая ловит микродвижения лица лучше, чем специалисты-профайлеры? Об этом – в материале «Газеты.Ru».
Революция в мире профайлинга
Психологи МГУ им. Ломоносова создали компьютерную программу, которая лучше специалистов-профайлеров считывает микродвижения на лице человека, не задействуя при анализе эмоции. Цель «цифрового профайлера» – заметить все (в том числе и совсем короткие по времени) изменения лица, которые связаны с разными эмоциями человека: тревогой, страхом, презрением, удивлением и так далее. Именно такой подход, а не определение эмоций по субъективному впечатлению, позволяет догадаться об истинных мыслях человека, считают ученые. Эта программа может использоваться вместе с полиграфом – прибором, который применяется для определения лжи.
«Наша программа анализирует поверхность лица, — рассказал «Газете.Ru» профессор кафедры психологии личности факультета психологии МГУ имени М.В. Ломоносова, доктор психологических наук Алексей Гусев. – Так как для точного анализа лица подходящих алгоритмов в мире пока не создано, мы были вынуждены были разработать свои, оригинальные алгоритмы компьютерного зрения. Они анализируют изменение падающего света на поверхности лица. А дальше эти изменения можно превратить в значимую информацию. И делается это с помощью созданных нашей научной группой многослойных логических правил. У нас шесть уровней таких правил».
Сотрудник кафедры общей психологии психфака МГУ Александр Кремлев, входящий в научную группу из трех человек, придумал новый алгоритм, который анализирует распределение света на поверхности лица.
Для анализа оно поделено на 14 зон на правой и левой половинах лица, которые в свою очередь делятся на микрозоны – их более 300.
В каждой зоне алгоритм ищет информацию о перемещении кожи лица в соответствии с международным стандартом — системой кодирования лицевых движений (Facial Action Coding System—FACS), созданной Полом Экманом — известнейшим психологом, консультантом популярного телесериала «Обмани меня» (Lie to me). Он же является прототипом его главного героя, доктора Лайтмана.
Это единственная признанная в мире на данный момент система описания движений лица.
Без эмоций
Важным моментом в работе «цифрового профайлера» от МГУ является то, что понятие эмоции как таковой при анализе лица не используется.
«Мы не ищем эмоции. Мы ищем сдвиг бровей, сморщивание носа, растяжение рта по вертикали, горизонтали. Мы научились измерять 22 базовых двигательных единицы, из которых можно составить любое выражение лица, в том числе и выражения эмоций», — объясняет один из разработчиков «цифрового профайлера» Михаил Баев, психотерапевт, специалист по анализу выражения лица.
Двигательные единицы FACS — это минимальные движения лица, которые можно описать отдельно. Например: поднятие внутренней части бровей, поднятие внешней части бровей, появление носогубной складки, напряжение нижнего века, растяжение рта и так далее.
На основе выделения таких мимических движений компьютерная программа «собирает» выражения различных эмоций.
«Важно еще и то, что движения лица могут быть очень быстрыми – от 200 до 500 миллисекунд. Не каждый человек это может заметить. А нейросети, от использования которых мы отказались, тоже заметить это не могут, потому что их обучают на выборках, которые разметили эксперты. А эксперты, в свою очередь, работают только по фотографиям, на которых вообще нет микродвижений», — подчеркнул профессор Гусев.
Смешанные чувства
Почему же не обучить нейросети по новому датасету, который будет состоять из видео, а не из фотографий?
Оказывается, только для того, чтобы определить одну эмоцию злости, нужно примерно 500 тысяч размеченных сэмплов видео. Кроме этого, — в мире не так много экспертов, которые разбираются в мимике, а скорость их работы довольно низка. Самый лучший эксперт оценивает запись одной минуты видео за десять минут работы. Получается, собрать такой датасет будет очень затратным, как по деньгам, так и по времени.
Кроме того, по словам ученых, нейросетевой подход уже продемонстрировал низкую эффективность в плане работы по замене специалистов-фейскодеров.
«Появление выражений истинных эмоций на лице человека – редкое событие, не более 1-2 раза в час. Все остальное время мы видим фрагментарное выражение лица, — поясняет Баев. – Мимика гораздо сложней, и она не состоит только из одних эмоций. Нейросети же после анализа выдают результат в процентах, например: 10% злости, 20% презрения и 5% радости. Но какой вывод можно сделать из такого анализа? Он противоречит самой любой концепции выражения эмоций».
Кроме того, анализировать приходится чаще всего видео, которые в принципе не содержат особенных эмоций: это собеседования перед принятием на работу, допрос у следователя и так далее.
В этом случае единственный возможный путь – это анализ всего спектра движений лица, в том числе и микровыражений.
После применения «цифрового профайлера» из МГУ, выводы получаются похожими на результаты применения полиграфа. То есть в ответе на определенный вопрос алгоритмы замечают волнение, стресс, напряжение. Но результат можно трактовать как более точный просто потому, что к человеку не присоединены провода полиграфа. Он находится в спокойной обстановке, не подозревая, что параллельно идет анализ микродвижений его лица.
Будущее цифрового профайлера
На выходе специалисты получают очень много данных, ведь каждый респондент оценивается по сотням параметров. Для их обработки также используется компьютер, так как вручную систематизировать такое количество данных просто невозможно.
Информацию о скрытых эмоциях специалисты пытаются извлечь и из звуковой дорожки. Анализ голоса осуществляется по изменению более чем 80-ти физических параметров. Применяется многоуровневый анализ голоса Layered Voice Analysis — технологии, разработанной израильской компанией Nemesysco. Эту технологию называют голосовым детектором лжи.
«Цифровой профайлер» уже сейчас задействован в нескольких проектах частных компаний. А будущее его применение представляется довольно разнообразным.
Программу можно использовать в медицине: для диагностики психических заболеваний, оценки кардиологических больных, для расчета наиболее удачных вариантов коррекции лица в эстетической медицине.
Несомненно, «цифровой профайлер» незаменим в работе следователей и специалистов HR. Поэтому на базе этой системы ученые планируют создать несколько работающих методик в области отбора персонала и судебно-психологической экспертизы.
Кроме этого «цифровой профайлер» может эффективно ловить дипфейки в видео, причем даже те, которые вообще невозможно найти глазами.
Программа будет это делать с помощью анализа индивидуального мимического двигательного профиля человека. Этот профиль индивидуален для каждого и его крайне сложно или вообще невозможно подделать.
Также система применима в области мультипликации и создания роботов. Она поможет создать абсолютно естественную мимику у персонажа без задействования актерской игры и технологии «захвата движения» (Motion Capture).
«Интересно, что при всем развитии технологий, проблема анализа лица до сих пор не решена», — говорит Баев. – «Мимика человека остается сложной для понимания, как для машин, так и для самих людей. Но тренд на отказ от нейросетей в анализе эмоций очевиден в тех странах, которые занимаются развитием профайлинга».
Параллельно в этом же направлении работают ученые Японии и Великобритании.