Среднее время прочтения — 7 мин.

*Дисклеймер: в тексте упоминается компания Meta (Facebook, Instagram и другие продукты), которая признана в России экстремистской организацией. 

Читает Александр Тарасов
Подкаст на YouTube, Apple, Spotify и других сервисах

«‎Давай на примере „‎‎Звездных войн“», — Трейси Джордан просит Фрэнка Росситано  в эпизоде сериала «‎Студия 30», когда он пытается объяснить эффект «‎зловещей долины». Как говорит Фрэнк, людям нравятся пройдохи с доброй душой вроде Хана Соло (реального человека) и роботы вроде C-3PO (немного похожие на человека), но их пугают неестественно выглядящие компьютерные штурмовики (или нарисованный Том Хэнкс в «‎Полярном экспрессе»). Прошло более 10 лет с момента выхода этой сцены, а «‎Звездные войны» всё еще пытаются выбраться из «‎зловещей долины»: так, поклонники очень ждали цифровое камео молодого Люка Скайуокера в сериале «‎Мандалорец», но он, как и воссозданные цифровые копии молодой принцессы Леи и гранд-моффа Таркина из оригинальной трилогии «‎Звездных войн», выглядел пугающе нереалистично. 

Чем опасен дипфейк Люка Скайуокера? 1

Всё это — примеры так называемых дипфейков. Дипфейк — общий термин для искусственно обработанных или созданных изображений, видео или вообще чего угодно. Само название происходит от основы большинства методов создания дипфейков — глубоких нейронных сетей (англ. deep neural networks  —  прим. Newoчём). Глубокие нейронные сети лежат в основе технологий, с которыми мы сталкиваемся ежедневно, например, систем распознавание лиц и голоса. А поскольку технологии развиваются стремительно и постоянно, дипфейки тоже прогрессируют. Дипфейковый Люк недавно снова засветился в сериале «‎Книга Бобы Фетта», спустя почти год после первого появления на экране, и на этот раз он выглядит очень реалистично. 

На данный момент одним из самых продвинутых инструментов создания дипфейков является генеративно-состязательная сеть. По сути, это две отдельные нейронные сети, которые соединены: одна из них генерирует фальшивые лица (генеративная часть), а вторая пытается отличить искусственно созданные первой сетью лица от реально существующих в базе данных. Тренируясь друг с другом, со временем обе сети развиваются в решении поставленной задачи (состязательная часть). Различающая часть со временем лучше отличает поддельные лица от реальных, а генеративная усложняет задачу первой, создавая всё более реалистичные подделки лиц. 

Всё это хорошо для небольшой генеративной сети. Хорошо и для фанатов «‎Звездных войн» и ныне бессмертного Люка Скайуокера. Но, возможно, плохо для нашего общества. 

Создание цифровых копий актеров для сериалов — затея относительно безобидная. Но возможность создавать убедительные дипфейки, например, мировых лидеров, может серьезно дестабилизировать общество. Провокационное и выпущенное в нужный момент дипфейковое видео может повлиять на проведение выборов, спровоцировать беспорядки или обострить отношения между странами.

Степень серьезности этой проблемы зависит от того, насколько развиты современные технологии дипфейков и как хорошо люди умеют отличать их от реальных изображений и видео. Для того чтобы ответить на эти вопросы, ученые провели два исследования, в которых попросили тысячи людей оценить подлинность реальных и поддельных изображений и видео. 

Самое свежее на данный момент исследование по данному вопросу провели психолог Софи Найтингейл из Ланкастерского университета и профессор Калифорнийского университета, специализирующийся на анализе цифровых изображений, Хани Фарид. В онлайн-эксперименте они попросили 315 участников разделить изображения лиц разных гендеров и рас на две категории — на реально существующие и искусственно смоделированные. В среднем общая точность составляла примерно 48%, хотя точность отдельных людей значительно варьировалась от 25% до 80%. 

В последующем эксперименте 219 участников выполняли то же задание, но, в отличие от первых, перед началом эксперимента им предоставили перечень признаков, по которым можно определить дипфейк, например, неподходящие серьги, разные уши или абсурдно тонкие оправы очков. После каждого ответа участники получали корректирующую обратную связь. «Обучение помогло, но не сильно,‎ — отмечает Найтингейл. — ‎Всё равно многие отвечали наугад». Средняя точность выросла лишь до 59%.

А как же те самые признаки дипфейков, которые люди учились различать? По мере того, как технологии развиваются, а дипфейки становятся более безупречными, эти признаки будут встречаться всё реже, считает Найтингейл. И мы вскоре вернемся к первоначальным показателям.

Чем опасен дипфейк Люка Скайуокера? 2
Кто настоящий? Генератор дипфейков так наловчился создавать реалистичные лица, что люди не могут распознать их подлинность. В первом и втором ряду сверху показаны наиболее точно распознаваемые реальные и искусственно смоделированные лица, в двух нижних рядах — наименее точно распознаваемые. Фотоколлаж предоставлен С.Д. Найтингейл и Х. Фаридом. Лица, созданные ИИ, неотличимы от реальных и вызывают большее доверие. Источник: Национальная Академия Наук (2022). 

Но существует разница между изображением и видео. Одна из причин, почему до сих пор так сложно воссоздать правдоподобную цифровую копию Люка, состоит в том, что ей нужно показывать эмоции и говорить. Даже в «‎Книге Бобы Фетта» продюсеры четко понимали границы своих возможностей, часто вырезая из кадра лицо Люка в длинных диалогах. 

Алгоритмы используют в самых разных сферах бизнеса, поэтому дата сайенс становится одной из самых перспективных профессий. В Нетологии верят, что в Data Science может работать каждый. Направлений в этой области много, а значит — много возможностей проявить свои таланты.
Если вам интересно, как передвигаются беспилотники, смартфоны узнают людей, а алгоритмы читают тексты и фильтруют письма в вашей почте — возможно, эта сфера именно для вас. Влюбиться в аналитику и  вдохновиться на освоение новой профессии можно на бесплатном вводном курсе. Определить, с чего начать, и подготовить план действий вы сможете на бесплатном курсе Data Science: будущее для каждого. Вам помогут проанализировать свои способности и понять, как именно вы можете развивать карьеру в Data Science.

А для тех, кто уже знает, какую профессию выбрать и в чем дальше развиваться — Нетология подготовила подарок — промокод NEWOCHEM. Его можно применить при покупке любого курса (кроме направлений Высшее образование и Lifestyle and hobby) и получить 10%-ную скидку. Скидка суммируется с другими акциями и скидками. Промокод действует до конца 2022 года. 

Бесплатный курс «Data Science: будущее для каждого» http://netolo.gy/k7c
Нетология: http://netolo.gy/kxm

В декабре 2021 года команда исследователей Массачусетского технологического института и Университета Джонса Хопкинса во главе с Мэттом Грохом провела похожее исследование на умение людей отличать дипфейки, но предметом изучения стали видео. Они разработали сайт, на котором людям предлагалось оценить аутентичность реальных и дипфейковых видео, рандомно выбранных из архива, который Meta* подготовила для своего челленджа по распознавании дипфейков. Как и в эксперименте с изображениями, участникам предлагалось посмотреть видео и решить, реальное оно или искусственно смоделированное, а затем получить корректирующую обратную связь. Более девяти тысяч человек по всему миру самостоятельно нашли этот сайт и попытались отличить настоящие видео от цифрового фейка 67 тыс раз. Еще 6400 попыток нащелкали 304 участника эксперимента из разных стран, которых позвали исследователи. 

Средняя точность составила 66–72% в зависимости от группы участников — немного выше, чем в исследовании изображений, но стимулы в двух исследованиях во многом различались. Чтобы понять, насколько правдоподобны данные показатели, ученые сравнили результаты людей с результатами программы, разработанной специально для выявления дипфейков. На анализ ей предоставили те же видео, и в результате программа сумела обойти всех людей, достигнув точности в 80%.

Но это всё еще не лучший результат. Как же его получить? Сложить вместе суждения человека и компьютера. Для этого ученые попросили участников эксперимента оценить каждое видео еще раз. После первоначальной оценки участникам показывали вероятность дипфейковости видео, вычисленную компьютером, и спрашивали, не хотят ли они поменять свое мнение. В большинстве случаев мнение менялось. Средняя точность такой оценки оказалась немного выше, чем первоначальные показатели людей и компьютера по отдельности. Результаты этого исследования показали, что вместе человек и компьютер намного сильнее в распознавании дипфейков. 

Исходя из всего вышеизложенного, можно подумать, что человек безнадежно отстает в распознавании дипфейков. Но многие исследователи считают, что мы по природе своей профессиональные распознаватели лиц. Некоторые нейробиологи утверждают, что в нашем мозге есть отдельная область, отвечающая за обработку лиц. Как минимум ясно, что люди распознают лица иным способом, нежели любую другую визуальную информацию. Мы видим их повсюду: горные породы на Марсе напоминают очертания лица, фары и радиаторные решетки машин складываются в человеческие глаза и рот, а некоторые овощи нестандартной формы будто корчат гримасы. 

Именно эти наблюдения, по словам Гроха, стали стимулом их исследования: так как человеческий мозг обрабатывает лица особым образом, его не так просто обмануть дипфейками, в отличие от других видов дезинформации. А что же привносит компьютерная модель? Во-первых, в отличие от нас, ее визуальные системы ничем не ограничены. «‎Обработка слишком темного или размытого видео не представляет особой сложности для компьютера», — объясняет Грох. Это лишь один из примеров принципиальной разницы в восприятии человека и компьютера. Конечно, люди совершают ошибки, которые не совершает компьютер. Но иногда и компьютер ошибается там, где никогда не ошибется человек. Ошибки ИИ — обширная область исследований. Например, некоторые люди работают над так называемыми состязательными изображениями для систем машинного зрения: специальными изображениями, призванными ввести в заблуждение системы распознавания компьютера. Состязательным изображением может быть фото ящерицы, в правдоподобности которого модель распознавания уверена на 99%. Но затем, после замены нескольких тщательно отобранных пикселей, не заметных человеческому глазу, программа становится на 99% уверена в том, что на фотографии изображена улитка. 

Люди также легко подключают фоновые знания и контекст в свои рассуждения — компьютер так не умеет. В то же время, во время исследований этот навык не оценивается. Например, в случае с дипфейковым видео с Владимиром Путиным и Ким Чен Ыном, люди распознавали подделку с куда большим успехом, чем программа, которая была уверена в истинности представленного материала. 

Это яркий пример того, как люди могли принять во внимание такие факторы, как воспоминания о предыдущих высказываниях этих лидеров, звучании их голосов, или вероятность того, что они могут и не могут сказать в видео — все те вещи, которые неизвестны программе. 

Человеческое чувство такого рода контекста объясняет, почему даже самый безупречный дипфейк Люка в грядущем сезоне «‎Мандалорца» никого не обманет: все знают, что Марк Хэмилл уже не выглядит так, как раньше. 

Хотя в распознавании лиц люди довольно сильны, у нас есть и слабости в этой области. Найтингейл и Фарид провели еще один эксперимент, чтобы выявить, смогут ли участники интуитивно отличить дипфейки от лиц реальных людей. Они попросили 223 участников оценить по семибалльной шкале, насколько 128 лиц из предыдущей подборки заслуживают доверия. Дипфейковые лица набрали на полбалла больше, чем лица реальных людей. 

Найтингейл предположила, что причина такой разницы в уже хорошо известной науке склонности доверять более привычным и симметричным лицам: «‎Лица искусственно моделируются путем усреднения, — объясняет ученый. — Генеративно-состязательную сеть тренируют‎ с помощью большого количества изображений, реальных изображений и затем используют для искусственного моделирования лиц». Поэтому полученные лица выглядят обычными и симметричными — именно такими, каким мы склонны доверять. 

Возможно, оба исследования либо преуменьшают, либо преувеличивают серьезность проблемы. С одной стороны, в отличие от исследований, в нашей онлайн-реальности дипфейков гораздо меньше, чем реальных лиц, поэтому точность нашего восприятия гораздо выше, даже если мы будем считать реальным вообще все. Но, в отличие от исследований, в обычных условиях мы не так озабочены оценкой достоверности потребляемой информации. Это объясняет, почему многие люди теряют деньги из-за мошенников, использующих дипфейки.

Хуже того, наша способность отличать настоящее от фейка может вообще ничего не значить. Например, люди вполне в состоянии распознать фейк ньюс, но в социальных сетях они чаще всего делятся тем, что совпадает с их внутренними убеждениями, вне зависимости от того, правда это или фейк. Говоря о дипфейках, Грох заметил: «‎Если у человека при взгляде на дипфейк возникает эмоциональная реакция,  велика вероятность того, что он им поделится, а верит он в его правдоподобность или нет, уже неважно».

Могут ли разработчики и политики сделать что-нибудь, чтобы снизить риски от применения дипфейков? Найтингейл предложила разработать этические нормы для использования мощных технологий ИИ или создать специальные водяные знаки или встроенные идентификационные метки для алгоритмов дипфейков, чтобы их было проще распознать. Однако она считает, что есть и другие решения проблемы. «Вот почему я хочу донести идею о том, что в этом деле важно сотрудничество. Потому что я хочу, чтобы люди знали об этой проблеме», — заявляет ученая. 

«‎Выбрались ли мы из “зловещей долины”? — задает мне риторический вопрос Найтингейл. — ‎Кажется, мы просто оказались на другой ее стороне».

По материалам Nautilus 
Автор: Алан Джерн — когнитивный психолог и доцент психологии в технологическом институте Роуз-Халман, где он преподает социальное познание. 

Переводила: Аполлинария Белкина
Редактировала: Екатерина Кузнецова