Среднее время прочтения — 8 мин.

Роботы все больше и больше совершенствуются. Однако до освоения всех тонкостей человеческого взаимодействия им по-прежнему далеко. Робототехники из научно-исследовательской лаборатории Gipsa-lab (Гренобль) учат роботов показывать свои намерения: подстраивать жесты, речь и взгляд под собеседника и предмет обсуждения.

Читает Тарасов Валентин
Podster, iTunes, YouTube, Скачать, Telegram, VK, Spotify

В книге Mind Reading (2004) британский психолог Саймон Барон-Коэн выделяет более 400 видов эмоций, которые можно передать с помощью голоса и мимики, среди них: раздражение, разочарование, возмущение, облегчение, радость и другие. Выражать свое психическое состояние с помощью поз или жестов нам помогает все тело, но больше всего информации сообщает лицо. Наши собеседники в первую очередь следят за глазами и ртом.

Исследования показывают, что даже современное строение человеческого глаза закрепилось эволюционно именно потому, что позволяло другим людям точнее следить за направлением взгляда. Это свойство, в свою очередь, облегчает развитие способности к построению модели чужого сознания, которую мы, как существа социальные, приобрели в ходе эволюции.

В психологии под моделью чужого сознания понимают нашу способность представлять себе психическое состояние других людей по выражению лица и другим невербальным сигналам. Как только социальные роботы освоят передачу этих сигналов, мы сможем взаимодействовать с ними более естественно. Результаты исследования, о котором пойдёт речь, планируется применять в области медицины и коллаборативной робототехники.

Неуютное чувство

А что насчет машин? У большинства человекоподобных роботов нет явных черт лица (Асимо, Джибо). У некоторых есть, но они неподвижны (НауПеппер) или изображены на дисплее (Бакстер). Зато другие, например, гиноид София, которую разработали в Hanson Robotics, или геминоиды японского робототехника Хироси Исигуро, внешне очень похожи на человека. Их лица сделаны из синтетической кожи, а глаза оснащены линзами, имитирующими хрусталик человеческого глаза.

Как это ни парадоксально, но сходство может стать для собеседника источником разочарования: чем реалистичнее выглядит робот, тем более естественного общения от него ждешь. Однако воссоздать на лице робота 38 мышц и все их сложные взаимодействия технически трудно. В результате, когда подкожный скелет андроида не имеет достаточно степеней свободы, особенно на лице, у нас появляется ощущение неестественности.

Эффект «зловещей долины» — это научная гипотеза, выдвинутая в 1970 году японским робототехником Масахиро Мори, согласно которой чем больше андроид похож на человека, тем больше его отличия кажутся нам отталкивающими. Только начиная с определенной степени реалистичности человекоподобные роботы начинают производить более приятное впечатление. Эта теория отсылает нас к термину unheimlich (нем. ‘жуткое’), которым Фрейд обозначал событие, происходящее в знакомой ситуации, но вызывающее чувство тревоги или даже ужас.

Совсем недавно исследователи из Осакского университета (Япония) предложили более сложную закономерность, учитывающую и наши ожидания при вида робота, и впечатление, которое он производит в движении. По словам авторов, существует оптимальная точка, в которой внешний вид робота и его манера поведения соответствуют друг другу, а собеседник не чувствует себя неуютно.

У других человекоподобных роботов, чьи черты менее реалистичные, отсутствует то самое свойство глаза, которое позволяет считывать намерение: их камеры обычно неподвижны и встроены в середину лба или туловище. Впрочем, разработчики оснащают их датчиками: обычными и трехмерными камерами, дальномерами, радарами, микрофонами, — которые измеряют и анализируют малейшее наше движение. Правда, очень часто разработчики забывают, что должны в ответ показывать намерения своих творений.

В этом-то вся проблема. Стоит ли сохранять различие между людьми и роботами, ограничивая или не принимая в расчет способность последних выражать свои мысли? Мнения разделились: с одной стороны, приверженцы идеи о том, что высший социальный интеллект присущ только людям, с другой — сторонники трансгуманизма, дорогу которому открывают достижения искусственного интеллекта в области двигательных (перемещение в пространстве, захват предметов в полете) и когнитивных (расчеты, память) навыков.

У нас более гибкая позиция: нужно наделить робота способностью выполнять функции, идентичные человеческим, не копируя их полностью. Сюда входят и перемещение в пространстве и операции с предметами, а в нашем случае, вербальная коммуникация и социальное взаимодействие. В Gipsa-lab убеждены: если роботы все лучше воспринимают и понимают окружающую среду, необходимо дать им возможность сообщать свой опыт нам, не изобретая при этом новых способов коммуникации.

Исследования в этой области все еще находятся на начальной стадии. Даже если какие-то роботы и воздействуют на свое окружение, в немногих исследованиях основное внимание уделяется проверке того, правильно ли люди воспринимают и интерпретируют их действия, в частности коммуникативные. Именно это мы хотели проверить с помощью нашего робота по имени Нина, которого мы разработали в партнерстве с Итальянским технологическим институтом в Генуе. Нина представляет собой расширенную версию робота iCub, который разработали в 2016 году для изучения познавательной способности роботов.

Нина оснащена инновационным механизмом движения век, в ее уши встроен микрофон, а рот покрыт эластичной тканью и приводится в движение с помощью пяти моторчиков, за ними — громкоговоритель, воспроизводящий голос. Движения рта регулируются синтезатором речи, также разработанным в нашей лаборатории. Эта система предварительно прошла обучение на видеороликах разговоров между людьми и способна рассчитывать и выполнять реалистичные движения рта и лица, которые соответствуют произносимым словам. Мы провели испытания в шумной обстановке (а именно на коктейльной вечеринке) и показали, что движения челюсти и губ, просчитанные нашей системой, значительно улучшили аудиовизуальное восприятие речи робота собеседниками-людьми.

Затем мы приступили к работе над глазами и веками робота. Важно было понять, какие параметры влияют на максимально реалистичное социальное взаимодействие. Мы закрывали камеры, встроенные в глаза Нины, различными пластиковыми капсулами и показали, что люди точнее восприняли направление взгляда, поскольку были тщательно подобраны относительные размеры склеры белого цвета и цветной радужной оболочки, а опускание взгляда сопровождалось опусканием верхнего века. Таким образом, собеседники понимают, на какой предмет смотрит Нина. Способность направлять взгляд так, чтобы собеседник уловил объект интереса, — это одна из основ феномена совместного внимания и построения модели чужого сознания. Благодаря этому неявному обмену информацией, собеседники Нины могут предугадать ее действия или реакцию, а робот — двигаться плавно и скоординированно.

Из 92 изученных видов белая склера глаза есть только у человека. Фото: © Adam Strawberry / Shutterstock

Гипотезу о кооперативной функции глаза выдвинула команда японских ученых в 2001 году. Затем ее подхватили антропологи из Института физики Макса Планка (Германия). Согласно этой гипотезе, строение и внешний вид человеческого глаза, а именно белая склера в сильном контрасте с радужной оболочкой и кожей лица, приобрели современное состояние, поскольку помогали легче считывать направление взгляда другими людьми, и тем самым способствовали развитию совместной деятельности.

Чтобы это доказать, ученые сравнили форму и внешний вид глаза (соотношение длины и ширины, площадь видимой поверхности склеры) у 874 взрослых животных 88 видов; цветовой контраст между склерой, радужкой и кожей у 92 видов; движения глаз у 26 видов. Выяснилось, что у человека склера видна лучше всего, а горизонтальное удлинение выражено сильнее, чем у всех остальных приматов. Подобное строение больше способствует движению глаз, чем вращению головы: в 61% случаев, чтобы изучить окружающую обстановку, люди двигают одними глазами (шимпанзе делают так только в 20-35% случаев).

При этом у 85 из 92 изученных видов склера коричневого цвета и только у человека — белая. Более того, мы единственные, у кого склера светлее, чем кожа и радужка. По мнению авторов, пигментация глаза имела эволюционное преимущество: можно прятать взгляд, а вместе с ним и свои планы. Вероятно, у человека эту черту сменил взгляд, облегчающий передачу намерений.

Но как научить робота вести себя осмысленно и учитывать контекст? Существует множество техник, чтобы это запрограммировать. Можно оснастить робота когнитивной моделью, позволяющей рассуждать о своем окружении (Чего хотят собеседники? Кто ближе всех находится к предмету и может его взять?), а также реагировать на приказы, вопросы, утверждения, сомнения других людей таким образом, чтобы спланировать свои собственные действия.

Этот подход начинает дополняться и даже вытесняться статистическими методами обучения и искусственным интеллектом, которые позволяют соотносить поток сигналов, получаемых роботом (речь, жесты), с действиями, которые нужно выполнить (посмотреть туда-то, указать на такой-то предмет, произнести такое-то слово). Если кратко, эти методы позволяют фиксировать закономерности интерактивного поведения.

В рамках одного из них робот развивается подобно ребенку (англ. developmental robotics): учится сам методом проб и ошибок, что требует проведения очень большого количества испытаний. Кроме того, используемый в этом случае алгоритм требует однозначно маркировать примеры правильных и неправильных действий при социальном взаимодействии. Однако универсального способа это сделать не существует.

Другой вариант — обучение посредством наблюдения или подражания. Роботу нужно изучить поведение человека-наставника при выполнении некоторой задачи, а затем воспроизвести его. Проблема в том, что в своих действиях робот не так гибок, как человек: мимика наших лиц гораздо богаче и разнообразнее, чем у робота. Поэтому повторять человеческие реакции ему придется, адаптируя их под свои ограниченные сенсомоторные и когнитивные способности. Это сработает при условии, что его будущие собеседники будут реагировать на его действия так же, как и на человека-наставника.

Но это далеко не факт: даже если у нас получится не проецировать когнитивные способности человека на устройство, наделенное самостоятельностью, робот все равно будет оставаться техническим прибором. А наша модель чужого сознания умеет отличать субъекты (то, что воздействует на мир и имеет намерения) от объектов (то, что пассивно подвергается действиям субъектов и сил природы). Мы присваиваем каждой из этих категорий разные системы ценностей, и в случае с роботом, они вступают в конфликт. Таким образом, преобразовать поведение человека в поведение, которое ожидается от социального робота, представляется трудной задачей.

Последний подход, демонстрационное обучение, позволяет учитывать сенсомоторные ограничения машины, оставляя наставнику возможность, подобно кукловоду, воздействовать непосредственно на исполнительные устройства робота (моторчики и шарниры). Для этого робот должен находиться в пассивном или «послушном» режиме, в котором он следует действиям координатора и волен лишь приспособить движения к весу своего тела.

Чтобы внедрить в систему Нины необходимые для социального взаимодействия движения, мы выбрали последний из перечисленных вариантов. Мы подключили робота к платформе «иммерсивного дистанционного управления», где демонстрация осуществляется «изнутри». А точнее, с помощью шлема виртуальной реальности, оснащенного устройствами захвата движения (в том числе бинокулярным окулометром), наставник становится «пилотом»: двигается и воспринимает ситуацию через корпус робота и его датчики. А Нина пассивно следит за его поведением: сохраняет в памяти все сенсомоторные сигналы, полученные во время разговоров пилота с другими людьми. Как только поведенческая память получит достаточное количество примеров взаимодействия, с помощью методов анализа данных и статистических моделей Нина сможет выстраивать общение самостоятельно.

Нина проводит с человеком нейропсихологическое интервью © Фото: AFP Photo / Jean-Pierre Clatot

Непродолжительные контакты

В рамках проекта Сомбреро при финансовой поддержке Национального исследовательского агентства Франции, наша цель — научить Нину самостоятельно проводить нейропсихологические интервью (см. здесь и здесь). В ходе беседы с помощью стандартного теста из шестнадцати пунктов оценивается эпизодическая память пациентов, у которых есть подозрение на болезнь Альцгеймера и другие типы деменции.

Обычно эти интервью проводят врачи, но поскольку длятся они недолго (обследование занимает около двадцати минут), их вполне можно поручить социальному роботу. Это однообразная задача со стандартизованным протоколом, в рамках которой цель разговора известна, а роли собеседников четко определены. Речь не идет о том, чтобы заменить настоящего врача и ставить диагноз, но о том, чтобы отобрать среди участников роботизированного теста тех, кому стоит обратиться к специалисту.

Однако нельзя недооценивать одну проблему, а именно необходимость адаптироваться к тысячам психологических профилей, сохраняя при этом постоянное внимание, вежливую доброжелательность и непременное чувство сопереживания. Это трудоемкая, но крайне важная задача, когда необходимо устройство, которому человек мог бы довериться, — робот-консультант, общение с которым воспринималось бы как менее стрессовая ситуация. Обнаружение недуга на ранней стадии подобным способом принесет пользу растущему числу больных людей, больше половины из которых не знают о своем состоянии.

В отличие от роботов-компаньонов, для которых этическая и техническая трудность заключается в построении долгосрочных отношений с одним человеком, наш социальный робот должен иметь непродолжительные контакты с большим количеством пациентов. Коротких сценариев взаимодействия существует множество: робот-интервьюер, промышленный робот для совместной работы с человеком, аниматор, продавец-консультант. Задача состоит в том, чтобы робот мог быстро параметризировать заранее выученные модели и адаптировать их к двигательным, перцептивным и когнитивным реакциям людей, о которых он ничего или почти ничего не знает.

В то время, когда стремительное развитие искусственного интеллекта и робототехники вызывают воодушевление, пугают и будоражат воображение, робототехник может дополнить дискуссию техническими усовершенствованиями. В частности, наделить робота знаниями о границах своих возможностей. Подобно чат-боту по имени Тэй, которого в 2016 году зарегистрировала в «Твиттере» компания Microsoft, любая интерактивная система по определению находится под влиянием того, что она воспринимает. Из-за этого она может выйти за пределы своих компетенций, если к этому подтолкнет пользователь или она переоценит свою способность адаптироваться к новому контексту. Через 24 часа чат-бот стал расистом и женоненавистником, и компании пришлось его отключить.

Поэтому роботу необходимо знать, как определить, способен ли он обработать входящий сигнал, а также оценить, не вышел ли он за рамки своих социально-коммуникативных компетенций. Следовательно, важно оснастить нашего социального робота «красной кнопкой», ответственность за которую будем нести мы, робототехники и другие специалисты в области социального или когнитивного взаимодействия. Эта кнопка должна позволять роботу автоматически оценивать, способна ли модель взаимодействия, которой он оснащен, вести беседу с человеком, умеет ли ответить «я не знаю» или вернуться в состояние покоя, в случае если слишком далеко отойдет от задачи, для которой его обучили.

ОригиналLa Recherche
Авторы: Жерар Байи, Фредерик Элизе

ПереводилаЕкатерина Нигорица
РедактировалАлександр Иванков