Среднее время прочтения — 6 мин.

Искусственному интеллекту казаться разумным легко, а вот человеку разработать действенную проверку знаний компьютера — трудно. 

Читает Глеб Рандалайен
Подкаст на YouTube, Apple, Spotify и других сервисах

Помните созданный IBM суперкомпьютер Watson? Тот самый, чей искусственный интеллект победил в американской телевикторине? В рекламе 2010 года говорилось: «Watson понимает естественный язык со всей его многозначностью и сложностью». Однако затем попытка Watson «произвести революцию в медицине с помощью искусственного интеллекта» с треском провалилась. Это наглядный пример того, что кажущееся владение языком и настоящее понимание человеческой речи — не одно и то же. 

Научить компьютер понимать человеческий язык — уже давно одна из основных задач исследований в области ИИ. Сперва ученые пытались вручную ввести в программу всё, что потребуется компьютеру для осмысления новостных сюжетов, художественной литературы или других текстов, написанных людьми. Такой подход, как и показал пример с Watson, оказался неэффективным, так как невозможно зафиксировать все неписаные законы, правила и допущения, необходимые для понимания текста. Позднее была предложена другая концепция: вместо встраивания в систему общеизвестных фактов мы позволим ЭВМ самостоятельно учиться понимать язык. Для этого собирают огромное количество текстов, по которым ИИ учится предсказывать слова. В результате получается то, что исследователи называют «языковой моделью». Если такие модели строятся на крупных нейросетях, как, например, GPT-3 от Open AI, они могут генерировать прозупоэзию!), поразительно похожую на созданную человеком, и выдавать замысловато выглядящие лингвистические рассуждения

Но можем ли мы сказать, что обученный на текстах тысяч веб-сайтов, книг и энциклопедий GPT-3 превзошел пустышку, которой оказался IBM Watson? Действительно ли он понимает язык, на котором говорит, и будто бы даже рассуждает? На эту тему мнения исследователей ИИ кардинально расходятся. Прежде подобные дискуссии больше относились к философской стороне вопроса, однако в последнее десятилетие ИИ вырвался из контролируемой среды в настоящую жизнь. И непонимание реалий этого мира может иметь значительные, а иногда и губительные последствия. В ходе одного из исследований было обнаружено, что Watson предлагал «многочисленные примеры небезопасных и неправильных рекомендаций по лечению». Другое исследование показало, что система машинного перевода Google допускала существенные ошибки в переводе с английского языка медицинских инструкций.

Как нам определить на практике, понимает ли компьютер? В 1950 году Алан Тьюринг, первопроходец в сфере вычислительной техники, попытался ответить на этот вопрос с помощью знаменитой «имитационной игры», которую теперь называют «тестом Тьюринга». Испытуемый, не видя, кто перед ним, пытался определить, с кем он говорит — человеком или машиной. Если судья не может понять, кто из собеседников человек, то тогда, по утверждению Тьюринга, мы в праве считать, что ЭВМ мыслит, а значит, и понимает. 

К сожалению, Тьюринг недооценил, как легко машинам удается вводить людей в заблуждение. Виртуальный собеседник «Элиза», созданный Джозефом Вейценбаумом в 1960-х годах в качестве пародии на психотерапевта, а также другие простые чат-боты во время беседы казались людям разумными существами, даже если они знали, что это программы. 

В научной работе 2012 года исследователи в области ИИ Гектор Левеск, Эрнест Дейвис и Леора Моргенштерн предложили более объективный тест под названием «схема Винограда». С тех пор ученые считают его одним (и, быть может, лучшим) из способов оценить разумность компьютера. Однако, как мы увидим далее, и он не идеален. Эта схема, названная в честь лингвиста Терри Винограда, включает пары предложений, отличающихся только одним словом. После каждого предложения следует вопрос. Вот два примера:

Предложение 1: Я наливал воду из бутылки в чашку, пока она не наполнилась. 

Вопрос: Что наполнилось: бутылка или чашка?

Предложение 2: Я наливал воду из бутылки в чашку, пока она не опустела.

Вопрос: Что опустело: бутылка или чашка?

Предложение 1: Дядя всё еще может обыграть Джо в теннис, хотя он и на 30 лет старше. 

Вопрос: Кто старше: Джо или его дядя?

Предложение 2: Дядя всё еще может обыграть Джо в теннис, хотя он на 30 лет младше. 

Вопрос: Кто младше: Джо или его дядя?

В каждой паре предложений от разницы в одно слово зависит, к какому предмету или человеку относится местоимение. Для правильного ответа на такие вопросы нужно обладать здравым смыслом. Именно на его проверку и нацелены схемы Винограда, компенсируя слабые места теста Тьюринга: ненадежные человеческие суждения или уловки чат-ботов. В частности, ученые разработали несколько сотен схем, которым «не помог бы» Google: компьютер не мог использовать эту и другие поисковые системы, чтобы дать правильный ответ. 

В 2016 году по этим схемам было устроено соревнование. Победившая программа дала только 58% правильных ответов, что не слишком отличалось от простого угадывания. Тогда Орен Эциони, ведущий исследователь в области ИИ, колко подметил: «Если ИИ не может определить, про что в предложении говорится «он» или «она», то тяжело представить, как машины захватят мир».

Как бы то ни было, умение ИИ решать схемы Винограда резко выросло благодаря появлению крупных нейросетевых языковых моделей. Отчет компании OpenAI за 2020 год гласит, что языковая модель GPT-3 справилась с 90% предложений из схем. А другие после практики конкретно на таких заданиях показали еще более убедительные результаты. На момент написания этой статьи лучшим результатом считается точность около 97% в решении определенного набора схем Винограда. Они являются составляющей SuperGLUE — соревнования ИИ в понимании языка. Такой показатель близок к уровню человеческого понимания. Означает ли это, что нейросетевые языковые модели стали по-человечески разумными?

Вряд ли. Несмотря на усилия разработчиков, схемы Винограда всё же можно было решить с помощью поисковых запросов. Как и во многих других тестах для ИИ, нейросети с помощью уловок успешно справлялись с этими схемами, на самом деле так и не понимая свои ответы. Рассмотрим, к примеру, следующие предложения: «спортивный автомобиль обогнал почтовый фургон, потому что он ехал быстрее» и «спортивный автомобиль обогнал почтовый фургон, потому что он ехал медленнее». Если языковую модель обучали на огромном корпусе предложений английского языка, то она обнаружит взаимосвязь между словосочетанием «спортивный автомобиль» и прилагательным «быстрый», «почтовый фургон» и «медленный». Тогда ИИ даст правильный ответ, руководствуясь этим соотношением, так и не поняв смысла предложений. Подобные статистические уловки, как оказывается, вполне срабатывают в соревновании SuperGLUE применительно ко многим схемам Винограда. 

Группа исследователей из Института искусственного интеллекта имени Аллена решила не отказываться от использования схем Винограда, а попробовать исправить их недостатки. В 2019 году они выпустили Winogrande — более крупный набор схем Винограда. Теперь количество примеров стало ошеломляющим: 44 000 предложений взамен нескольких сотен. Чтобы собрать так много примеров, исследователи обратились к известной краудсорсинговой платформе Amazon Mechanical Turk. Каждого пользователя (человека) попросили написать несколько пар предложений, но с ограничениями, чтобы в подборке затрагивались разнообразные темы. Однако на этот раз предложения в парах могли отличаться больше чем на одно слово.

Затем ученые постарались исключить предложения, с которыми бы сработали статистические уловки. Для этого удалили схемы, с которыми легко справились более простые программы ИИ. Как и ожидалось, оставшиеся предложения оказались гораздо труднее для ЭВМ, чем первоначальный набор схем Винограда. Люди по-прежнему давали почти все правильные ответы, в то время как показатели нейросетевых языковых моделей теперь были далеки от идеальных. Этот новый тест WinoGrande должен был компенсировать недостатки схем Винограда в качестве способа определения разумности ЭВМ. При этом обязательным условием стал тщательный подбор предложений, чтобы верные ответы нельзя было загуглить. 

Однако дело приняло неожиданный оборот. За почти два года, прошедшие с выпуска WinoGrande, нейросетевые языковые модели стали крупнее, а значит, результаты прохождения теста тоже улучшились. На момент написания этой статьи результаты лучших программ, обученных на терабайтах текста, а затем на тысячах примеров из WinoGrande, верны почти на 90% (у людей на 94%). Такой прогресс достигнут практически полностью благодаря увеличению размеров языковых моделей и их обучающих данных. 

Получается, более крупные языковые модели наконец достигли уровня понимания, равного человеческому? Вряд ли. Есть несколько моментов, о которых не стоит забывать, оценивая эти результаты. Например, поскольку предложения были написаны пользователями Amazon Mechanical Turk, их качество и связность были на разном уровне. Также, несмотря на то, что после предварительной проверки получилось избавиться от нескольких статистических уловок, более крупным и продвинутым языковым моделям все-таки удавалось находить ответы в сети. Более того, этим методом предложения проверяли по одному, и в результате некоторые из них остались без своего «двойника». Дальнейшее исследование показало, что нейросетевые языковые модели, которые проходили проверку на парах предложений (и верно отвечали в обоих случаях), показывали куда менее точные результаты по сравнению с человеком. А значит, прежний показатель в 90% не так значим, как мы думали. 

Чем же показательна вся эта история? В первую очередь тем, что по прохождению тестов зачастую сложно определить, действительно ли системы ИИ понимают информацию, которую обрабатывают. Теперь мы знаем, что для достижения высоких показателей в схемах Винограда и схожих испытаниях нейросети используют уловки, построенные на статистике, вместо настоящего осмысления, как у людей. 

На мой взгляд, проблема в том, что понимание языка подразумевает понимание окружающего мира, а компьютер, работающий только с языком, на понимание мира не способен. Только представьте, что требуется для понимания предложения: «Спортивный автомобиль обогнал почтовый фургон, потому что он ехал медленнее». Необходимо различать спортивные автомобили и почтовые фургоны, знать, что автомобили могут «обгонять» друг друга, ну и понимать самое простое: транспортные средства — это объекты, которые существуют в мире, управляемом людьми с их собственными целями. 

Всю эту информацию люди воспринимают как должное, но она не встроена в ЭВМ и не дается развернуто в тренировочных тестах для языковых моделей. По мнению некоторых когнитивистов, для изучения и понимания языка люди опираются на врожденные, доязыковые, базовые знания о пространстве, времени и других сущностных характеристиках мира. Если мы ждем от ИИ понимания человеческого языка на схожем уровне, то в первую очередь необходимо обучить компьютеры принципам, знакомым нам с рождения. Тогда для того, чтобы оценить их понимание, нам предстоит сначала оценить усвоение ими принципов, которые можно было бы назвать «метафизикой младенца».

Может показаться, что обучение и оценка ЭВМ лишь для того, чтобы довести их до умственных способностей малышей — это гигантский шаг назад после умопомрачительных подвигов Watson и GPT-3. Но если нам нужно подлинное и достоверное понимание, то это, может быть, единственно верный для компьютеров способ по-настоящему осознать, какие слова в предложении заменены местоимениями — и что из этого вытекает.

По материалам Quanta Magazine
Автор: Мелани Митчелл
Иллюстрация: Мэгги Чан 

Переводила: Екатерина Лобзева
Редактировали: Елизавета Яковлева, Софья Фальковская