Как ИИ учился понимать человеческий язык и говорить на нем

Среднее время прочтения — 7 мин.

Пару лет назад произошел очень любопытный случай: эксперты Facebook создали парочку чат-ботов и научили их разговаривать друг с другом. Сначала боты использовали для общения обычные английские слова и выражения, но через некоторое время начали изменять грамматику и изобретать собственные языковые конструкции. В какой-то момент разработчики обнаружили, что язык, на котором общаются чат-боты, исказился до неузнаваемости и перестал быть похожим на английский. Искусственные создания при этом в точности выполняли то, чего от них хотели ученые.

Читает Тарасов Валентин
Подкаст на YouTube, Apple, Spotify и других сервисах

Исследователи хотели, чтобы боты не просто беседовали друг с другом, а вели некое подобие переговоров. Смогут ли они создать искусственный интеллект, который сможет договариваться с человеком? Для этого они записали огромное количество разговоров, в ходе которых живые люди обсуждали довольно бессмысленные вещи и обменивались репликами типа «Мне нужны три мяча, а тебе нужны три коробки». Затем эти аудиозаписи использовались для обучения чат-ботов, и они начали разговаривать друг с другом.

Их задача заключалась в том, чтобы выбрать оптимальную стратегию переговоров и оставить за собой последнее слово. Но эксперимент вышел из-под контроля: виртуальные собеседники придумали собственный вариант языка, и ученые решили отключить эту систему искусственного интеллекта от греха подальше. Забавнее всего было наблюдать за журналистами — они словно с цепи сорвались. Вы можете представить, какими заголовками пестрели СМИ: «Чат-боты изобрели собственный язык», «ИИ собирается захватить мир» и тому подобное. На самом деле всё было не так. Вернее, отчасти журналисты были правы: боты действительно изобрели свой способ общения. Но ученых не сильно беспокоило то, что искусственный разум сможет поработить людей. Они просто осознали, что поставили перед своими подопытными задачу выбрать наиболее выигрышную стратегию для ведения диалога, но не дали им указания использовать для общения только английский язык. Позднее при перезапуске проекта ботов запрограммировали таким образом, чтобы они меньше отклонялись от норм английского языка.

Этот эксперимент получился очень интересным, поскольку он поставил перед участниками два важных вопроса. Что произойдет, если системы искусственного интеллекта освоят наш язык настолько, что смогут общаться друг с другом? И смогут ли они в этом случае обогнать нас в развитии? Вот на этом вопросе стоит остановиться подробнее.

Может ли случиться так, что голосовые помощники на основе искусственного интеллекта, например, Алекса или Сири, в совершенстве овладеют человеческим языком? И будут ли они использовать его именно так, как это делают люди?

На первый вопрос можно ответить однозначно: да, искусственный интеллект может добиться прекрасных результатов в изучении языка и даже превзойти в этом человека, но он будет использовать язык совсем по-другому. Давайте совершим небольшой экскурс в историю и перенесемся в 1970-е годы, когда ученые впервые начали предпринимать попытки научить компьютер понимать нашу речь и разговаривать с людьми — совсем как в сериале «Стартрек». Одной из первых разработок такого рода стала система SHRDLU, предназначенная для распознавания естественных языков, которую создал американский исследователь искусственного интеллекта Терри Виноград. Мир, в котором существовал этот простой компьютерный мозг, состоял из цветных геометрических фигур разного размера. Системе можно было сказать что-то вроде «Положи синий кубик на красный кубик», и она отвечала: «Я положила синий кубик на красный кубик».

Терри Виноград сделал буквально следующее: он взял все известные ему правила английского языка и преобразовал их в правила для компьютерной системы. Затем он связал полученные правила со значениями тех немногочисленных слов, которые использовались в этом крошечном геометрическом мире, и создал на основе этого свою программу. Конечно, для того времени результат был просто невероятным: компьютер, который выполняет указания человека, как в сериале «Стартрек»! Но система Терри Винограда не знала ничего, кроме весьма ограниченного набора геометрических фигур, поэтому на практике эта разработка оказалась не очень интересной и не очень полезной.

Главный вопрос заключался в том, можно ли взять такую систему, расширить ее функциональные возможности и сделать ее максимально универсальной, то есть научить ее общаться так, как это делает человек. Именно этим ученые занимались на протяжении 1970-х и 1980-х годов, и это оказалось очень сложной задачей. Проблема в том, что в процессе живого общения мы не можем предугадать, о чем будет говорить собеседник. Люди могут рассуждать о воображаемых вещах или абстрактных явлениях. Научить компьютерную программу делать то же самое — это задача из области фантастики.

Поэтому в 1970-х и 1980-х годах ученые пытались научить искусственный интеллект грамматике, расширяя наборы языковых правил и привязывая их к более обширным массивам данных. Для этого они тоже использовали компьютерные технологии: собирали невероятное количество различных текстов, анализом которых занимались сотни аспирантов-филологов, а потом запускали специальные программы, которые извлекали из всего этого массива текстов определенные закономерности. Эти правила затем использовались для создания новых компьютерных программ, которые можно было бы научить понимать человеческий язык. В этом заключалась суть подобных исследований тех лет, и ученые занимаются этим до сих пор. Гигантские базы данных, содержащие огромное количество проанализированных предложений, называются «банками синтаксических деревьев». Эти текстовые корпусы с многочисленными синтаксическими схемами и описаниями не потеряли своей актуальности и по-прежнему широко применяются. Но при использовании такой технологии всё упирается в то, что компьютер не может справиться со спонтанностью и непредсказуемостью человеческой речи. Компьютерные системы являются более уязвимыми и менее гибкими, чем наш мозг, и работают по другому принципу.

Однако произошедшее в 1980-х привело к созданию принципиально новых технологий искусственного интеллекта, которые теперь окружают нас повсеместно. На их основе функционируют такие голосовые помощники, как Алекса, Сири или Google. Разработчики подобных решений не пытаются выработать полный свод четких правил и алгоритмов, а разрешают искусственному мозгу разбираться в правилах самостоятельно. По сути они просто создают некую универсальную систему, которая идеально умеет анализировать любые предложенные ей данные. Такие системы стали называть «нейронными сетями». Пользователь задает нейросети критерии желаемого результата, загружает в систему данные, и она анализирует их снова и снова, пытаясь найти то, что будет соответствовать заданным критериям. И в конечном итоге после анализа огромного массива данных мы получаем совершенно новую систему, которая структурирована таким образом, чтобы получать желаемый результат на основе имеющихся данных. Именно этот принцип лежит в основе большинства современных систем искусственного интеллекта.

И это очень умные системы. Например, если вы скажете: «Сири, включи Рахманинова», скорее всего, в ответ вы действительно услышите музыку этого композитора. Однако на самом деле нейронные сети устроены совсем не так, как наш мозг.

Когда вы слышите фразу «включи Рахманинова», нейроны вашего мозга воспринимают эти слова, вы понимаете их смысл, а также суть высказывания в целом, находите нужную аудиозапись и включаете ее. Но когда нейронная сеть слышит человеческую речь, она анализирует ее на основе статистических алгоритмов и данных, собранных со всего интернета с помощью серверов Apple или Google, которые находятся где-нибудь в Ирландии или в Калифорнии. После обработки всех данных система получает конечный результат и выдает его вам.

По сути мы имеем дело с глобальным искусственным интеллектом, и это, конечно, потрясает воображение.

Системы искусственного интеллекта научились хорошо распознавать звуки, но они по-прежнему плохо справляются с грамматикой, и это мешает им понимать человеческую речь. Когда Сири слышит фразу «включи Рахманинова», она просто пытается определить максимально вероятное значение этих слов. Для того чтобы оценить степень вероятности того, что эта фраза означает «включи мне аудиозапись какой-нибудь прелюдии Рахманинова», системе нужно проанализировать все тексты в интернете, и в процессе этого анализа она просто берет разные слова и соединяет их вместе. Это очень похоже на суп из слов: система перемешивает все имеющиеся слова и старается как можно точнее угадать, что они означают. Иногда этот метод так и называют — semantic soup, то есть «суп из семантических значений». По сути, вы просто озвучиваете ключевые слова.

Это совсем не похоже на то, как люди пользуются языком. Однако теперь у нас есть системы искусственного интеллекта, которые устроены по-другому. Всего пару лет назад Google начала внедрять принципиально новую технологию — сначала она применялась в Google Переводчике, но теперь используется повсеместно. Суть этой технологии заключается в том, что она не просто опирается на ключевые слова, чтобы понять смысл высказывания, и не просто вычисляет наиболее вероятное значение определенной комбинации слов. Она определяет значение слова с учетом предыдущих и последующих значений. То есть прогнозирует с максимальной долей вероятности, какое слово должно стоять после того или иного слова или перед ним. Например, если вам скажут «кошка села на…», вы, вероятно, произнесете слово «окошко», потому что слышали это уже тысячу раз. Вариант «кошка села на облако» будет более нестандартным, а фраза «кошка села на свободу» — совсем необычной. Ну а если вам скажут «кошка села на на», вы вообще ничего не поймете. Однако все эти фразы составлены на русском языке, и в каждой из них есть смысл. Как бы странно ни звучало последнее высказывание, можно предположить, что здесь имеется в виду огромная развернутая книга, на странице которой есть слово «на», и кошка села именно на это слово. В этом есть хоть какая-то логика. Но фраза «кошка села на „на“» — это исключительный случай, тогда как поставить слово «окошко» после предлога «на», чтобы получилась фраза «кошка села на окошко», — это вполне в порядке вещей.

Таким образом, можно использовать статистические данные о сочетаемости слов для точного прогнозирования грамматической структуры предложения. Именно так и работают новые системы искусственного интеллекта. И если вы заметили, что Google Переводчик за последние несколько лет стал переводить намного лучше, то это именно потому, что он научился вычислять статистическую вероятность того, что одно слово последует за другим. Сейчас существуют еще более сложные версии нейронных сетей, в которых используется так называемая технология «долговременной кратковременной памяти». Такие системы запоминают фразы, с которым они уже сталкивались. Например, анализируя фразу «кошка села на окошко», нейросеть вспомнит слово «кошка» и предположит, что окошко — вполне подходящее место для кошки. По сути у нейросетей появилась память, и ее можно использовать, чтобы научить искусственный интеллект разбираться в грамматике.

Возьмем в качестве примера такую фразу: «Лисицы в моей теплице любят играть и резвиться». Слово «теплица», которое стоит перед глаголом «любят», употребляется здесь в единственном числе. Но вы не говорите «Лисицы в моей теплице любит играть и резвиться» — вы говорите «любят», потому что в этом предложении подлежащее — «лисицы». Такие грамматические тонкости всегда создавали проблемы для нейронных сетей. Новые, более сложные, нейросети могут с ними справляться и с максимальной долей вероятности определять, какой глагол согласуется с тем или иным существительным.

Нейронные сети достигают потрясающих результатов в изучении языка, но они изучают его совсем не так, как мы. Ученые проводили эксперименты, в ходе которых современные нейросети и живые люди выполняли одни и те же языковые задачи. И те, и другие при этом совершали ошибки, но это были совершенно разные ошибки. На первый взгляд работа искусственного интеллекта может быть очень похожа на работу человеческого мозга и даже давать аналогичный результат. Но на глубинном уровне процессы в нашей голове сильно отличаются от того, что происходит внутри искусственного мозга. Так что нейросети могут продвигаться семимильными шагами в освоении человеческого языка, но они используют его совсем по-другому.

По материалам Serious Science
Автор: Дэвид Эджер
Фото: Unsplash

Над текстом работали Анастасия Ананьина, Анастасия Железнякова, Эмма Ягмурова

Правила такие: мы ищем самое интересное чтиво в зарубежном интернете. Делаем подборки из пяти статей с краткими описаниями и публикуем их во ВКонтакте и Телеграме . Вы голосуете за понравившиеся, а мы переводим и озвучиваем две победившие в голосовании.

P.S. У нас есть секретный канал ВКонтакте, через который можно получать новые статьи прямо в личные сообщения.

Нажмите ESC, чтобы закрыть

Как ИИ учился понимать человеческий язык и говорить на нем

Как ИИ учился понимать человеческий язык и говорить на нем

Интересной статьёй стоит поделиться:

Теги:

UX-дизайн Netflix не дает нам спать по ночам

Нефть: черная кровь современного мира

Почему диктаторы пишут книги

«Я была self-help гуру. Вот почему не стоит слушать людей вроде меня»

Увеличение экономической роли знания

«Я была self-help гуру. Вот почему не стоит слушать людей вроде меня»

Я целый день вел себя как суровый мужик, чтобы проверить, изменится ли мой уровень тестостерона

Прощальный фокус: как «исчезают» люди с деменцией

Будущее работы: «Ферма»

Как выбрать вино: гайд для любителей

Airbnb и неожиданные последствия «прорыва»

Старение вспять, свиные органы и будущее человечества