За последние несколько лет цифровая обработка голоса сделала большой шаг вперед — но трудностей не становится меньше. Перед вами несколько причин, почему сложилась такая ситуация, и как наука пытается найти из нее выход.
«О’кей, Google, сделай свет голубым», — говорю я в пространство комнаты. Однако ничего не происходит. Вместо этого из динамика доносится извинение: «К сожалению, я вас не понял». Пытаюсь снова: «О’кей, Google, пожалуйста, установи голубой свет в комнате». Опять неудача. Третья попытка с остатками оптимизма: «О’кей, Google, свет, комната, голубой». Только теперь Google Home делает то, о чем его просили — лампа у дивана наконец светится голубым.
Несмотря на технологические прорывы последних лет, распознавание речи остается своеобразным камнем преткновения. Нет, дело не только в том, что автору статьи пришлось говорить четко и отрывисто, чтобы добиться желаемого результата. Сейчас это лишь испортило удовольствие от забавы, но в будущем нас ожидают куда более серьезные проблемы.
В конце концов, голосовых помощников все чаще встраивают не только в смартфоны и колонки, но и в автомобили. А что, если водитель в дождь едет по автостраде со скоростью 160 км/ч и в третий раз пытается объяснить приложению, что надо включить дворники? Такая ситуация грозит реальной опасностью. Именно поэтому крупные IT-корпорации и исследовательские институты пытаются представить, как системы распознавания речи будут работать в будущем и с какими проблемами им предстоит столкнуться.
Мы говорим по-разному
Доротея Колосса из института коммуникационной акустики Рурского университета в Бохуме видит в распознавании речи две принципиальных проблемы: «Во-первых, одно и то же слово никогда не произносится одинаково. Во-вторых, меняется скорость речи. Образец, который должен обрабатывать компьютер, всегда разный».
Особенно заметны эти различия между говорящими, ведь артикуляционный аппарат одного человека не совсем такой же, как у другого. Отчасти это можно сравнить с почерком — у каждого он уникален. Как и подпись, произношение слова от раза к разу слегка меняется. И несмотря на все различия, компьютер должен понимать, что имеет дело с одним и тем же словом.
Не все владеют безупречным литературным языком
Особую сложность для речевых систем представляют региональные диалекты и акцент. С английским языком это не так заметно, потому что программа располагает внушительной базой данных, позволяющей распознавать слова даже в трудных условиях. Для других языков информационная база не такая обширная, что затрудняет процесс. Amazon, например, подключил к решению этой проблемы своих же пользователей. Перед началом продаж «умной колонки» компания отправила образцы тем, кто вероятнее всего говорит на местном диалекте. Таким образом удалось проверить, насколько хорошо система справляется с разными вариантами немецкого языка.
Внутри языков существуют едва заметные различия
В большинстве языков слова произносятся за счет колебания языковых связок. В немецком, например, качество звука зависит от положения языка и степени открытия рта, — складываясь, различные звуки обретают значение. А скажем, в мандаринском китайском, первостепенное значение имеют частота колебания связок и высота звука. То есть при одинаковой последовательности звуков значение все равно будет разным, и столь тонкие различия компьютеру воспринимать очень сложно.
Компьютеры должны научиться понимать контекст
Ко всему прочему проблему для компьютера представляют омонимы, слова с одинаковым звучанием, но с разным значением. Чтобы выбрать подходящий смысл, программа должна проанализировать контекст — согласитесь, что лучше хранить деньги в швейцарском банке, а не в банке под кроватью.
Работа в реальных условиях
Задачу компьютеру усложняет не только язык сам по себе. Трудность представляют и обстоятельства, сопровождающие запрос. Редко когда распознавание речи требуется в лабораторных условиях. В реальном мире речь окружена звуковым фоном, например, работающим телевизором или шумом на улице. Система должна отделять команду человека от фоновых помех. «„Умные колонки“ вроде той, что выпускает Amazon, оснащены несколькими микрофонами, они понимают, откуда доносится активирующее слово, — объясняет Колосса. — Следующий шаг — соединить микрофоны таким образом, чтобы голосовой сигнал усиливался, а шумы подавлялись».
Улучшенный ИИ против языковой путаницы
IT-специалисты довольно давно поняли, что существующими методами справиться с различным произношением не получится. Проблема скорости речи также не решена.
Однако в последние годы появились разработки, призванные справиться с этими трудностями. Ученые добились значительных успехов в области машинного обучения (т.е. в системах, которые самостоятельно обрабатывают задачи и затем находят их решение); намного более эффективными стали искусственные нейронные сети, копирующие человеческий мозг. Такие технологии вполне способны, когда это необходимо, анализировать язык.
Больше данных для лучшего понимания
Кроме того, день за днем появляется все больше данных, на которых нейронные сети могут учиться распознавать звучание естественных языков. «Теперь, благодаря развитию технологий, распознавание речи используется во многих сферах человеческой деятельности, — поясняет Колосса. — Сегодня пользоваться голосовыми помощниками проще, чем когда-либо».
Машинное обучение и обширные базы данных могут помочь и в распознавании речи «с помехами». Ведь чем лучше система умеет понимать слова среди фонового шума, тем точнее она будет его отфильтровывать.
Чего нам ожидать от систем распознавания речи в ближайшем будущем
Принимая во внимание все недавние технологические успехи, Доротея Колосса считает, что через несколько лет будет вполне возможно вести естественный диалог с устройством — по крайней мере, если контекст будет не очень велик. Она добавляет: «Совсем скоро мы перестанем замечать, что общаемся не с человеком, если речь пойдет, скажем, о том, чтобы настроить радиопередатчик или навигатор».
Тем не менее она скептически относится к тому, что компьютеры должны уметь оценивать поведение собеседника при разговоре, например, его понимание или непонимание сказанного. «Для таких ситуаций необходимо осознавать, как работает человеческое мышление. То, что благодаря имеющемуся опыту кажется нам простым, компьютеру едва ли понятно», — заключает Колосса.
Если качество распознавания речи в ближайшие годы улучшится, то возрастет и количество устройств со встроенными голосовыми помощниками. Тогда все больше людей будет взаимодействовать с Siri и другими системами. Приложения будут лучше нас понимать, — и включать свет.
Оригинал: Wirtschafts Woche.
Автор: Нико Хорниг.
Перевела: Варвара Васильева.
Редактировал: Кирилл Казаков.