Этот момент наступил давно. Технология распознавания речи разрабатывалась более полувека и пережила несколько периодов многообещающих - и разочарований. Так что же изменилось, чтобы сделать ASR жизнеспособным в коммерческих приложениях? И что именно могли сделать эти системы задолго до того, как кто-либо из нас услышал о Siri?

История распознавания речи - это не только применение различных подходов, но и развитие необработанных технологий, хотя они неразрывно связаны. В течение десятилетий исследователи придумали бесчисленное множество способов расчленения языка: по звукам, по структуре - и со статистикой.

Первые дни

Человеческий интерес к распознаванию и синтезу речи восходит к сотням лет (по крайней мере!) - но только в середине 20-го века наши предки создали нечто, узнаваемое как ASR.

1961 - IBM Shoebox

Среди самых ранних проектов был «распознаватель цифр» под названием Audrey, созданный исследователями Bell Laboratories в 1952 году. Одри могла распознавать произносимые числовые цифры, ища звуковые отпечатки пальцев, называемые формантами - дистиллированными сущностями звуков.

В 1960-х годах IBM разработала Shoebox - систему, которая могла распознавать цифры и арифметические команды, такие как «плюс» и «итог». Еще лучше, Shoebox мог передать математическую задачу счетной машине, которая вычислила и распечатала ответ.

Тем временем японские исследователи создали оборудование, способное распознавать составные части речи, такие как гласные; другие системы могут оценивать структуру речи, чтобы выяснить, где может закончиться слово. Команда университетского колледжа в Англии смогла распознать 4 гласных и 9 согласных, анализируя фонемы, отдельные звуки языка.

Но пока поле делало постепенные шаги вперед, не обязательно было ясно, куда ведет путь. А потом: катастрофа.

Октябрь 1969 г. - Журнал Американского акустического общества

Пронзительная заморозка

Поворотным моментом стало письмо, написанное Джоном Р. Пирсом в 1969 году.

Пирс давно зарекомендовал себя как инженер с мировым именем; среди других достижений он придумал слово транзистор (теперь повсеместно используется в технике) и помог запустить Echo I, первый в мире спутник связи. К 1969 году он был руководителем Bell Labs, которая много инвестировала в развитие распознавания речи.

В открытом письме³, опубликованном в Журнале Американского акустического общества, Пирс изложил свои опасения. Ссылаясь на «пышную» финансовую среду после Второй мировой войны и Sputnik, а также на отсутствие ответственности за них, Пирс предостерегал эту область из-за отсутствия научной строгости, утверждая, что было слишком много диких экспериментов:

«Мы все верим, что наука о речи возможна, несмотря на нехватку людей, которые ведут себя как ученые, и результатов, которые выглядят как наука». - Дж. Р. Пирс, 1969.

Пирс вложил деньги своего работодателя в рот: он отказался от финансирования программ ASR Белла, которые не могли быть восстановлены до тех пор, пока он не ушел в отставку в 1971 году.

Прогресс продолжается

К счастью, повсюду было больше оптимизма. В начале 1970-х годов ARPA Министерства обороны США (агентство, ныне известное как DARPA) профинансировало пятилетнюю программу под названием Исследование понимания речи. Это привело к созданию нескольких новых систем ASR, наиболее успешной из которых была система Harpy Университета Карнеги-Меллона, которая к 1976 году могла распознавать чуть более 1000 слов.

Тем временем усилия IBM и AT&T Bell Laboratories подтолкнули технологию к возможным коммерческим приложениям. IBM уделяла приоритетное внимание транскрипции речи в контексте офисной переписки, а Белл интересовался сценариями «управления и контроля»: предшественниками голосового набора и автоматизированных телефонных деревьев, которые мы знаем сегодня.

Несмотря на этот прогресс, к концу 1970-х годов ASR все еще был далек от того, чтобы быть жизнеспособным для чего-либо, кроме узкоспециализированных сценариев использования.

У меня тоже голова болит.

80-е: Марковы и другие

Ключевым поворотным моментом стала популяризация скрытых марковских моделей (HMM) в середине 1980-х годов. Этот подход представляет собой значительный сдвиг «от простых методов распознавания образов, основанных на шаблонах и спектральном измерении расстояния, к статистическому методу обработки речи», что привело к скачку в точности.

Большая часть улучшений в системах распознавания речи с конца 1960-х годов связана с мощью этого статистического подхода в сочетании с достижениями компьютерных технологий, необходимых для реализации HMM.

HMM штурмом взяли отрасль - но успеха они не добились. Джим Бейкер впервые применил их для распознавания речи в начале 1970-х в CMU, а сами модели были описаны Леонардом Э. Баумом в 60-х. Только в 1980 году, когда Джек Фергюсон прочитал серию содержательных лекций в Институте оборонного анализа, методика начала распространяться более широко.

Успех HMM подтвердил работу Фредерика Елинека из исследовательского центра IBM Watson Research Center, который с начала 1970-х годов выступал за использование статистических моделей для интерпретации речи, вместо того, чтобы пытаться заставить компьютеры имитировать то, как люди переваривают язык: через значение, синтаксис и грамматика (распространенный подход в то время). Как позже выразился Елинек: «Самолеты не машут крыльями».

Эти подходы, основанные на данных, также способствовали прогрессу, который был связан как с отраслевым сотрудничеством и подотчетностью, так и с отдельными моментами эврики. С ростом популярности статистических моделей область ASR начала объединяться вокруг набора тестов, которые обеспечили бы стандартизированный эталон для сравнения. Этому способствовал выпуск общих наборов данных: больших массивов данных, которые исследователи могли использовать для обучения и тестирования своих моделей.

Другими словами: наконец, появился (несовершенный) способ измерить и сравнить успех.

Ноябрь 1990 г., Infoworld

Доступность для потребителей - 90-е годы

К лучшему и худшему, 90-е представили потребителям автоматическое распознавание речи в той форме, которую мы узнали сегодня. Dragon Dictate был запущен в 1990 году за ошеломляющие 9000 долларов и предлагал словарь из 80 000 слов и такие функции, как обработка естественного языка (см. Статью Infoworld выше).

Эти инструменты требовали много времени (в статье утверждается иное, но Dragon стал известен тем, что предлагал пользователям «обучать» диктовку своему собственному голосу). И для этого требовалось, чтобы пользователи говорили неестественно: Dragon изначально мог распознавать только 30–40 слов в минуту; люди обычно говорят в четыре раза быстрее, чем это.

Но это сработало достаточно хорошо, чтобы Dragon превратился в бизнес с сотнями сотрудников и клиентов в сфере здравоохранения, юриспруденции и т. Д. К 1997 году компания представила Dragon NaturallySpeaking, который мог записывать слова в более плавном темпе - и при гораздо более низкой цене за 150 долларов.

Даже в этом случае, возможно, было столько же ворчаний, сколько визгов восторга: в той степени, в которой сегодня существует потребительский скептицизм по поводу ASR, некоторая заслуга должна быть отдана чрезмерному энтузиазму в маркетинге этих ранних продуктов. Но без усилий пионеров отрасли Джеймса и Джанет Бейкер (основавших Dragon Systems в 1982 году) создание ASR могло занять гораздо больше времени.

ноябрь 1993 г., журнал IEEE Communications.

Куда идет распознавание речи - продолжение

Через 25 лет после публикации статьи Дж.Р.Пирса IEEE опубликовал продолжение под названием Куда идет распознавание речи: следующие 25 лет⁵, автором которого стали два старших сотрудника Bell Laboratories (того же учреждения, где работал Пирс).

Последняя статья рассматривает состояние отрасли примерно в 1993 году, когда была опубликована статья, и служит своего рода опровержением пессимизма оригинала. Среди его выводов:

  • Ключевой проблемой в письме Пирса было его предположение, что для того, чтобы распознавание речи стало полезным, компьютеры должны понимать, что слова означают. Учитывая технологии того времени, это было совершенно невозможно.
  • В некотором смысле Пирс был прав: к 1993 году компьютеры плохо понимали язык, а в 2018 году они по-прежнему плохо разбирались в смыслах.
  • Ошибка Пирса заключалась в том, что он не смог предвидеть бесчисленное множество способов использования распознавания речи, даже когда компьютер не знает, что на самом деле означают слова.

Продолжение Whither заканчивается прогнозом, в котором предсказывается, в каком направлении будет развиваться ASR в годы после 1993 года. Раздел оформлен дерзкими изгородями («Мы с уверенностью прогнозируем, что по крайней мере одно из этих восьми прогнозов окажется ошиблись ») - но все равно интригует. Среди их восьми предсказаний:

  • «К 2000 году больше людей будут получать удаленную информацию через голосовые диалоги, чем путем набора команд на компьютерной клавиатуре для доступа к удаленным базам данных».
  • «Люди научатся изменять свои речевые привычки, чтобы использовать устройства распознавания речи, точно так же, как они изменили свое речевое поведение, чтобы оставлять сообщения на автоответчиках. Даже если они научатся использовать эту технологию, люди всегда будут жаловаться на распознаватели речи ».

Темная Лошадь

В следующей части этой серии мы рассмотрим последние разработки и текущее состояние автоматического распознавания речи. Спойлер: нейронные сети сыграли главную роль.

Но нейронные сети на самом деле так же стары, как и большинство описанных здесь подходов - они были введены в 1950-х годах! И только после того, как вычислительные мощности современной эпохи (вместе с гораздо более крупными наборами данных) изменили ситуацию.

Но мы забегаем вперед. Следите за нашей следующей публикацией об автоматическом распознавании речи, следуя Дескрипту на Medium, Twitter или Facebook.

Хронология через Хуанг и Рабинер

Эта статья изначально опубликована в Descript.