Распознавание синтеза речи система безопасности. Системы распознавания речи

Коммерческие программы по распознаванию речи появились в начале девяностых годов. Обычно их используют люди, которые из-за травмы руки не в состоянии набирать большое количество текста. Эти программы (например, Dragon NaturallySpeaking, VoiceNavigator) переводят голос пользователя в текст, таким образом, разгружая его руки. Надёжность перевода у таких программ не очень высока, но с годами она постепенно улучшается.

Увеличение вычислительных мощностей мобильных устройств позволило и для них создать программы с функцией распознавания речи. Среди таких программ стоит отметить приложение Microsoft Voice Command, которое позволяет работать со многими приложениями при помощи голоса. Например, можно включить воспроизведение музыки в плеере или создать новый документ.

Интеллектуальные речевые решения, позволяющие автоматически синтезировать и распознавать человеческую речь, являются следующей ступенью развития интерактивных голосовых систем (IVR). Использование интерактивного телефонного приложения в настоящее время не веяние моды, а жизненная необходимость. Снижение нагрузки на операторов контакт-центров и секретарей, сокращение расходов на оплату труда и повышение производительности систем обслуживания - вот только некоторые преимущества, доказывающие целесообразность подобных решений.

Прогресс, однако, не стоит на месте и в последнее время в телефонных интерактивных приложениях все чаще стали использоваться системы автоматического распознавания и синтеза речи. В этом случае общение с голосовым порталом становится более естественным, так как выбор в нем может быть осуществлен не только с помощью тонового набора, но и с помощью голосовых команд. При этом системы распознавания являются независимыми от дикторов, то есть распознают голос любого человека.

Следующим шагом технологий распознавания речи можно считать развитие так называемых Silent Speech Interfaces (SSI) (Интерфейсов Безмолвного Доступа). Эти системы обработки речи базируются на получении и обработке речевых сигналов на ранней стадии артикулирования. Данный этап развития распознавания речи вызван двумя существенными недостатками современных систем распознавания: чрезмерная чувствительность к шумам, а также необходимость четкой и ясной речи при обращении к системе распознавания. Подход, основанный на SSI, заключается в том, чтобы использовать новые сенсоры, не подверженные влиянию шумов в качестве дополнения к обработанным акустическим сигналам.

На сегодняшний день можно выделить пять основных направлений использования систем распознавания речи:

Голосовое управление - способ взаимодействия и управления работой устройства при помощи голосовых команд. Системы голосового управления малоэффективны для ввода текста, зато удобны для ввода команл, таких как:

Виды систем

На сегодняшний день существует два типа систем распознавания речи - работающие «на клиенте» (client-based) и по принципу «клиент-сервер» (client-server). При использовании клиент-серверной технологии речевая команда вводится на устройстве пользователя и через Интернет передается на удаленный сервер, где обрабатывается и возвращается на устройство в виде команды (Google Voice, Vlingo, пр.); ввиду большого количества пользователей сервера система распознавания получает большую базу для обучения. Первый вариант работает на иных математических алгоритмах и встречается редко (Speereo Software) - в этом случае команда вводится на устройстве пользователя и обрабатывается в нем же. Плюс обработки «на клиенте» в мобильности, независимости от наличия связи и работы удаленного оборудования. Так, система, работающая «на клиенте» кажется надежнее, но ограничивается, порой, мощностью устройства на стороне пользователя.

YaC 2013

Акустическая модель

Фонетический алфавит Яндекса

Вероятности

P.S.

Сегодня много кто решает повседневные задачи на ходу - с телефона. С его помощью можно проверить почту, отправить документы и фотографии, найти ближайший банкомат или построить автомобильный маршрут. Не для всех подобных задач удобно пользоваться клавиатурой, поэтому сейчас одно из самых актуальных направлений мобильной разработки - это управление голосом.

В основе голосового управления лежит технология распознавания речи. В ней задействованы достижения различных областей: от компьютерной лингвистики до цифровой обработки сигналов. На конференции YaC 2013 в начале октября Яндекс представил свою технологию распознавания речи, и сегодня мы хотели бы рассказать о том, как она работает.

Акустическая модель

Если сказать голосовому поиску «Лев Толстой», смартфон услышит не имя и фамилию, не два слова, а звуковой сигнал, в котором звуки плавно перетекают друг в друга, не имея чётких границ. Задача системы распознавания речи - восстановить по этому сигналу, что было сказано. Ситуацию осложняет то, что одна и та же фраза, произнесённая разными людьми в разной обстановке, будет давать совершенно непохожие друг на друга сигналы. Правильно интерпретировать их помогает система акустического моделирования.

Когда вы произносите голосовой запрос, например, в Яндекс.Навигаторе, смартфон записывает его и отправляет на сервер Яндекса. На сервере запись разделяется на много маленьких фрагментов (фреймов) длиной 25 миллисекунд, внахлёст, с шагом 10 миллисекунд. То есть из одной секунды вашей речи получается сто фреймов.

Дальше каждый из них пропускают через акустическую модель - функцию, которая определяет, какие звуки вы произнесли. На основе этих данных система, натренированная методами машинного обучения, определяет варианты слов, которые вы видите в результатах поиска. Мобильный Браузер в ответ на запрос «Лев Толстой» найдёт сайты о великом писателе, а Навигатор и Карты предложат улицу Льва Толстого.

Точность результатов напрямую зависит от того, насколько хорошо система определяет произнесённые звуки. Для этого достаточно точным и полным должен быть фонетический алфавит, с которым она работает.

Фонетический алфавит Яндекса

В русском языке, по разным теориям, около 40 фонем (звуковых единиц). Наша система распознавания речи сопоставляет входящий речевой сигнал с фонемами, а потом уже из них собирает слова. Например, слово «Яндекс» состоит из семи фонем - [й][а][н][д][э][к][с]. Фонемы могут обладать различной длительностью, и в разбивке по фреймам слово «Яндекс» может выглядеть, например, так - [й][й][а][а][а][а][а][а][ а][а][а][а][н][н][д][д][э ][к][с]. Произношение любой фонемы зависит от её соседей и позиции в слове. То есть звук [а] в начале, в середине и в конце слова - это три разных [а], а звук [а] между двумя гласными в сочетании «на аудиозаписи» отличается от [а] между согласными в слове «бак». Поэтому для хорошего распознавания фонема - слишком грубая единица.

Чтобы точнее смоделировать произношение фонемы, мы, во-первых, делим каждую фонему на три части: условные начало, середину и конец. Во-вторых, мы разработали свой фонетический алфавит, который учитывает позицию и контекст фонем. Брать в работу все возможные варианты контекстно-зависимых фонем было бы неблагоразумно, так как многие из них не встречаются в реальной жизни. Поэтому мы научили нашу программу рассматривать похожие звуки вместе. В результате мы получили набор из 4000 элементарных единиц - сенонов. Это и есть фонетический алфавит Яндекса, с которым работает наша технология распознавания речи.

Вероятности

В идеальном мире программа безошибочно определяет, какая фонема соответствует каждому фрагменту голосового запроса. Но даже человек иногда может не понять или не расслышать все звуки и достраивает слово исходя из контекста. И если человек опирается на собственный речевой опыт, то наша система оперирует вероятностями.

Во-первых, каждый фрагмент голосового запроса (фрейм) сопоставляется не с одной фонемой, а с несколькими, подходящими с разной степенью вероятности. Во-вторых, есть таблица вероятностей переходов, которая указывает, что после «а» с одной вероятностью будет тоже «а», с другой - «б» и так далее. Это позволяет определить варианты последовательности фонем, а потом, по имеющимся у программы данным о произношении, морфологии и семантике - варианты слов, которые вы могли сказать.

Программа также умеет восстанавливать слова по смыслу. Если вы находитесь в шумном месте, говорите не очень чётко или используете неоднозначные слова, она достроит ваш запрос исходя из контекста и статистики. Например, фразу «мама мыла…» программа с большей вероятностью продолжит как «мама мыла раму», а не как «мама мыла рану». Благодаря машинному обучению на множестве данных наша программа устойчива к шуму, хорошо распознаёт речь с акцентом, качество распознавания практически не зависит от пола и возраста говорящего.

Сейчас наша технология распознавания речи правильно определяет 94% слов в Навигаторе и мобильных Картах и 84% слов в мобильном Браузере. При этом на распознавание уходит около секунды. Это уже весьма достойный результат, и мы активно работаем над его улучшением. Мы верим, что через несколько лет голосовой интерфейс ввода не будет уступать классическим способам.

P.S. Кроме собственно технологии, мы представили на YaC 2013 публичное API для распознавания речи - SpeechKit. С его помощью разработчики могут добавить голосовой поиск Яндекса в свои приложения для Android и iOS. Скачать SpeechKit, а также ознакомиться с документацией, можно .

","contentType":"text/html"},"proposedBody":{"source":"

Сегодня много кто решает повседневные задачи на ходу - с телефона. С его помощью можно проверить почту, отправить документы и фотографии, найти ближайший банкомат или построить автомобильный маршрут. Не для всех подобных задач удобно пользоваться клавиатурой, поэтому сейчас одно из самых актуальных направлений мобильной разработки - это управление голосом.

В основе голосового управления лежит технология распознавания речи. В ней задействованы достижения различных областей: от компьютерной лингвистики до цифровой обработки сигналов. На конференции YaC 2013 в начале октября Яндекс представил свою технологию распознавания речи, и сегодня мы хотели бы рассказать о том, как она работает.

Акустическая модель

Если сказать голосовому поиску «Лев Толстой», смартфон услышит не имя и фамилию, не два слова, а звуковой сигнал, в котором звуки плавно перетекают друг в друга, не имея чётких границ. Задача системы распознавания речи - восстановить по этому сигналу, что было сказано. Ситуацию осложняет то, что одна и та же фраза, произнесённая разными людьми в разной обстановке, будет давать совершенно непохожие друг на друга сигналы. Правильно интерпретировать их помогает система акустического моделирования.

Когда вы произносите голосовой запрос, например, в Яндекс.Навигаторе, смартфон записывает его и отправляет на сервер Яндекса. На сервере запись разделяется на много маленьких фрагментов (фреймов) длиной 25 миллисекунд, внахлёст, с шагом 10 миллисекунд. То есть из одной секунды вашей речи получается сто фреймов.

Дальше каждый из них пропускают через акустическую модель - функцию, которая определяет, какие звуки вы произнесли. На основе этих данных система, натренированная методами машинного обучения, определяет варианты слов, которые вы видите в результатах поиска. Мобильный Браузер в ответ на запрос «Лев Толстой» найдёт сайты о великом писателе, а Навигатор и Карты предложат улицу Льва Толстого.

Точность результатов напрямую зависит от того, насколько хорошо система определяет произнесённые звуки. Для этого достаточно точным и полным должен быть фонетический алфавит, с которым она работает.

Фонетический алфавит Яндекса

В русском языке, по разным теориям, около 40 фонем (звуковых единиц). Наша система распознавания речи сопоставляет входящий речевой сигнал с фонемами, а потом уже из них собирает слова. Например, слово «Яндекс» состоит из семи фонем - [й][а][н][д][э][к][с]. Фонемы могут обладать различной длительностью, и в разбивке по фреймам слово «Яндекс» может выглядеть, например, так - [й][й][а][а][а][а][а][а][ а][а][а][а][н][н][д][д][э ][к][с]. Произношение любой фонемы зависит от её соседей и позиции в слове. То есть звук [а] в начале, в середине и в конце слова - это три разных [а], а звук [а] между двумя гласными в сочетании «на аудиозаписи» отличается от [а] между согласными в слове «бак». Поэтому для хорошего распознавания фонема - слишком грубая единица.

Чтобы точнее смоделировать произношение фонемы, мы, во-первых, делим каждую фонему на три части: условные начало, середину и конец. Во-вторых, мы разработали свой фонетический алфавит, который учитывает позицию и контекст фонем. Брать в работу все возможные варианты контекстно-зависимых фонем было бы неблагоразумно, так как многие из них не встречаются в реальной жизни. Поэтому мы научили нашу программу рассматривать похожие звуки вместе. В результате мы получили набор из 4000 элементарных единиц - сенонов. Это и есть фонетический алфавит Яндекса, с которым работает наша технология распознавания речи.

Вероятности

В идеальном мире программа безошибочно определяет, какая фонема соответствует каждому фрагменту голосового запроса. Но даже человек иногда может не понять или не расслышать все звуки и достраивает слово исходя из контекста. И если человек опирается на собственный речевой опыт, то наша система оперирует вероятностями.

Во-первых, каждый фрагмент голосового запроса (фрейм) сопоставляется не с одной фонемой, а с несколькими, подходящими с разной степенью вероятности. Во-вторых, есть таблица вероятностей переходов, которая указывает, что после «а» с одной вероятностью будет тоже «а», с другой - «б» и так далее. Это позволяет определить варианты последовательности фонем, а потом, по имеющимся у программы данным о произношении, морфологии и семантике - варианты слов, которые вы могли сказать.

Программа также умеет восстанавливать слова по смыслу. Если вы находитесь в шумном месте, говорите не очень чётко или используете неоднозначные слова, она достроит ваш запрос исходя из контекста и статистики. Например, фразу «мама мыла…» программа с большей вероятностью продолжит как «мама мыла раму», а не как «мама мыла рану». Благодаря машинному обучению на множестве данных наша программа устойчива к шуму, хорошо распознаёт речь с акцентом, качество распознавания практически не зависит от пола и возраста говорящего.

Сейчас наша технология распознавания речи правильно определяет 94% слов в Навигаторе и мобильных Картах и 84% слов в мобильном Браузере. При этом на распознавание уходит около секунды. Это уже весьма достойный результат, и мы активно работаем над его улучшением. Мы верим, что через несколько лет голосовой интерфейс ввода не будет уступать классическим способам.

P.S. Кроме собственно технологии, мы представили на YaC 2013 публичное API для распознавания речи - SpeechKit. С его помощью разработчики могут добавить голосовой поиск Яндекса в свои приложения для Android и iOS. Скачать SpeechKit, а также ознакомиться с документацией, можно .

Сегодня много кто решает повседневные задачи на ходу - с телефона. С его помощью можно проверить почту, отправить документы и фотографии, найти ближайший банкомат или построить автомобильный маршрут. Не для всех подобных задач удобно пользоваться клавиатурой, поэтому сейчас одно из самых актуальных направлений мобильной разработки - это управление голосом.

В основе голосового управления лежит технология распознавания речи. В ней задействованы достижения различных областей: от компьютерной лингвистики до цифровой обработки сигналов. На конференции YaC 2013 в начале октября Яндекс представил свою технологию распознавания речи, и сегодня мы хотели бы рассказать о том, как она работает.

Акустическая модель

Если сказать голосовому поиску «Лев Толстой», смартфон услышит не имя и фамилию, не два слова, а звуковой сигнал, в котором звуки плавно перетекают друг в друга, не имея чётких границ. Задача системы распознавания речи - восстановить по этому сигналу, что было сказано. Ситуацию осложняет то, что одна и та же фраза, произнесённая разными людьми в разной обстановке, будет давать совершенно непохожие друг на друга сигналы. Правильно интерпретировать их помогает система акустического моделирования.

Когда вы произносите голосовой запрос, например, в Яндекс.Навигаторе, смартфон записывает его и отправляет на сервер Яндекса. На сервере запись разделяется на много маленьких фрагментов (фреймов) длиной 25 миллисекунд, внахлёст, с шагом 10 миллисекунд. То есть из одной секунды вашей речи получается сто фреймов.

Дальше каждый из них пропускают через акустическую модель - функцию, которая определяет, какие звуки вы произнесли. На основе этих данных система, натренированная методами машинного обучения, определяет варианты слов, которые вы видите в результатах поиска. Мобильный Браузер в ответ на запрос «Лев Толстой» найдёт сайты о великом писателе, а Навигатор и Карты предложат улицу Льва Толстого.

Точность результатов напрямую зависит от того, насколько хорошо система определяет произнесённые звуки. Для этого достаточно точным и полным должен быть фонетический алфавит, с которым она работает.

Фонетический алфавит Яндекса

В русском языке, по разным теориям, около 40 фонем (звуковых единиц). Наша система распознавания речи сопоставляет входящий речевой сигнал с фонемами, а потом уже из них собирает слова. Например, слово «Яндекс» состоит из семи фонем - [й][а][н][д][э][к][с]. Фонемы могут обладать различной длительностью, и в разбивке по фреймам слово «Яндекс» может выглядеть, например, так - [й][й][а][а][а][а][а][а][ а][а][а][а][н][н][д][д][э ][к][с]. Произношение любой фонемы зависит от её соседей и позиции в слове. То есть звук [а] в начале, в середине и в конце слова - это три разных [а], а звук [а] между двумя гласными в сочетании «на аудиозаписи» отличается от [а] между согласными в слове «бак». Поэтому для хорошего распознавания фонема - слишком грубая единица.

Чтобы точнее смоделировать произношение фонемы, мы, во-первых, делим каждую фонему на три части: условные начало, середину и конец. Во-вторых, мы разработали свой фонетический алфавит, который учитывает позицию и контекст фонем. Брать в работу все возможные варианты контекстно-зависимых фонем было бы неблагоразумно, так как многие из них не встречаются в реальной жизни. Поэтому мы научили нашу программу рассматривать похожие звуки вместе. В результате мы получили набор из 4000 элементарных единиц - сенонов. Это и есть фонетический алфавит Яндекса, с которым работает наша технология распознавания речи.

Вероятности

В идеальном мире программа безошибочно определяет, какая фонема соответствует каждому фрагменту голосового запроса. Но даже человек иногда может не понять или не расслышать все звуки и достраивает слово исходя из контекста. И если человек опирается на собственный речевой опыт, то наша система оперирует вероятностями.

Во-первых, каждый фрагмент голосового запроса (фрейм) сопоставляется не с одной фонемой, а с несколькими, подходящими с разной степенью вероятности. Во-вторых, есть таблица вероятностей переходов, которая указывает, что после «а» с одной вероятностью будет тоже «а», с другой - «б» и так далее. Это позволяет определить варианты последовательности фонем, а потом, по имеющимся у программы данным о произношении, морфологии и семантике - варианты слов, которые вы могли сказать.

Программа также умеет восстанавливать слова по смыслу. Если вы находитесь в шумном месте, говорите не очень чётко или используете неоднозначные слова, она достроит ваш запрос исходя из контекста и статистики. Например, фразу «мама мыла…» программа с большей вероятностью продолжит как «мама мыла раму», а не как «мама мыла рану». Благодаря машинному обучению на множестве данных наша программа устойчива к шуму, хорошо распознаёт речь с акцентом, качество распознавания практически не зависит от пола и возраста говорящего.

Сейчас наша технология распознавания речи правильно определяет 94% слов в Навигаторе и мобильных Картах и 84% слов в мобильном Браузере. При этом на распознавание уходит около секунды. Это уже весьма достойный результат, и мы активно работаем над его улучшением. Мы верим, что через несколько лет голосовой интерфейс ввода не будет уступать классическим способам.

P.S. Кроме собственно технологии, мы представили на YaC 2013 публичное API для распознавания речи - SpeechKit. С его помощью разработчики могут добавить голосовой поиск Яндекса в свои приложения для Android и iOS. Скачать SpeechKit, а также ознакомиться с документацией, можно .

","contentType":"text/html"},"authorId":"5105614","slug":"72171","canEdit":false,"canComment":false,"isBanned":false,"canPublish":false,"viewType":"old","isDraft":false,"isSubscriber":false,"commentsCount":13,"modificationDate":"Fri Nov 22 2013 16:24:00 GMT+0000 (UTC)","showPreview":true,"approvedPreview":{"source":"Сегодня много кто решает повседневные задачи на ходу - с телефона. С его помощью можно проверить почту, отправить документы и фотографии, найти ближайший банкомат или построить автомобильный маршрут. Не для всех подобных задач удобно пользоваться клавиатурой, поэтому сейчас одно из самых актуальных направлений мобильной разработки - это управление голосом.","html":"Сегодня много кто решает повседневные задачи на ходу - с телефона. С его помощью можно проверить почту, отправить документы и фотографии, найти ближайший банкомат или построить автомобильный маршрут. Не для всех подобных задач удобно пользоваться клавиатурой, поэтому сейчас одно из самых актуальных направлений мобильной разработки - это управление голосом.","contentType":"text/html"},"proposedPreview":{"source":"Сегодня много кто решает повседневные задачи на ходу - с телефона. С его помощью можно проверить почту, отправить документы и фотографии, найти ближайший банкомат или построить автомобильный маршрут. Не для всех подобных задач удобно пользоваться клавиатурой, поэтому сейчас одно из самых актуальных направлений мобильной разработки - это управление голосом.","html":"Сегодня много кто решает повседневные задачи на ходу - с телефона. С его помощью можно проверить почту, отправить документы и фотографии, найти ближайший банкомат или построить автомобильный маршрут. Не для всех подобных задач удобно пользоваться клавиатурой, поэтому сейчас одно из самых актуальных направлений мобильной разработки - это управление голосом.","contentType":"text/html"},"titleImage":null,"tags":[{"displayName":"технологии Яндекса","slug":"tekhnologii-yandeksa","categoryId":"150002777","url":"/blog/company??tag=tekhnologii-yandeksa"},{"displayName":"как это работает?","slug":"kak-eto-rabotaet","categoryId":"150006149","url":"/blog/company??tag=kak-eto-rabotaet"}],"isModerator":false,"commentsEnabled":true,"url":"/blog/company/72171","urlTemplate":"/blog/company/%slug%","fullBlogUrl":"https://yandex.ru/blog/company","addCommentUrl":"/blog/createComment/company/72171","updateCommentUrl":"/blog/updateComment/company/72171","addCommentWithCaptcha":"/blog/createWithCaptcha/company/72171","changeCaptchaUrl":"/blog/api/captcha/new","putImageUrl":"/blog/image/put","urlBlog":"/blog/company","urlEditPost":"/blog/562886797eba6ef16f805641/edit","urlSlug":"/blog/post/generateSlug","urlPublishPost":"/blog/562886797eba6ef16f805641/publish","urlUnpublishPost":"/blog/562886797eba6ef16f805641/unpublish","urlRemovePost":"/blog/562886797eba6ef16f805641/removePost","urlDraft":"/blog/company/72171/draft","urlDraftTemplate":"/blog/company/%slug%/draft","urlRemoveDraft":"/blog/562886797eba6ef16f805641/removeDraft","urlTagSuggest":"/blog/api/suggest/company","urlAfterDelete":"/blog/company","isAuthor":false,"subscribeUrl":"/blog/api/subscribe/562886797eba6ef16f805641","unsubscribeUrl":"/blog/api/unsubscribe/562886797eba6ef16f805641","urlEditPostPage":"/blog/company/562886797eba6ef16f805641/edit","urlForTranslate":"/blog/post/translate","urlRelateIssue":"/blog/post/updateIssue","urlUpdateTranslate":"/blog/post/updateTranslate","urlLoadTranslate":"/blog/post/loadTranslate","urlTranslationStatus":"/blog/company/72171/translationInfo","urlRelatedArticles":"/blog/api/relatedArticles/company/72171","author":{"id":"5105614","uid":{"value":"5105614","lite":false,"hosted":false},"aliases":{"13":"kadaner"},"login":"minushuman","display_name":{"name":"Алексей","avatar":{"default":"21377/5105614-16014116","empty":false}},"address":"[email protected]","defaultAvatar":"21377/5105614-16014116","imageSrc":"https://avatars.mds.yandex.net/get-yapic/21377/5105614-16014116/islands-middle","isYandexStaff":true},"originalModificationDate":"2013-11-22T12:24:47.000Z","socialImage":{"orig":{"fullPath":"https://avatars.mds.yandex.net/get-yablogs/49865/file_1465551301378/orig"}}}}}">

Как это работает? Распознавание речи

Сегодня много кто решает повседневные задачи на ходу - с телефона. С его помощью можно проверить почту, отправить документы и фотографии, найти ближайший банкомат или построить автомобильный маршрут. Не для всех подобных задач удобно пользоваться клавиатурой, поэтому сейчас одно из самых актуальных направлений мобильной разработки - это управление голосом.

В основе голосового управления лежит технология распознавания речи. В ней задействованы достижения различных областей: от компьютерной лингвистики до цифровой обработки сигналов. На конференции в начале октября Яндекс представил свою технологию распознавания речи, и сегодня мы хотели бы рассказать о том, как она работает.

Акустическая модель

Если сказать голосовому поиску «Лев Толстой», смартфон услышит не имя и фамилию, не два слова, а звуковой сигнал, в котором звуки плавно перетекают друг в друга, не имея чётких границ. Задача системы распознавания речи - восстановить по этому сигналу, что было сказано. Ситуацию осложняет то, что одна и та же фраза, произнесённая разными людьми в разной обстановке, будет давать совершенно непохожие друг на друга сигналы. Правильно интерпретировать их помогает система акустического моделирования.

Когда вы произносите голосовой запрос, например, в Яндекс.Навигаторе, смартфон записывает его и отправляет на сервер Яндекса. На сервере запись разделяется на много маленьких фрагментов (фреймов) длиной 25 миллисекунд, внахлёст, с шагом 10 миллисекунд. То есть из одной секунды вашей речи получается сто фреймов.

Дальше каждый из них пропускают через акустическую модель - функцию, которая определяет, какие звуки вы произнесли. На основе этих данных система, натренированная методами машинного обучения, определяет варианты слов, которые вы видите в результатах поиска. Мобильный Браузер в ответ на запрос «Лев Толстой» найдёт сайты о великом писателе, а Навигатор и Карты предложат улицу Льва Толстого.

Точность результатов напрямую зависит от того, насколько хорошо система определяет произнесённые звуки. Для этого достаточно точным и полным должен быть фонетический алфавит, с которым она работает.

Фонетический алфавит Яндекса

В русском языке, по разным теориям, около 40 фонем (звуковых единиц). Наша система распознавания речи сопоставляет входящий речевой сигнал с фонемами, а потом уже из них собирает слова. Например, слово «Яндекс» состоит из семи фонем - [й][а][н][д][э][к][с]. Фонемы могут обладать различной длительностью, и в разбивке по фреймам слово «Яндекс» может выглядеть, например, так - [й][й][а][а][а][а][а][а][ а][а][а][а][н][н][д][д][э ][к][с]. Произношение любой фонемы зависит от её соседей и позиции в слове. То есть звук [а] в начале, в середине и в конце слова - это три разных [а], а звук [а] между двумя гласными в сочетании «на аудиозаписи» отличается от [а] между согласными в слове «бак». Поэтому для хорошего распознавания фонема - слишком грубая единица.

Чтобы точнее смоделировать произношение фонемы, мы, во-первых, делим каждую фонему на три части: условные начало, середину и конец. Во-вторых, мы разработали свой фонетический алфавит, который учитывает позицию и контекст фонем. Брать в работу все возможные варианты контекстно-зависимых фонем было бы неблагоразумно, так как многие из них не встречаются в реальной жизни. Поэтому мы научили нашу программу рассматривать похожие звуки вместе. В результате мы получили набор из 4000 элементарных единиц - сенонов. Это и есть фонетический алфавит Яндекса, с которым работает наша технология распознавания речи.

Вероятности

В идеальном мире программа безошибочно определяет, какая фонема соответствует каждому фрагменту голосового запроса. Но даже человек иногда может не понять или не расслышать все звуки и достраивает слово исходя из контекста. И если человек опирается на собственный речевой опыт, то наша система оперирует вероятностями.

Во-первых, каждый фрагмент голосового запроса (фрейм) сопоставляется не с одной фонемой, а с несколькими, подходящими с разной степенью вероятности. Во-вторых, есть таблица вероятностей переходов, которая указывает, что после «а» с одной вероятностью будет тоже «а», с другой - «б» и так далее. Это позволяет определить варианты последовательности фонем, а потом, по имеющимся у программы данным о произношении, морфологии и семантике - варианты слов, которые вы могли сказать.

Программа также умеет восстанавливать слова по смыслу. Если вы находитесь в шумном месте, говорите не очень чётко или используете неоднозначные слова, она достроит ваш запрос исходя из контекста и статистики. Например, фразу «мама мыла…» программа с большей вероятностью продолжит как «мама мыла раму», а не как «мама мыла рану». Благодаря машинному обучению на множестве данных наша программа устойчива к шуму, хорошо распознаёт речь с акцентом, качество распознавания практически не зависит от пола и возраста говорящего.

Сейчас наша технология распознавания речи правильно определяет 94% слов в Навигаторе и мобильных Картах и 84% слов в мобильном Браузере. При этом на распознавание уходит около секунды. Это уже весьма достойный результат, и мы активно работаем над его улучшением. Мы верим, что через несколько лет голосовой интерфейс ввода не будет уступать классическим способам.

P.S. Кроме собственно технологии, мы представили на YaC 2013 публичное API для распознавания речи - SpeechKit. С его помощью разработчики могут добавить голосовой поиск Яндекса в свои приложения для Android и iOS. Скачать SpeechKit, а также ознакомиться с документацией, можно .

Финансовые рынки обладают свойством создавать модели, которые нередко предвещают дальнейшее направление движения. Ценовые модели формируются из сочетаний последовательных пиков и впадин, при этом у каждой фигуры есть свой механизм образования и определенная графическая форма. Динамика объема сделок выступает подтверждающим фактором существования определенной модели. Все модели находят объяснение с точки зрения психологии участников рынка.
Графический метод является одним из основных приемов распознавания ценовых моделей. Отметим, что критерии определения той или иной фигуры расплывчаты, все сигналы воспринимаются субъективно, классические методы хаотичны, Б них не прослеживается строгой системы. Несмотря на недостатки, графические методы полезны для практического применения и служат основой для проведения серьезного технического анализа.
Распознавание графических моделей и их анализ - трудоемкое занятие, отнимающее много времени у трейдера. Даже самый опытный инвестиционный аналитик, имеющий в своем распоряжении лучшее программное обеспечение, может отслеживать от 50 до 75 ценных бумаг в день. Это слишком мало, если учитывать масштабы мировых фондовых рынков.
Не обладая полной информацией о ценовых моделях, технический аналитик будет продолжать упускать многочисленные торговые возможности. Инвесторам необходим быстрый, простой и своевременный доступ к информации о сформировавшихся графических моделях по большому количеству финансовых инструментов с целью повышения эффективности торговли. В последнее время все большее распространение получают
программы автоматического распознавания мартов - CPR (Chart Pattern Recognition).
Система Recognia. Мощную систему распознавания чарт-паттернов предоставляет в распоряжение трейдера канадская компания «Recognia Inc.». Разработанная технология позволяет проводить анализ нескольких рынков ценных бумаг. Специалист должен лишь задать параметры поиска (по финансовому инст-рументу, по определенной ценовой модели и др.)Программа «сканирует» графики и выявляет инструменты, с которыми проводить финансовые операции в данный момент рациональнее всего. Канадская компания «Recognia Inc.» обеспечивает он-лайновых брокеров, управляющих инвестиционными фондами и поставщиков финансовой информации сервисом, позволяющим автоматически выявлять события и паттерны, используя запатентованную технологию.
С помощью Recognia Service инвестор имеет возможность:
оценить перспективы по конкретному финансовому инструменту путем просмотра недавних событий технического анализа (technical events);
найти новые возможности для открытия позиций путем обзора ценных бумаг, для которых система Recognia обнаружила определенную ценовую фигуру;
определить, является ли выявленное событие значимым для него, изучив его характеристики и просмотрев график;
установить алерты по конкретным бумагам или торговым площадкам (предусмотреть формирование предупреждающих сигналов в случае обнаружения на графиках выбранных ценных бумаг);
узнать больше о техническом анализе из представленного учебного материала.
Можно выделить четыре этапа в работе Recognia Service (рис. 6.1).
1) данные по открыто торгуемым финансовым инструментам, включая акции, облигации, товары, валюту и индексы, автоматически поступают в Recognia после закрытия торгов. В настоящий момент Recognia анализирует более 20 ООО ценных бумаг каждый день, торгуемых на североамериканских биржах, и планирует включить сотни финансовых инструментов с других мировых площадок;
2) используя запатентованные алгоритмы распознавания паттернов и нейросетевые технологии, Recognia регулярно анализирует ценовые данные по этим финансовым инструментам, автоматически обнаруживая текущие и исторические ценовые модели на графиках. В разработке данной технологии участвовали эксперты в области технического анализа;
3) результаты проведенного анализа поступают клиентам компании, которые создают на своих сайтах соответствующие разделы;
4) инвесторы, брокеры и управляющие портфелями используют паттерны (модели) для обнаружения новых торговых возможностей и для подтверждения сигналов, полученных другими способами. Клиенты могут предоставлять информацию о выявленных ценовых паттернах бесплатно или организовывать платный сервис. Конечные пользователи формируют запрос на выявление паттернов по любым доступным параметрам (название бумаги, биржа, сектор, вид паттерна и др.)На сайте https://example.recognia.com/demo представлена демонстрационная версия Recognia On-Line Broker Product, которая обеспечивает доступ ко всем функциональным возможное - тям, но при ограниченном наборе финансовых инструментов и поступлении ценовой информации с задержками.
Recognia On-Line Broker Product обеспечивает инвесторов следующими инструментами:
Technical Event Stock Scrccner (рис. 6.2.) составляет список финансовых инструментов, которые отвечают введенным пользователем критериям. Инвестору необходимо задать параметры поиска, характеризующие искомое событие технического анализа: тип, дату, продолжительность, «медвежий» или «бычий» сигналы и т.д. Пользователь также может ввести и другие критерии поиска; биржу, отрасль, тип инструмента, объемы торгов и уровень цен. Например, необходимо найти акции нефтегазового сектора, которые недавно продемонстрировали ценовую модель разворота - «двойное дно». По таким бумагам ожидается движение цены вверх;
Technical Event Lookup. Данная функция позволяет получать список всех недавних событий технического анализа для конкретной бумаги или индекса. Все события для выбранной бумаги группируются на четыре различных класса:
а) классические паттерны (Classic Pattern) - традиционные графические модели, например, «двойная вершина» или «голова и плечи»;
б) краткосрочные паттерны (Short-term Pattern) или свечные модели;
в) индикаторы (Indicator) - события, основанные на скользящих средних;
г) осцилляторы (Oscillator), например, MACD или RSI.
Визуализация результатов распознавания. На рис. 6.3 представлен пример выявления Recognia графической модели. Инвестор получает следующую информацию: краткое описание события (паттерна), дату события и вероятный целевой диапазон иены. График включает линии, которые образуют паттерн, иконку, указывающую на дату события, а также линии тренда.
Q Recognta Inc. ZOOd
Chart Pattem Recognition for MetaStock (CPR) - дополнительная программа-эксперт для MetaStock, которая позволяет автоматически распознавать шесть классических трендовых моделей разворота («голова и плечи» на вершине и в основании, Лтройная вершина», «тройное основание», «двойная вершина» и «Двойное основание») и три трендовые модели продолжения
(«симметричный треугольник», «восходящий треугольник» и «нисходящий треугольник»). Эти графические модели являются наиболее надежными.
Когда программа выявляет паттерн, блок Expert Commentary, отвечающий за выдачу рекомендаций трейдеру при обнаружений паттернов на графике, информирует, где лучше разместить защитные стоп-приказы и какова ожидаемая цена актива. Программа отмечает выявленную неновую модель на графике, гене-рирует сигналы для входа и выхода из позиции. CPR позволяет быстро сканировать множество графиков в поисках ценовых паттернов.
1. Распознавание модели «голова и плечи». Основные правила для данной модели:
1) предшествующий восходящий тренд: три и более последовательных пика;
2) левое плечо следует после коррекционного снижения;
3) подъем до нового уровня выше левого плеча;
4) снижение иены до уровня предыдущего минимума;
5) третий подъем не достигает верхней точки средней вершины;
6) закрытие ниже линии шеи.
Как только цена опускается ниже уровня «шеи», программа CPR выдает сигнал на вход в короткую позицию на открытии следующей торговой сессии. Минимальная целевая цена определяется путем откладывания вниз от точки прорыва линии «шеи» расстояния от верхней точки «головы» до уровня следующей впадины. Максимальная целевая цена - минимальная цена первого бара предшествующего модели восходящего тренда. Информация о целевых ценах отражается в Expert Commentary.
Если минимальная целевая цена не достигается в течение определенного периода времени или цена поднимается выше линии «шеи», то модель отменяется. Максимальный временной период для достижения минимальной целевой цены эквивалентен расстоянию от левого «плеча» до правого.
2. Распознавание модели «тройная вершина». Основные правила для данной модели:
Лпредшествующий восходящий тренд: три и более последовательных пика;


4) снижение цены до уровня предыдущего минимума;
5) третий подъем достигает уровня предыдущих двух вершин;
6) закрытие ниже линии поддержки.
Как только цена опускается ниже уровня поддержки, СРЯ выдает сигнал на вход в короткую позицию на открытии следующей торговой сессии. Минимальная целевая цена определяется путем откладывания средней высоты трех вершин до линии поддержки вниз от точки прорыва. Максимальная целевая цена - минимальная цена первого бара предшествующего модели восходящего тренда.

3. Распознавание модели «двойная вершина». Основные правила для данной модели:

2) левая вершина следует после коррекционного снижения;
3) новый подъем до уровня левой вершины;
4) закрытие ниже уровня предыдущей впадины.
Как только цена опускается ниже уровня поддержки, СРЯ выдает сигнал на вход в короткую позицию на открытии следующей торговой сессии. Минимальная целевая цена определяется путем откладывания высоты первой вершины до линии поддержки вниз от точки прорыва. Максимальная целевая цена - минимальная цена первого бара предшествующего модели восходящего тренда.
Если минимальная целевая цена не достигается в течение определенного периода времени или цена поднимается выше линии поддержки, то модель отменяется. Максимальный временной период для достижения минимальной целевой цены эквивалентен расстоянию от левой вершины до правой.
4. Распознавание модели «восходящий треугольник». Основные правила для данной модели:
1) предшествующий восходящий тренд: два и более последовательных пика;
2) левая вершина следует после коррекционного снижения;
3) новый подъем до уровня левой вершины;
4) коррекция формирует вторую впадину выше предыдущей;
5) подъем выше предыдущего пика - точка прорыва.
Линии тренда, проведенные вдоль пиков и впадин треугольника, сходятся. Пройдя по горизонтали 2/3 или 3/4 длины треугольника, цена обычно прорывает его в направлении предшествующей тенденции. Если прорыва не происходит до преодоления расстояния в 75% от длины треугольника, то модель отменяется.
Как только цена поднимается выше уровня сопротивления, СРЯ выдает сигнал на покупку при открытии следующей торговой сессии. Минимальный временной период для достижения целевой цены эквивалентен расстоянию от первой вершины/ впадины до второй вершины/впадины. Целевая цена определяется путем откладывания вверх от точки прорыва полдлины основания треугольника.
5. Распознавание модели «нисходящий треугольник». Основные правила для данной модели:
лпредшествующий нисходящий тренд: две и более последовательные впадины;
2) левая впадина следует после коррекционного подъема;
3) новое снижение до уровня левой впадины;
4) подъем формирует вторую вершину ниже предыдущей;
5) падение ниже уровня предыдущей впадины - точка прорыва.
Как только цепа опускается ниже уровня поддержки, СРЯ выдает сигнал на вход в короткую позицию на открытии следующей торговой сессии (рис. 6.4). Если прорыва не происходит до преодоления расстояния в 75% от длины треугольника, то модель отменяется. Минимальный временной период для достижения целевой цены эквивалентен расстоянию от первой вершины/впадины до второй вершины/впадины. Целевая цена определяется путем откладывания вниз от точки прорыва полдлины основания треугольника.
6. Распознавание модели «симметричный треугольник». Основные правила для данной модели:
1) предшествующий восходящий или нисходящий тренд: два и более последовательных пика;
2) левая вершина (впадина) следует после коррекционного снижения (подъема);
3) подъем (снижение) ниже (выше) уровня предыдущей вершины (впадины);
4) снижение (подъем) формирует вторую впадину (вершину) выше (ниже) предыдущей;
5) прорыв линии тренда.
Как только цена поднимается выше уровня сопротивления, CPR выдает сигнал на покупку на открытии следующей торговой сессии. Если цена опускается ниже уровня поддержки, CPR выдает сигнал на вход в короткую позицию на открытии следующей торговой сессии. Если прорыва не происходит до преодоления расстояния в 75% от длины треугольника, то модель отменяется. Минимальный временной период для достижения Целевой цены эквивалентен расстоянию от первой вершины/ впадины до второй вершины/впадины. Целевая цена определяется путем откладывания от точки прорыва поддлины основания треугольника.
В CPR имеются средства анализа и классификации данных в виде дополнительного программного обеспечения к пакету Excel: AnalyzerXL, DownioaderXL, RTQuotesXL, PredictorXL, BulkQuotesXL, ClassifierXL, PortfolioXL, OptionsXL, их возможности представлены в табл. 6.1.
В самое последнее время появились новые программные системы распознавания чарт-паттернов, такие как: Pattem z - Pattem Recognition Software (http: // www.thepattemsite.com); Ramp-chart Pattern Recognition Scanner (http; // www.newadawn.com); Omni trader chart pattern Recognition Module 2 (http: // www.onmitrader.com); IBFX - PRS - Pattern Recognition System (http: // www.ibfx.com)

В представленной работе преимущественно разбирались по частям компании с Северной Америки и Европы. Рынок Азии представлен в исследовании слабо. Но все эти детали пожалуй оставим пока у себя. Однако очень интересно описаны тренды и текущая характеристика отрасли, что само по себе очень интересно - тем более ее можно изложить в различных вариациях не теряя общей сути. Не будем томить - пожалуй начнем описывать самые интересные моменты, куда движется все-таки отрасль распознавания речи и что нас ждет в ближайшем будущем (2012 - 2016 гг.) - как уверяют исследователи.

Введение

Системы распознавания голоса – это вычислительные системы, которые могут определять речь говорящего из общего потока. Эта технология связана с технологией распознавания речи, которая преобразует произнесенные слова в цифровые текстовые сигналы, путем проведения процесса распознавания речи машинами. Обе эти технологии используются параллельно: с одной стороны для идентификации голоса конкретного пользователя с другой стороны для идентификация голосовых команд посредством распознавания речи. Распознавание голоса используется в биометрических целях безопасности, чтобы определить голос конкретного человека. Эта технология стала очень популярной в мобильном банкинге, который требует идентификации подлинности пользователей, а также для других голосовых команд, чтобы помочь им совершать сделки.

Мировой рынок распознавания речи является одним из самых быстрорастущих рынков в голосовой индустрии. Большая часть роста на рынке приходит из Америки, а затем из Европы, Ближнего Востока и Африки (EMEA) и Азиатско-Тихоокеанского региона (АТР). Большая часть роста на рынке происходит от здравоохранения, финансовых услуг, и государственного сектора. Однако в других сегментах, таких как телекоммуникации и транспорт ожидается значительное увеличение роста в ближайшие несколько лет. Прогноз рынка, дальнейшее увеличение со среднегодовым темпом роста в 22,07 процента в период 2012-2016 гг. (показатели динамики роста текущих компаний).

Драйверы роста рынка

Рост мирового рынка распознавания голоса зависит от множества факторов. Одним из основных факторов является увеличение спроса на услуги голосовой биометрии. С увеличением сложности и частоты нарушений безопасности, безопасность продолжает оставаться одним из основных требований для предприятий, а также государственных организаций. Высокий спрос голосовой биометрии, которая является уникальной для любого человека, имеет решающее значение в установлении личности человека. Другим ключевым фактором для рынка является более широкое использование идентификации диктора для судебно-медицинских целей.

Некоторые из основных факторов мирового рынка распознавания речи:
Увеличение спроса на услуги голосовой биометрии
Более широкое использование идентификации диктора для судебно-медицинских целей
Спрос на распознавания речи в военных целях
Высокий спрос для распознавания голоса в сфере здравоохранения

Изначально, слово «биометрия» встречалось только в медицинской теории. Тем не менее, стали возрастать потребности в безопасности с использованием биометрических технологий среди предприятий и государственных учреждений. Использование биометрических технологий – один из ключевых факторов на мировом рынке распознавания речи. Распознавание голоса используется проверки подлинности человека, так как голос каждого человека индивидуален. Это обеспечит высокий уровень точности и безопасности. Распознавание голоса имеет большое значение в финансовых институтах, таких как банк, а так же на предприятиях в сфере здравоохранения. В настоящее время сегмент распознавания речи составляет 3,5% от доли технологий биометрии на мировом рынке, но это доля имеет постоянный рост. Также низкая стоимость биометрических устройств увеличивает спрос со стороны малого и среднего бизнеса.

Более широкое использование идентификации диктора для судебно-медицинских целей

Использование технологии идентификации диктора для судебно-медицинских целей является одной из главных движущих сил на мировом рынке распознавания голоса. Происходит сложный процесс определения, соответствует ли голос лица, подозреваемого в совершении преступления, голосу из судебно-медицинских образцов. Данная технология позволяет правоохранительным органам выявлять преступников по одной из самых уникальных характеристик человека, его голосу, тем самым предлагая относительно высокий уровень точности. Судебно-медицинские эксперты проводят анализ соответствия голоса подозреваемого образцам до тех пор, пока не будет найден преступник. В последнее время эта технология используется, чтобы помочь решать некоторые уголовные дела.

Спрос на распознавание речи в военных целях

Военные ведомства в большинстве стран используют крайне ограниченные зоны для того, чтобы предотвратить проникновение злоумышленников. Для обеспечения секретности и безопасности в этой зоне, военные используют системы распознавания голоса. Эти системы помогают военным учреждениям выявлять наличие несанкционированных проникновений в защищенную зону. Система содержит базу данных голосов военнослужащих и государственных чиновников, которые имеют допуск к защищенной территории. Эти люди идентифицируются системой распознавания голоса, тем самым предотвращается допуск людей, чьих голосов нет в базе данных системы. В дополнение можно сказать, что ВВС США используют голосовые команды для управления самолетом. Кроме того, военные ведомства используют распознавание речи и систему Voice-to-text для коммуникации с гражданами в других странах. Например, американские военные активно используют системы распознавания речи в их операциях в Ираке и Афганистане. Таким образом, существует высокий спрос на распознавание речи и голоса для военных целей.

Биометрические технологии, такие как сосудистое распознавание, распознавание голоса и сканирование сетчатки глаза широко внедряются в сферу здравоохранения. Распознавание голоса, как ожидается, станет одним из основных режимов идентификации в медицинских учреждениях. Многие компании здравоохранения в США, обращаясь к стандартам Health Insurance Portability and Accountability Act (HIPAA), также применяют биометрические технологии, такие как распознавание голоса, распознавание отпечатков пальцев для более безопасной и эффективной регистрации пациента, накопления информации пациента, защиты медицинских записей пациента. Также учреждения клинических испытаний внедряют распознавания голоса для выявления лиц, набранных для клинических испытаний. Таким образом, голосовая биометрия является одним из основных режимов для идентификации клиента в сфере здравоохранения в Азиатско-Тихоокеанском регионе.

Требования рынка



Влияние основных четырёх трендов и проблем на мировой рынок распознавания показано на рисунке

Ключ
Влияние проблем и трендов оценивается на основе интенсивности и длительности их воздействия на текущий рынок. Классификация величины воздействия:
Низкий – незначительное или нулевое влияние на рынок
Средний – средний уровень влияния на рынок
Умеренно высокий– значительное влияние на рынок
Высокий – очень сильное воздействие с радикальным влиянием на рост рынка

Несмотря на рост трендов мировой рынок распознавания голоса продолжает сталкиваться с некоторыми серьезными тормозами роста. Одна из важных проблем – трудность подавления окружающего шума. Хотя рынок распознавания речи стал свидетелем нескольких технологических достижений, неспособность подавлять окружающий шум все еще остается препятствием на пути к признанию приложений распознавания голоса. Еще одной проблемой для этого рынка является высокая стоимость приложений распознавания голоса.

Некоторые из основных задач, стоящих перед мировым рынком распознавания голоса:
Невозможность подавления внешних шумов
Высокая стоимость приложения распознавание голоса
Проблемы с точностью распознавания
Низкий уровень безопасности в верификации диктора

Невозможность подавления внешних шумов

Несмотря на технический прогресс в сфере распознавания голоса, шумы продолжает оставаться одной из основных проблем на мировом рынке распознавания голоса. Кроме того, голосовая биометрия отличается особенной чувствительностью по сравнению с другими видами биометрии. Приложения распознавания голоса, голосовой биометрии и распознавания речи оказываются очень чувствительными к шуму окружающей среды. В результате, любое шумовое нарушение препятствует точности распознавания. Также нарушается автоматизированный ответ на голосовую команду. Неспособность подавить окружающий шум является единственным фактором, который не дает системам распознавания голоса достичь высоких результатов и занять высокий процент доли на мировом рынке биометрических технологий.

Высокая стоимость приложений распознавания голоса

Одной из основных проблем, препятствующих развитию технологий распознавания речи, является потребность в больших инвестиционных вложениях, требуемых для разработки и реализации. Крупномасштабное развертывание технологии распознавания голоса на предприятии является трудоемким процессом и требует огромных инвестиций. Экономия на бюджете приводит к ограничению тестирования технологии, следовательно, любой сбой может привести к большим потерям на предприятии. Поэтому альтернативные распознаванию голоса варианты, такие как swipe card и keypad по-прежнему активно используются во многих компаниях, особенно среди малого и среднего бизнеса, в силу их экономической эффективности. Таким образом, приложения распознавания голоса требуют больших материальных вложений, включая стоимость интеграционной системы, дополнительного оборудования и другие затраты.

Проблемы с точностью распознавания

На мировом рынке распознавания голоса единой проблемой является невысокие показатели точности распознавания, не смотря на то, что в настоящее время системы распознавания голоса способны распознавать различные языки и определять подлинность голоса. Так как система включает в себя сложный процесс согласования баз данных с произносимыми командами и интегрированной технологией распознавания речи и голосовой верификации, даже незначительная ошибка в любой часть процесса может привести к неверному результату. Погрешность в распознавании речи является одним из основных ограничений в приложениях распознавания голоса. Однако некоторые производители начали разработку систем с очень низким уровнем погрешности в распознавании голоса. Они разработали системы с менее чем 4% неточных результатов (например, измерения голосовой биометрии неверно идентифицируют и отвергают голос человека, у которого есть доступ).

Низкий уровень безопасности в верификации диктора

Высокий уровень неточности в верификации диктора приводит к низкому уровню безопасности. В настоящее время системы распознавания голоса имеют высокий процент неточного результата. Чем выше скорость принятия неправильных решений, тем выше вероятность того, что, например, разрешение на въезд получит посторонний человек. Поскольку системы распознавания голоса очень чувствительны, они улавливают все, включая проблемы с горлом, кашель, простуду, изменение голоса в связи с болезнью, то существует высокая вероятность того, что посторонний человек сможет получить доступ к закрытой территории, причиной этому является низкий уровень безопасности в распознавании человека на основе голоса.

Тенденции рынка

Эффект от проблем стоящих перед рынком, как ожидается, должен свести на нет наличие различных тенденций, которые появляются на рынке. Одной из таких тенденция является увеличение спроса на распознавание речи на мобильных устройствах. Осознавая огромный потенциал мобильных устройств, производители на мировом рынке распознавания голоса развивают инновационные приложения, специфичные для работы на мобильных устройствах. Это один из будущих движущих факторов. Возрастающий спрос на голосовую аутентификацию мобильного банкинга является еще одной позитивной тенденцией на рынке распознавания голоса.

Некоторые из основных тенденций на мировом рынке распознавания голоса:
Увеличение спроса на распознавание речи на мобильных устройствах
Рост спроса на услуги голосовой аутентификации для мобильного банкинга
Интеграция голосовой верификации и распознавания речи
Увеличение слияний и поглощений

Увеличение спроса на распознавание речи на мобильных устройствах

Растущее число правил дорожного движения, запрещающих использование мобильных устройств во время вождения автомобиля, увеличило спрос на приложения распознавания речи. Страны, в которых были наложены строгие ограничения: Австралия, Филиппины, США, Великобритания, Индия и Чили. В США более чем в 13 штатах, не смотря на введение Положение об использовании мобильных устройств, разрешено использовать громкую связь во время вождения. Следовательно, покупатели все чаще выбирают мобильные устройства, оснащенные приложениями распознавания речи, которые смогут помочь им получить доступ к устройству без необходимости отвлекаться на само устройство. В целях удовлетворения растущего спроса на приложения распознавания речи в мобильных устройствах, производители увеличили количество научно-исследовательских и опытно-конструкторских работ для того, чтобы развить речевые команды опций для мобильного устройства. В результате, большое количество приложений распознавания речи были включены в мобильное устройство, например, управление музыкальным плей листом, считывание адреса, считывание имени абонента, голосовые СМС сообщения и т.д.

Необходимость в усилении проверки приводит к всеобщей интеграции голосовой аутентификации в мобильном банкинге. В таких регионах, как Северная Америка и Западная Европа, большое количество банковских клиентов используют средства банковского обслуживания по телефону. Большое количество таких финансовых институтов принимают голосовые решения аутентификации от пользователя о принятии или отклонении мобильных транзакций. Кроме того, включение голосовой аутентификации в мобильных устройствах является экономически эффективным и в то же время обеспечивает более высокий уровень безопасности. Таким образом, тенденция к интеграции голосовой аутентификации для мобильного банкинга будет расти дальше на протяжении многих лет. Действительно, банковские учреждения использующие телефоны сотрудничают с поставщиками решений голосовой аутентификации и инкорпорациями голосовой биометрии, что является ключевым конкурентным преимуществом.

Некоторые производители работают в направлении интеграции голосовой верификации и технологии распознавания речи. Вместо того, чтобы предлагать голосовую верификацию в виде отдельного продукта, производители предлагают интегрировать функционал верификации голоса и распознавания речи. Голосовая верификация помогает определить, кто говорит, и одновременно, который человек говорит. Большинство производителей начали или в процессе запуска приложений распознавания речи, которые связаны с интеграцией описанных выше двух технологий.

Увеличение слияний и поглощений

На мировом рынке распознавания голоса наблюдаются серьезные тенденции слияния и поглощения. Доминирующий лидер рынка Nuance Communications Inc ., который держит более чем 50% доли на рынке, приобрел большое количество маленьких компаний на рынке распознавания речи. Из этого следует, что приобретение – это новый подход к росту компании, в результате чего у Nuance шесть приобретений в 2007 году. Эта тенденция, как ожидается, сохранится и в ближайшие несколько лет в связи с наличием многочисленных мелких игроков, которые могут быть приобретены более крупными компаниями как Nuance . Поскольку рынок является технологически ориентированным, то небольшие компании разрабатывают инновационные решения. Но из-за нехватки ресурсов эти компании не в состоянии увеличить масштабы своего бизнеса. Таким образом, крупные компании, такие как Nuance , используют процесс поглощения в качестве основной стратегии для выхода на новые рынки и отрасли. Например, Nuance приобрела Loquendo Inc . Для того, чтобы войти в регион EMEA.

Заключение

Есть 2 ветки развития систем распознавания речи (объем рынка с $1.09 по $2.42 миллиарда с 2012 по 2016 гг., темп роста +22.07%)
Преобразование речи в текст (объем рынка с $860млн. (2012г.) до $1727млн. (2016г.) - общая доля 79%-71% с 2012 по 2016 гг.)
Верификация и идентификация голоса человека (объем рынка с $229млн. (2012г.) до $697млн. - общая доля 21%-28,8% с 2012 по 2016 гг.)

В конкурентной борьбе будут более активно развиваться компании, которые существуют на грани эти двух направлений - с одной стороны улучшая точность программ распознавания речи и перевода его в текста, с другой стороны решая эту задачу посредставом идентификации диктора и верификации его речи, используя дополнительный канал (например видео) в качестве источника информации.

Согласно исследованию Technavio - основная проблема существующих программ распознавания речи - это их подверженность в подавлении окружающего шума;
- Основная тенденция - распространение речевых технологий за счет увеличения количества и качества мобильных устройств и развития решений мобильного банкинга;
- Большую погоду в развитии технологий распознавания речи на данный момент играет государственные организации, военная сфера, медицина и финансовый сектор. Однако наметился большой спрос на такого рода технологии в виде мобильных приложений и задач голосовой навигации, а также биометрии;
- Основной рынок систем распознавания речи находится в США, однако самая быстрая и платежеспособная аудитория проживает в странах юго-восточной Азии, особенно в Японии (за счет полной голосовой автоматизации работы call-центров). Предполагается, что именно в данном регионе должен появиться сильный игрок, который станет серьезным подспорьем для мирового могущества Nuance Communications (текущая доля общемирового рынка - 70%);
- Наиболее распространенная политика на рынке систем распознавания речи - это слияния и поглощения (M&A) - компании -лидеры рынка часто скупают небольшие технологические лаборатории или фирмы по всему миру, чтобы сохранить гегемонию.
- Стоимость приложений стремительно падает, точность растет, фильтрация посторонних шумов улучшается, безопасность возрастает - предполагаемая дата реализации сверхточной технологии распознавания речи - 2014 гг.

Таким образом, по прогнозам Technavio в период 2012-2016 гг. ожидается увеличение рынка систем распознавания речи более чем в 2,5 раза. Большую долю на одном из самых динамичных и быстрых рынков IT технологии получат игроки, которые смогут в своем продукте решить 2 задачи одновременно: научиться качественно распознавать речь и переводить ее в текст, а также хорошо уметь идентифицировать голос диктора, верифицировать его из общего потока. Большим преимуществом в конкурентной борьбе можно назвать демпинг (искусственное снижение стоимости подобных технологий), создание программ с дружелюбным интерфейсом и быстрым процессом адаптации - при высоком качестве работы. Предполагается, что в течение ближайших 5 лет - появятся новые игроки на рынке, которые могут поставить под сомнение менее поворотливых крупных корпораций типа Nuance Communications распознавание речи

  • исследование рынка
  • прогноз развития
  • nuance
  • Добавить метки

    Белоусова О. С., Панова Л.

    Омский Государственный Технический Университет

    РАСПОЗНАВАНИЕ РЕЧИ

    В настоящее время речевое распознавание находит все новые и новые области применения, начиная от приложений, осуществляющих преобразование речевой информации в текст и заканчивая бортовыми устройствами управления автомобилем.

    Выделяют несколько основных способов распознавания речи:

    1. Распознавание отдельных команд – раздельное произнесение и последующее распознавание слова или словосочетания из небольшого заранее заданного словаря. Точность распознавания ограничена объемом заданного словаря

    2. Распознавание по грамматике – распознавание фраз, соответствующих определенным правилам. Для задания грамматик используются стандартные XML-языки, обмен данными между системой распознавания и приложением осуществляется по протоколу MRCP.

    3. Поиск ключевых слов в потоке слитной речи – распознавание отдельных участков речи. Речь может быть как спонтанной, так и соответствующей определённым правилам. Произнесенная речь не полностью преобразуется в текст - в ней автоматически находятся те участки, которые содержат заданные слова или словосочетания.

    4. Распознавание слитной речи на большом словаре – все, что сказано, дословно преобразуется в текст. Достоверность распознавания достаточно высока.

    5. Распознавание речи с помощью нейронных систем. На базе нейронных сетей можно создавать обучаемые и самообучающиеся системы, что является важной предпосылкой для их применения в системах распознавания (и синтеза) речи.

    а) Представление речи в виде набора числовых параметров. После выделения информативных признаков речевого сигнала можно представить эти признаки в виде некоторого набора числовых параметров (т.е. в виде вектора в некотором числовом пространстве). Далее задача распознавания примитивов речи сводится к их классификации при помощи обучаемой нейронной сети.

    б) Нейронные ансамбли. Вкачестве модели нейронной сети, пригодной для распознавания речи и обучаемой без учителя можно выбрать самоорганизующуюся карту признаков Кохонена. В ней для множества входных сигналов формируется нейронные ансамбли, представляющие эти сигналы. Этот алгоритм обладает способностью к статистическому усреднению, что позволяет решить проблему изменчивости речи.

    в) Генетические алгоритмы. При использовании генетических алгоритмов создаются правила отбора, позволяющие определить, лучше или хуже справляется новая нейронная сеть с решением задачи. Кроме того, определяются правила модификации нейронной сети. Изменяя достаточно долго архитектуру нейронной сети и отбирая те архитектуры, которые позволяют решить задачу наилучшим образом, рано или поздно можно получить верное решение задачи.

    Общий алгоритм распознавания связной речи

    Исходный сигнал

    Начальная фильтрация и усиление полезного сигнала

    Выделение отдельных слов

    Распознавание слова

    Распознавание речи

    Реакция на распознанный сигнал

    Всё многообразие систем распознавания речи условно можно разделить на несколько групп.

    1. Программные ядра для аппаратных реализаций. TTS engine – синтез речи по тексту, и ASR engine – для распознавания речи.

    2. Наборы библиотек для разработки приложений. Существует два стандарта для интеграции речевых технологий: VoiceXML – для разработки интерактивных голосовых приложений управления медиаресурсами, и SALT – поддерживает многомодальные приложения, сочетающие распознавание речи с другими формами ввода информации.

    3. Независимые пользовательские приложения. Dragon NaturallySpeaking Preferred – распознает слитную речь; безошибочность распознавания – 95%. «Диктограф» – с функцией ввода текста в любой редактор, точностью распознавания – 30-50%.

    4. Специализированные приложения. Компания «Центр Речевых Технологий» разрабатывает и производит программы для МВД, ФСБ, МЧС: «ИКАР Лаб», «Трал», «Территория». Германский институт DFKI разработал – Verbmobil, программу способную переводить разговорную речь с немецкого на английский или японский и обратно, непосредственно произнесенную в микрофон. Точность – 90%.

    5. Устройства, выполняющие распознавание на аппаратном уровне. Компания Sensory Inc разработала интегральную схему Voice Direct™ 364 – осуществляет дикторозависимое распознавание небольшого числа команд (около 60) после предварительного обучения. Корпорация Primestar Technology Corporation разработала чип VP-2025 – осуществляет распознавание с помощью нейросетевого метода.

    Методы распознавания речи.

    1. Метод скрытых марковских моделей. Базируется на следующих предположениях: речь может быть разбита на сегменты, внутри которых речевой сигнал может рассматриваться как стационарный, переход между этими состояниями осуществляется мгновенно; вероятность символа наблюдения, порождаемого моделью, зависит только от текущего состояния модели и не зависит от предыдущих.

    2. Метод скользящего окна. Суть: определение вхождения ключевого слова с помощью алгоритма Витерби. Так как ключевое слово может начинаться и заканчиваться в любом месте сигнала, то этот метод перебирает все возможные пары начала и конца вхождения ключевого слова и находит самый вероятный путь для ключевого слова и этого отрезка, как если бы ключевое слово присутствовало в нем. Для каждого найденного вероятного пути ключевого слова применяется функция правдоподобия, основанная на срабатывании, если значение пути, рассчитанное в соответствии с применяемым методом оценки пути, больше предопределенного значения. Недостатки: большая вычислительная сложность; команды могут включать слова, которые плохо распознаются с помощью алгоритма распознавания ключевого слова.

    3. Метод моделей заполнителей. Для алгоритмов распознавания ключевого слова слово для распознавания представляется встроенным в инородную речь. На этом основании методы моделей заполнителей обрабатывают эту инородную речь с помощью явного моделирования инородной речи за счет второстепенных моделей. Для этого в словарь системы распознавания добавляются «обобщенные» слова. Роль этих слов в том, чтобы любой сегмент сигнала незнакомого слова или неречевого акустического события был распознан системой как одно слово или цепочка из обобщенных слов. Для каждого обобщенного слова создается и обучается акустическая модель на корпусе данных с соответствующими размеченными сегментами сигнала. На выходе из декодера выдается цепочка, состоящая из слов словаря (ключевых слов) и обобщенных слов. Обобщенные слова затем отбрасываются, и оставшаяся часть цепочки считается результатом распознавания. Недостатки: ключевые слова могут быть распознаны как обобщенные; сложность оптимального выбора алфавита обобщенных слов.

    Библиографический список

    1. Методы автоматического распознавания речи: В 2-х книгах. Пер. с англ./Под ред. У. Ли. – М.: Мир, 1983. – Кн. 1. 328 с., ил.

    2. Винцюк Т. К. Анализ, распознавание и интерпретация речевых сигналов. Киев: Наукова Думка, 1987.

    3. Винцюк Т.К. Сравнение ИКДП- и НММ - методов распознавания речи // Методы и средства информ. речи. Киев, 1991.

    4. http://www.mstechnology.ru

    5. http://www.comptek.ru



    Понравилась статья? Поделитесь с друзьями!