Главная
страница 1страница 2страница 3страница 4

Министерство образования и науки Российской Федерации


Государственное образовательное учреждение высшего профессионального образования

МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ИНСТИТУТ ЭЛЕКТРОНИКИ И МАТЕМАТИКИ НАЦИОНАЛЬНОГО ИССЛЕДОВАТЕЛЬСКОГО УНИВЕРСИТЕТА

«ВЫСШАЯ ШКОЛА ЭКОНОМИКИ»




Факультет информационных технологий и вычислительной техники


Кафедра информационные технологии и автоматизированные системы

МАГИСТЕРСКАЯ ДИССЕРТАЦИЯ

на тему

Разработка и программная реализация модульной интегрируемой системы предоставления средств голосового интерфейса для разработки программного обеспечения






Выполнил студен группы АПМ-121

Ильский А.А.

Научный руководитель:

доцент, канд.техн.наук Клышинский Э.С.



Консультант:

доцент, канд.техн.наук. Клышинский Э.С.

Москва 2013

ОГЛАВЛЕНИЕ

АННОТАЦИЯ 4

ВВЕДЕНИЕ 6

ГЛАВА 1. Голосовой интерфейс и технологии распознавания речи в разработке программного обеспечения 11

1.1. Интерфейсы - основа реализации взаимодействия всех современных информационных систем 11

1.2. Голосовые интерфейсы, компоненты, виды и задачи Системы распознавания речи Исторический обзор систем распознавания речи 13

1.4. Обзор продуктов использующих технологии распознавания речи и голосового интерфейса, потребителей и перспективы 27

1.5. Специализированные голосовые интерфейсы, голосовой интерфейс в разработке программного обеспечения 34

ГЛАВА 2. Адаптация технологий голосового интерфейса и распознавания речи к разработке программного обеспечения. Проектирование системы 40

2.1. Анализ задачи программирования 40

2.2. Условия разработки системы и ее программной реализации 44

2.3. Концептуальная архитектура модульной, интегрируемой системы предоставления средств голосового интерфейса 50

2.4. Платформа плагинов и расширений 52

2.5. Инструменты разработки 59

ГЛАВА 3. Разработка прототипа программной реализации системы и специализированных средств голосового интерфейса 64

3.1. Архитектура прототипа программной реализации 64

3.2. Описания программной реализации 65

3.3. Разработанные общие решения и функционал голосового интерфейса 68

3.4. Разработанные средства голосового интерфейса 71

ЗАКЛЮЧЕНИЕ 83

Список используемой литературы 85





АННОТАЦИЯ

к магистерская диссертация на тему: «Разработка и программная реализация модульной интегрируемой системы предоставления средств голосового интерфейса для разработки программного обеспечения».

Автор: Ильский А.А.

Объем магистерской диссертации 81 страница, в ней содержится 29 таблиц, 4 рисунка, 30 источников литературы.

Ключевые слова:голосовой интерфейс, распознавание речи, разработка программного обеспечения.

Объектом исследования являются средства голосового интерфейса, технологии распознавания речи и задача разработки программного обеспечения.

Цель - разработка специализированных средств голосового интерфейса и применение технологий распознания речи для разработки программного обеспечения, а также разработка системы и прототипа ее программной реализации.

Предмет исследования — возможность применения и улучшения задачи разработки программного обеспечения при использовании средств голосового интерфейса и технологий распознания речи.

Диссертационное исследование состоит из введения, трех глав основного содержания, заключения, списка библиографии и приложений.

В первой главе введены основные понятия, произведен обзор предметных областей, выявлена специфика применения средств голосового интерфейса для разработки программного обеспечения.

Во второй главе рассмотрена задача разработки программного обеспечения, предложен подход для адаптации, обозначены современные условия разработки в отрасли информационных технологий, произведено проектирование архитектуры и выбор инструментария для разработки программной реализации.

В третьей главе разработана архитектура программной реализации, представлено ее программное описание и базовый набор средств голосового интерфейса, разработанных с использованием ее прототипа.



В заключении - основным теоретическим результатом данной магистерской диссертации является выработка, концепции, подхода и формулировка правил, условий и ограничений задачи разработки и программной реализации систем предоставления средств специализированных голосовых интерфейсов в частности для разработки программного обеспечения.

Основным практическим результатом стала разработка базового функционала и прототипа голосового интерфейса для разработки программного обеспечения, на основе созданного исследовательского прототипа программной реализации.

Публикации: По материалам диссертации опубликована 1 печатная работа.

А.А. Ильский Программирование голосом, как необходимость Материалы шестнадцатого научно-практического семинара «Новые информационные технологии в автоматизированных системах», 2013 года.

ВВЕДЕНИЕ
Создание интерфейсов, поддерживающих и предлагающих более эргономичные и естественные формы диалога между пользователями и компьютерной техникой, движется и ускоряется внедрением информационных технологий в след растущим потребностям профессиональной и повседневной деятельности человека. В области информационных технологий (ИТ) средства взаимодействия пользователя с технической системой принято называть интерфейсом. Интерфейсы бывают разные и реализуются разными средствами и методами. Одной из важнейших задач разработки современных технических систем является обеспечение наиболее интуитивного и естественного интерфейса с пользователем, то есть современные компьютерные приложения ориентированны на пользователя.

Одной из естественных форм взаимодействия для человека является речь. Голосовой интерфейс может улучшить существующий пользовательский интерфейс - он обеспечивает более удобный и менее ограниченный способ взаимодействия человека с компьютером. Качественный голосовой интерфейс помогает преодолевать неприятие технологии пользователями, так как для его использования не нужно овладевать новыми навыками. Голосовой интерфейс качественным образом изменяет способ, а следовательно и эффективность взаимодействия пользователя с системой. Голосовой поиск от компании Google и голосовой ассистент Siri от компании Apple являются этому яркими примерами, подтверждая насущную необходимость внедрения речевых технологий, в частности распознавания речи и голосовых интерфейсов.



Важный и практический аспект данных проблем связаны с тем, что голосовой интерфейс является необходимой компонентой, когда речь идет о создании комфортных условий жизни для людей с нарушениями опорно-двигательного аппарата, а также специалистам утратившим возможность использовать стандартные средства в результате профессионального заболевания, травмы или увечья. Такие системы со временем войдут в повседневный быт в процессе реализации концепции так называемых «умных домов».

Современность темы исследования определяется тем, что Рынок речевых технологий стремительно развивается, охватывая практически все сферы нашей жизни. По данным отчета «Automatic Speech Recognition Application Market 2010-2013», на сегоднейший день мировой рынок речевых технологий оценивается примерно в 900 млн. долларов,а рост составляет около 28% в год.

Российский рынок систем распознавания речи и других высоко технологичных решений в области речевых технологий невелик. По оценки компании «Стэл — компьютерные системы», его объем составляет порядка $10 млн., а динамика — порядка 15-30%.

В связи с вышесказанным становится актуальной проблема возможности создания голосовых интерфейсов для специалистов и систем предоставляющих такие средства, учитывая невозможность мгновенного перехода и необходимость адаптации к новым инструментам и средствам, очевидной становится потребность в интеграции с уже существующими системами. На практике решение подобной задачи и создание необходимой интегрируемой системы оказывается нетривиальным.

Далеко не все задачи разработки голосового интерфейса в настоящее время можно считать решенными. Проблема разработки голосового интерфейса является достаточно сложной и комплексной, что требует от разработчика знаний в различных предметных областях, таких как компьютерные науки, лингвистика и психология поведения человека. Даже при наличии продвинутых средств проектирования, разработка эффективного голосового пользовательского интерфейса требует от его создателей детального понимания как задач, выполняемых системой, так и психологии пользователей системы.

Проведенный библиографический поиск и анализ информации в Internet подтвердил актуальность данной темы тем, что в настоящее время многие ведущие компании усиливают работу в направлении развития голосовых интерфейсов и технологии распознавания речи.



Распознавание речи - технология, позволяющая использовать естественный для человека речевой интерфейс для взаимодействия с электронной техникой [1]. Сложность распознавание речи состоит в том, что совокупность таких характеристик голоса и речи как тембр, громкость, высота, темп, интонация, качество дикции делают речь каждого человека по-своему неповторимой и уникальной как отпечатки пальцев. Задачей компьютерной техники и программного обеспечения в состоит в том, чтобы распознать сказанные человеком слова в любых, не беря экстремальные, условиях без какой-либо предварительной адаптации под конкретный голос.

Применение средств голосового интерфейса и технологий распознавания речи для разработки программного обеспечения только начинает свое развитие в мире и еще не представлено в России.

Целью работы является — разработка специализированных средств голосового интерфейса и применение технологий распознания речи для разработки программного обеспечения, а также разработка интегрируемой системы предоставляющей средства такого интерфейса и прототип ее программной реализации.

Для достижения цели сформулированы и поставлены следующие задачи:


  • изучение текущего состояния голосовых интерфейсов и соответственно области распознавания речи;

  • произвести анализ предметных областей, обозначить существующие проблемы, трудности и недостатки применения не специализированных средств голосового интерфейса;

  • разработать концептуальную архитектуру системы;

  • разработать прототип программной реализации системы, имеющую модульную архитектуру с возможностями интеграции, учитывая условия и современные тенденции отрасли информационных технологий;

  • разработать базовый набор средств голосового интерфейса для разработки программного обеспечения.

Объектом исследования являются средства голосового интерфейса, технологии распознавания речи и задача разработки программного обеспечения.

Предмет исследования — возможность применения и улучшения задачи разработки программного обеспечения при использовании средств голосового интерфейса и технологий распознания речи.

Работа состоит из введения, трех глав и заключения. Введение раскрывает актуальность, определяет степень научной разработки темы, объект, предмет, цель, задачи и методы исследования, раскрывает теоретическую и практическую значимость работы В первой главе введены основные понятия, произведен обзор предметных областей, выявлена специфика применения средств голосового интерфейса для разработки программного обеспечения. Во второй главе рассмотрена задачи и потребности разработки программного обеспечения, предложен подход для адаптации, обозначены современные условия разработки в отрасли информационных технологий, произведено проектирование архитектуры и выбор инструментария для разработки программной реализации. В третьей главе разработана архитектура программной реализации, представлено ее программное описание и базовый набор средств голосового интерфейса, разработанный с использованием ее прототипа.

ГЛАВА 1. Голосовой интерфейс и технологии распознавания речи в разработке программного обеспечения


1.1. Интерфейсы - основа реализации взаимодействия всех современных информационных систем

Попытки научить компьютеры общаться с людьми при помощи естественного голосового интерфейса предпринимались с первых лет истории компьютерной техники.



Интерфейс – способ взаимодействия компьютерной системы (программы) с пользователями и устройствами.

На основе интерфейса реализуется взаимодействие всех современных информационных систем. Под интерфейсом понимается набор средств, правил и методов, за счет которых осуществляется коммуникация между элементами системы, различными программами и устройствами. Под совокупностью средств, методов и правил подразумевают: средства вывода информации из устройства(системы) пользователю — весь доступный спектр воздействий на организм человека (зрительных, слуховых, тактильных, обонятельных и других.), средства ввода информации/команд пользователем реализуются сейчас множеством всевозможных устройств. Методы как набор правил, заложенных разработчиком устройства, согласно которым совокупность действий пользователя должна привести к необходимой реакции устройства и выполнению требуемой задачи,и правила эти должны быть достаточно ясны для понимания и легки для запоминания.


По наличию тех или иных средств ввода, интерфейсы разделяются на типы:

  • голосовой,

  • жестовый ,

  • возможны смешанные варианты.

Пользовательский интерфейс (англ. user interface,) - разновидность интерфейсов взаимодействия управляемых человеком систем. Термин применяется по отношению к компьютерным программам (приложениям).

Как любая система общения с устройствами, которые способны к интерактивному взаимодействию с пользователем, существуют: графический интерфейс пользователя (программные функции реализуются графическими элементами экрана), диалоговый интерфейс (поисковая строка), интерфейс программирования приложений, сетевой интерфейс, интерфейс операционной системы(ОС).

Одним из самых важных показателей, характеризующих интерфейс пользователя, является usability – логичность и простота элементов управления, удобство программы или системы в пользовании с целью быть необходимыми и достаточными, удобными и практичными, расположенными и скомпонованными разумно и понятно, и соответствовать психофизиологии человека.

Увеличение в устройстве (при равной функциональности) средств ввода-вывода дает упрощение построения методов управления и упрощение правил пользования, но зато приводит к сложности восприятия информации пользователем — интерфейс становится перегруженным.


И наоборот — уменьшение средств отображения и контроля приводит к усложнению правил управления, так как каждый элемент несет на себе слишком много функций.

В связи с увеличением интенсивности обмена информацией в системе «человек-машина» особое значение имеет снижение нагрузки на тактильно-зрительные каналы человека. Например, в системах управления востребованной является идея голосового контроля и управления состоянием системы (речевое общение для контроля состояния работы самолета, бес кнопочный телефон, речевое управление производственными процессами).

Внедрение голосового интерфейса оставит глаза и руки оператора (пилота, водителя, рабочего за станком) свободными от перегрузки, что повысит надежность и качество управления.

Использование речевого диалога в системах массового обслуживания населения также актуально[2]. Помимо исключительного удобства для населения, такие системы повышают коммерческую выгоду как за счет привлечения дополнительной клиентуры, так и путем замены человека-оператора компьютерными системами с голосовым интерфейсом.

1.2. Голосовые интерфейсы, компоненты, виды и задачи Системы распознавания речи Исторический обзор систем распознавания речи

Преимущества голосового интерфейса:



  • оперативность и естественность;

  • минимум специальной подготовки пользователя;

  • возможность управления объектом в темноте, за пределами его визуальной видимости (в частности, с использованием существующей телефонной сети);

  • возможность использования одновременно ручного (с помощью клавиатуры) и голосового ввода информации;

  • обеспечение мобильности оператора при управлении.

К основным классам задач голосового интерфейса следует отнести:

  • синтез речи – эта задача включает в себя комплекс подзадач и заключается в обеспечении возможности произнесение речи компьютером на основе произвольного орфографического текста;

  • анализ и распознавание речи – комплекс задач, включающих запись, оцифровку и анализ речи для распознавания полученного речевого сообщения компьютерной системой;

  • понимание (интерпретация) речи – это комплекс задач, связанных с анализом смысла речевых сообщений и формированием реакции (ответа) компьютерной системы;

  • распознавание голоса – комплекс задач, включающих анализ особенностей голоса говорящего с целью выявления каких-либо его индивидуальных (личностных) особенностей и качеств;

  • компьютерное клонирование голоса и дикции – это создание близкой копии, но не биологической, а компьютерной, и не всего существа в целом (в данном случае человека), а только одной из его интеллектуальных функций: чтение произвольного орфографического текста[3].

Общая структура голосового интерфейса включает два основных компонента:

  • синтез речи;

  • распознавание речи.

Каждая из задач голосового интерфейса является достаточно сложной, то в соответствие указанным компонентам ставятся два отдельных класса систем:

  • системы синтеза речи;

  • системы распознавания речи.

Реализация речевого диалога происходит посредством диалога, при котором запрос и ответ со стороны пользователя ведется на языке, близком к естественному. Пользователь свободно формулирует задачу, но с набором установленных программной средой слов, фраз и синтаксиса языка Разновидностью интерактивного естественного диалога является речевое общение с компьютерной системой. В этом случае человеческий голос может преобразовываться, например, в текст, или использоваться для интерактивного управления системой, или для идентификации личности. В основе данных процессов лежит технология и решение задачи распознавания речи.

Речь в физическом смысле - это акустический сигнал, генерируемый артикуляционными органами человека, передающийся через физическую среду, воспринимаемый ухом человека. При естественной или искусственной генерации речи в акустическом сигнале изменяются физические параметры. Эти изменения воздействуют на мембрану уха, создают траектории звуковых образов, понимаемых человеком как соответствующие звуки данного языка, или иначе говоря, при произнесении слов человек генерирует звуки (фонемы), которые несут информацию о тех символах, с помощью которых эти слова могут быть записаны в виде текста.

Математическую модель генерации звука можно представить в виде возбуждающих генераторов тонового и белого шума, группы резонаторов, модуляторов и ключей (рот, нос, язык, губы), обеспечивающих формирование ощущения определенного звука.

Системы распознавания речи - это системы, анализирующие акустический сигнал алгоритмами, основанными на разнообразных теориях, предполагающих, какие характеристики речевого сигнала создают ощущения звуков данного языка, и математических методах, с той или иной точностью выделяющих значащие параметры акустического сигнала и преобразующие его в различной полноте в необходимую форму.



Заблаговременно формируется база фонем языка, содержащая шаблоны базового набора слов при «усредненной» речи, то есть независящей от диктора. Речь переводится в фонемное описание и поступает в файл описания фонем, откуда это описание поступает в блок распознавания, проводящий сравнение поступившей информации с той, которая хранится в базе. Формируются распознанные слова, которые преобразуются в текстовые данные или команду.

Системы распознавания речи состоят из двух частей - акустической и лингвистической. В общем случае могут включат в себя фонетическую, фонологическую, морфологическую, лексическую, синтаксическую и семантическую модели языка.

Акустическая - отвечает за представление речевого сигнала, за его преобразование в некоторую форму, в которой в более явном виде присутствует информация в содержании речевого сообщения.

Лингвистическая - интерпретирует информацию, получаемую от акустической модели, и отвечает за представление результата распознавания потребителю.

Задачи распознавания речи - автоматическое восстановление текста произносимых человеком слов, фраз или предложений на естественном языке и проблемы идентификации, шумоочистки, распознавания языков, оценки психофизического состояния человека. При решении задачи распознавания слитной речи человек применяет свои знания о естественном языке, а также смысл произносимого для устранения неоднозначности при восстановлении текста предложения.
Поэтому задачу распознавания речи дополнительно разделяют на две независимые задачи:

  • задачу локального распознавания речи;

  • задачу восстановления текста слитной речи по множеству возможных гипотез распознавания.

Рассмотрим мировую историю развития области распознавания речи и голосовых интерфейсов.

Обзор предметной области. История развития систем распознавания речи и голосовых интерфейсов.

1952 год можно считать годом рождения систем распознавания речи. Компания Bell Laboratories разработала систему названую Audrey, которая распознавала цифры, сказанные одним голосом.

1962 год компания IBM представила компьютер Shoebox со способностью распознавать 16 слов на английском языке.

Вторая половина 60-х годов в США, Великобритании, Японии, СССР ведется разработка систем распознавания речи распознающих отдельно произносимые звуки.

1971 год - старт проекта ARPA (Advanced Research Projects Agency). Целью достижения распознавания непрерывной речи и объемом словаря не менее тысячи слов.

1972 год доступно первое коммерческое программное обеспечение систем распознавания речи. Vip-100 обладало возможностью распознавания несколько сотен слов, но отсутствовала поддержка связанной речи. Помимо этого требовалась «предварительная тренировка» системы, посредством на диктовки слов.

1976 год - проект ARPA завершен разработкой шести систем, которые почти соответствовали поставленным требованиям. HARPY и HEARSAY II представленные от Университета Карнеги-Мелона, HWIM от Bolt, Branec and Newmen и др. Но лидером проекта стала, удовлетворявшая и по отдельным характеристикам превосходившая все критерии, система HARPY. Система понимала произносимые пятью операторами предложения с точностью 95% при использовании словаря размером 1011 слов, и исправно работала, в исходных условиях хуже требуемых, например, низкокачественном микрофоне или при акустических помехах.

Восьмидесятые годы лидирующие компании Bell Laboratories и IBM внедряют новые подходы и технологии в развитие данных систем и достигают увеличения словарного запаса до нескольких тысяч слов. IBM акцентировалась на исследованиях N-грамм и дикторозависимых систем, Bell Laboratories разрабатывала системы способные работать с акустической дисперсией, акцентами и не требований к предварительной тренировке.

Провалом закончилась попытка использовать искусственные нейронные сети для распознавания речи.



Выходят коммерческие предложения на подобие Kurzweil text-to-speech, но все они были неудобными в работе и поддерживали только надиктовку.

1987 год выход первого коммерческого общественного продукта - Кукла с функцией распознавания детской речи на основе тренировки и возможностью реакции на простые события, будь то попадание на свет или в темноту. А сенсоры на пальчиках позволяли «читать» специальные книги из комплекта.

1990 год программа обеспечение Dragon Dictate – первая коммерческая программа для обычных пользователей.

1996 год появление VAL(voice-activated link) от BellSouth – первый голосовой портал, система с целью обработки справочных и поисковых запросов для покупателей в крупных торговых центрах и абонентов телефоных компаний по заданным запросам, услугам, торговым маркам.

1997 год - улучшенная версия программы от компании Dragon Systems. Dragon Naturally Speaking была способна распознавать нормальную речь, около 100 слов в минуту.

2001 год Microsoft выпускает свою систему распознавания речи - Windows Speesh Recognition. При многих недостатках данная программа стала массовой.

2002 год Google запускает, в тестовом режиме, Voice Search - сервис голосового поиска в сети интернет, но из-за необходимости звонить на специальный номер данная разработка была сразу свернута. Но компания Google продолжила разработки в этом направлении.

2005 год - первая операционная система с функцией распознания речи Mac OS X Tiger, но это был не полноценный продукт, а тестовая версия. Voice Over была способна не только на распознание речи, но и являлась её синтезатором, программа могла читать текстовые документы, почтовые и веб-страницы, являсь при этом дикторонезависимой, и даже обслуживала нескольких пользователей одновременно.

2006 год Microsoft выпускает операционную систему с полноценной поддержкой функции распознания речи Windows Vista.

2009 год приложение Voice Search от Google для iPhone. Работа данного приложения опирается на облачные вычисления, позволившие провести крупномасштабный анализ данных поиска совпадений между огромным числом голосовых запросов пользователей и их словами, такая процедура способствовала быстрому росту и совершенствованию системы. Позднее появилась версия для операционной системы Android.

2011 год Google внедрена функция распознавания голоса в браузер Chrome. В базах на серверах компании насчитывается около 230 миллиардов слов на многих языках мира.
Конец 2011 год начало продаж Apple iPhone 4S с программой Siri, которая не просто распознает речь,а выступает в качестве персонального виртуального ассистента, способного обрабатывать естественную речь, отвечать на заданные вопросы и предоставлять рекомендации, с поддержкой английского, французского и немецкого языков.

2012 год Ford of Europe и компания Nuance Communications, представляют SYNC, которая на начальном этапе будет поддерживать британский вариант английского языка, французский, испанский, португальский, немецкий, итальянский, турецкий, голландский и русский языки. Пользователи системы смогут давать такие инструкции как «Позвонить (имя контакта)» или «Проигрывать исполнителя (имя исполнителя)». Языковые возможности системы обеспечивают работу функции помощи в экстренных ситуациях (Emergency Assistance), завоевавшей премию «Global Mobile Award 2012». Функция помогает находящимся в автомобиле людям в случае аварии оповестить операторов местных экстренных служб на соответствующем языке. Система SYNC установлена уже на более чем 4 миллионах автомобилей в США. До конца 2012 года система появится в Европе на автомобилях Focus, C-MAX, Transit и Fiesta.



1.3. Используемые в распознавании речи методы и классификация систем распознавания речи

Практически все известные методы распознавания речи обладают рядом основных общих свойств:



  • для распознавания используется метод сравнения с эталонами;

  • сигнал может быть представлен либо в виде непрерывной функции времени, либо в виде слова в некотором конечном алфавите;

  • для сокращения объема вычислений используются методы динамического программирования. Динамическое программирование (ДП) - метод решения задач путем составления последовательности из подзадач таким образом, что:

    • первый элемент последовательности (возможно несколько элементов) имеет тривиальное решение

    • последний элемент этой последовательности - это исходная задача

    • каждая задача этой последовательности может быть решена с использованием решения подзадач с меньшими номерами.

Методы распознавания речи можно разделить на две большие группы: непараметрические — с использованием непараметрических мер близости к эталонам (к ним можно отнести методы на основе формальных грамматик и методы на основе метрик на множестве речевых сигналов) — и параметрические (вероятностные — на основе метода скрытых моделей Маркова, нейросетевые)[4].

Непараметрические методы, основаны на мерах близости на множестве речевых сигналов. Метод Винцюка [4, 5], основанный на методе динамического программирования (Беллман, [6]), развитый Итакурой [7] и другими, позволил сократить время вычисления значений функции близости к эталонным сигналам с экспоненциального (от длины сигнала) до квадратичного. В силу того, что основной спецификой метода являлось нелинейное искажение временной оси одной из сравниваемых функций, метод получил название «динамической деформации времени». К достоинствам относятся простота его реализации и обучения. К недостаткам можно отнести сложность вычисления меры близости, которая пропорциональна квадрату длины сигнала, и большой объем памяти, необходимый для хранения эталонов команд - пропорциональный длине сигнала и количеству команд в словаре.
Параметрические - методы, применяемые к задаче распознавания речи в настоящее время, были впервые предложены рядом американских исследователей (Бейкер [9] и Джелинек [10]) в 1970-е годы прошлого века. В них применяется теория скрытых моделей Маркова - дважды стохастические процессы и цепи Маркова [11] по переходам между состояниями и множества стационарных процессов в каждом состоянии цепи[8].

Достоинствами метода скрытых моделей Маркова являются:



  • быстрый способ вычисления значений функции расстояния (вероятности);

  • существенно меньший объем памяти, по сравнению с методом «динамической деформации времени», необходимый для хранения эталонов команд.

Основными недостатками:

  • большая сложность его реализации;

  • необходимость использования больших фонетически сбалансированных речевых корпусов для обучения параметров.

Основные характеристики и признаки, по которым можно классифицировать современные системы распознавания речи.

  • словари размером в десятки и сотни тысяч слов;

  • распознавание раздельной или слитной речи;

  • работа в реальном времени;

  • дикторозависимость или дикторонезависимость системы;

  • надежность работы 95–98% для грамматически правильных текстов;

  • назначение.

Классификация систем распознавания речи по сложности:



  • системы автоматического распознавания изолированных слов для распознавания произносимых человеком команд по словам;

  • системы автоматического распознавания слитной речи — с возможностью выделять слова в естественном частично слитном потоке человеческой речи;

  • системы понимания речи - с элементами интеллекта, что позволяет, во-первых, на основе смыслового анализа более правильно выделять слова в потоке речи, а, во-вторых, сохранять информацию в некой базе знаний, откуда она может быть легко извлечена для решения определенных интеллектуальных задач.

Основные компоненты систем распознавания речи:

  • графическая среда для разработки, компиляции и оптимизации грамматических и лексических блоков распознавания, проверки и редактирования лексиконов;

  • система для протоколирования диалогов из работающего приложения с целью оценки качества распознавания и подстройки системы;

  • инструмент оценки качества работы системы (проверка соответствия слова, сказанного абонентом, используемой грамматике);

  • система для создания «тренируемых» языковых моделей, повышающих производительность и ускоряющих процесс распознавания;

  • система для распределения множества параллельных запросов различных типов и прозрачной интеграции различных речевых модулей в сети.

Рассмотрев классификацию и компоненты, приведем полную иллюстрацию классификации систем распознавания речи на рис. 1.
Р
ис.1 Классификация систем распознавания речи

Условия возникновения проблем систем распознавания речи:



  • произвольный, наивный пользователь;

  • спонтанная речь;

  • наличие акустических помех и искажений, в том числе меняющихся;

  • наличие речевых помех;

  • недостаточная капитальная база, не дающая возможность интенсивно проводить исследования и разрабатывать новые инновационные алгоритмы в речевых технологиях.

Условия, на основе которых выявляются следующие требования и ограничения:

  • требуется предварительная настройка системы на голос от нескольких десятков минут до нескольких часов предварительного наговаривания текстов;

  • некоторые проверки не дают результатов лучших, чем 5% ошибок;

  • вероятность правильного распознавания слов не превышает одной трети даже для хорошо организованных спонтанно произнесенных текстов.

Далее рассмотрим современные отечественные и зарубежные продукты с использование технологий распознавания речи.

1.4. Обзор продуктов использующих технологии распознавания речи и голосового интерфейса, потребителей и перспективы

Горыныч ПРОФ 3.0 — первая русскоязычная система автоматического распознавания речи для диктовки и голосового управления компьютером с поддержкой русского языка для операционной системы Windows XP[12].

Характеристики:



  • дикторозависимость;

  • языкозависимость (русский язык и английский язык);

  • точность распознавания зависит от ядра системы американской программы "Dragon Dictate";

  • предоставляет средства голосового управления отдельными функциями операционной системы, текстовых редакторов и прикладных программ;

  • требует обучения.

VoiceNavigator (компания «Центр речевых технологий») высокотехнологичное решение для контакт-центров, предназначенное для построения Систем Голосового Самообслуживания. VoiceNavigator позволяет автоматически обрабатывать вызовы с помощью технологий синтеза и распознавания речи. VoiceNavigator Web - навигация по веб-ресурсам при помощи голоса. Разработка позволяет управлять навигацией сайта при помощи речевых команд[12].

Характеристики:



  • дикторонезависимость;

  • устойчивость к окружающим шумам и помехам в телефонном канале;

  • распознавание русской речи работает с надежностью 97% (словарь 100 слов).

Speereo Speech Recognition (Российская ИТ компания «Speereo Software»)

Программный продукт для разработки приложений в индустрии мобильных устройств и персональных компьютеров. Распознавание речи происходит непосредственно на устройстве, а не на сервере, что является ключевым преимуществом, по мнению разработчиков[12].

Характеристики:



  • распознавание русской речи работает с надежностью около 95%;

  • дикторонезависимость;

  • словарный запас около 150 тыс. слов;

  • одновременная поддержка нескольких языков;

  • компактный размер движка.

Sakrament ASR Engine (разработка компании «Сакрамент») - технология распознавания речи используется при создании средств речевого управления – программ, управляющих действиями компьютера или другого электронного устройства с помощью голосовых команд, а также при организации телефонных справочных и информационных служб[12].

Характеристики:



  • дикторонезависимость;

  • языконезависимость;

  • точность распознавания достигает 95-98%;

  • распознавание речи в виде выражений и небольших предложений;

  • нет возможности обучения.

Google Voice Search (компания «Google»). Ранее поиск применялся исключительно в мобильных устройствах. С недавнего времени голосовой поиск от Google встроен в браузер Google Chrome, что позволяет использовать этот сервис на различных платформах[12].

Характеристики:



  • поддержка русского языка;

  • возможность встраивать распознавание речи на веб-ресурсы;

  • голосовые команды, словосочетания;

  • для работы необходимо постоянное подключение к сети internet.

Dragon NaturallySpeaking (компания «Nuance») Мировой лидер в программном обеспечении по распознаванию человеческой речи. Возможность создавать новые документы, отправлять электронную почту, управлять популярными браузерами и разнообразными приложениями посредством голосовых команд[12].

Характеристики:



  • отсутствует поддержка русского языка;

  • точность распознавания до 99%.

ViaVoice (компания «IBM») представляет собой программный продукт для аппаратных реализаций. Компания ProVox Technologies на основе этого ядра создала систему для диктовки отчетов врачей-радиологов VoxReports[12].

Характеристики:



  • точность распознавания достигает 95-98%;

  • дикторонезависимость;

  • словарь системы ограничен набором специфических терминов.

Sphinx – самый известное и наиболее работоспособное из открытых программных продуктов для распознавания речи на сегодняшний день. Разработка ведется в университете Карнеги-Меллона, распространяется на условиях лицензии Berkley Software Distribution (BSD) и доступен как для коммерческого, так и для некоммерческого использования[12].

Характеристики:



  • дикторонезависимость;

  • распознавание слитной речи;

  • обучаемость;

  • наличие версии для встраиваемых систем — Pocket Sphinx.

Наиболее значительные потребители голосовых технологий - электронная коммерция, производители всевозможных устройств домашнего применения, таких как телевизоры, видеомагнитофоны, микроволновые печи, стиральные машины и т.д. Рынок голосовой навигации в Web сайтах, осуществляющих электронную торговлю услугами по продаже авиа- и железнодорожных билетов, продуктов, другими услугами и сервисами, как по телефону, так и через интернет, по оценкам экспертов, может достигнуть 500 миллионов USD в течение года от начала применения. Суммарное мировое производство телевизоров оценивается в 100 миллионов штук. При цене 5 $ за функцию (модуль) управления голосом ежегодный рынок, только в этом сегменте, даст общий объем в 500 миллионов USD.

Речевые технологии, позволяющие распознавать команды в условиях шумов, позволяют дополнить управление в автомобилях таким функциями как управление светом, радио, замками и т.д. Объем рынка в этом сегменте может достигнуть в 2020 7.5 миллиардов USD. Голосовое управление функциями автомобильных аудио и навигационных систем уже реализовано в некоторых моделях BMW, Mercedes-Benz, Ford, Toyota и других. Такие системы помогают водителю не отвлекаться от дороги, однако для того, чтобы их эффективно использовать, водитель должен знать специальные голосовые команды, которых, к примеру, в системе Ford SYNC около десяти тысяч. Система SYNC установлена уже на более чем 4 миллионах автомобилей в США. До конца 2012 года система появится в Европе на автомобилях Focus, C-MAX, Transit и Fiesta[13].



По данным аналитической компании Global Industry Analysts, мировой объем рынка технологий распознавания голосовых команд к 2015 году составит 20 миллиардов долларов.

Также существует потребность в речевых технологиях в военно-промышленном комплексе: тренажеры-имитаторы боевой техники; военная техника, системы оповещения (голосового оповещения оператора о неисправностях или повреждениях систем, а также о выполненных операциях/задачах), системы безопасности (например, возможность остановки боевой техники при ее повреждении либо ранении оператора при помощи голоса), комплексы ПВО, радиолокационные станции и др.[14].

В образовательной сфере востребованы, в частности, системы обучения языкам технология выделения и измерения фонем речи открывает новые возможности для обучения языкам. Она вводит в процесс обучения языку, кроме звуковой, визуальную обратную связь, позволяет увидеть свою и эталонную речь, сравнить их визуально, увидеть ошибки произношения и получить оценку произнесения фонемы, слова и фразы. Визуализация процесса произношения с выделением фонем и показом положения артикуляционных органов по анализу произношения, позволяет создать уникальные системы для обучения произношению для людей с ограниченными возможностями.

Развитие современных речевых технологий в России - российский рынок систем распознавания речи и других высокотехнологичных решений в речевой области невелик,его объем составляет порядка 10 млн долларов в год. Динамика роста составляет порядка 15-20%. Мировой рынок растет быстрее: в прошлом году его объем составил примерно 3 млрд долларов, а темпы роста приблизились к 25%. Объемы государственного финансирования научных исследований в этой области в США, ЕЭС, Китае, с одной стороны, и России – с другой, в последние десятилетия были просто несопоставимы. В качестве иллюстрации можно привести процентное соотношение докладов, принятых к участию самой авторитетной конференцией в области речевых технологий Interspeech: Россия и Беларусь – менее 1%, Германия – 10%, Япония – 15%, США – 25% [15].

На отечественном рынке был создан консорциум «Российские речевые технологии», чтобы упорядочить и как-то улучшить взаимодействие между основными игроками. Консорциум «Российские Речевые Технологии» объединяет российские компании и научные учреждения, область деятельности которых разработка новых речевых информационных технологий. Перед консорциумом также стоит цель по выполнению национальной программы, включающей различные стратегические задачи:

  • создание голосовых запросно-ответных информационных систем в различных областях: в справочных телефонных системах, центрах корпоративного управления, мобильной телефонии, электронной коммерции и т.п.;

  • разработка голосовых средств управления техническими устройствами;

  • создание систем двойного назначения с применением эффективных речевых технологий, систем диктовки произвольного текста для офисных приложений и т.п., в том числе средств речевого перевода.

Поставленный комплекс задач может быть решен только объединением усилий всех ведущих фирм и научных групп в этой области.

Достижения были отмечены в отраслевом журнале Speech Technology Magazine назвавшем главных игроков мирового рынка речевых технологий этого года в премии Speech Industry Awards 2012, где Россия представлена в лице дочерней компании ООО «Центр речевых технологии» - SpeechPro, которая была высоко отмечена в категории Star Performers Awards для производителей, чья деятельность способствовала росту индустрии речевых технологий в целом. Награды вручены победителям премии на конференции SpeechTEK 2012 года 13-15 августа в Нью-Йорке[16].

Сегодня «Центр речевых технологии», входящий в консорциум «Российские Речевые Технологии», является ведущим мировым разработчиком инновационных систем в сфере высококачественной записи, обработки и анализа аудио-видео информации, синтеза и распознавания речи. Создаваемые в «Центре речевых технологий» биометрические решения обеспечивают высокую точность распознавания личности по голосу и изображению лица в реальном времени. Эти решения находят успешное применение в государственном и коммерческом секторе, от небольших экспертных лабораторий до сложных систем безопасности национального масштаба[17].

Потребительское программное обеспечение распознавания речи все же в основной своей массе сконцентрировано на диктовке, позволяя печатать документы, электронные письма, помогая специальностям, где работа связанна с длительными периодами печати, с повышенным риском получения заболевания и травм опорно-двигательной и нервной системы. Ряд профессий таких как журналисты, программисты, писатели и ученые, в условиях сжатых сроков продолжают работу несмотря на рекомендации и останавливаются только когда утомлены и в особенности при боли или дискомфорте.

Что в последствии проявляется в тендините, сильных шейных и спинных болях и приводят к потере самооценки, снижению качества жизни, ухудшению семейных отношений, такие осложнения здоровья, вызываемые профессиональными заболеваниям, можно было бы снизить при возможности замены длительных периодов печати, на альтернативный способ ввода, например с помощью средств голосового интерфейса.

1.5. Специализированные голосовые интерфейсы, голосовой интерфейс в разработке программного обеспечения



Использование обычных программ распознавания речи для разработки программного обеспечения затруднено тем, что хотя и ключевые слова могут быть распознаны, но большая часть кодовых текстов состоит из имен переменных, названий процедур, которые представлены словосочетаниями и/или аббревиату рами. Также в языках программирования использование специальных/технических символов (отношения, сравнения, пунктуации) синтаксически отличается от естественных языков.

Основные затруднения при использовании не специализированных средств голосового интерфейса для разработки программного обеспечения:

  • определение имен переменных, классов и функций;

  • написание конструкций;

  • написание конструкций;

  • навигация;

  • использование меню.

Определение имен переменных, классов и функций - если бы все имена переменных и классов были одиночным английским словом, тогда это не было бы проблематичным. В реальности это крайне редко, имена должны отражать/описывать функцию или содержимое переменной. Компиляторы требуют чтобы имена переменных не содержали пробелов, так что программистам приходится находить различные методы концентрации/сопряжения слов, сохраняя простоту чтения. Самая тривиальная из проблем заключается в том, что существующее программное обеспечение распознавания речи спроектировано для задач диктовки текстов и автоматически добавляет пробел между словами. Например, продиктовать «CamelCase» или «under_score», используя Dragon Naturally Speaking потребуется произнести:

«came, no space, capitalise next, case» или «under, no space, underscore, no space, score».

Имена переменных обычно длиннее, чем два слова, и чем длиннее имя, тем более значительно замедляется рабочий процесс, за счет увеличения времени диктовки.

Написание конструкций - все конструкции циклов и «if» утверждение обычно определяются наличием логического условия в скобках, при котором секция кода исполняется. Именно скобками затрудняется диктовка и использование этих конструкций становится неудобным.

Пример кода:

for(counter=0;counter<10;counter++)

{

printf(counter);



|}

Потребует произнести: «For, no space, open brackets counter equals−sign zero. semi−colon. counter less−than ten semi−colon. counter plus−sign plus−sign .close brackets. new line. open braces. print. no space. open brackets counter. close brackets. semi−colon. new line. cose braces».


Навигация - проблема распространяющееся на все, что связано с использованием средств голосовых интерфейсов. Обычно «мышь» позволяет перемещать курсор, «прокручивать» документ вверх и вниз в поисках необходимой секции, осуществляя быструю навигацию. Типовыми решениями проблемы навигации программного обеспечения распознавания речи являются переходы в начало или конец предложения, или абзаца, или по номеру строки, или на определенное количество строк, но в условиях разработки программного обеспечения необходимы более специализированные решения, также это недоступно тем кто не может пользоваться своими руками или ограничен условиями окружения.

Использование меню - множество задач требует использования различных меню (открытие, закрытие, сохранение файлов), что легко реализуется «мышью», но трудно при помощи только голоса. Существует традиционная реализация индикации своих намерений воспользоваться опциями меню при помощи голосовой команды, на что в ответ программное обеспечение переходит в режим «управления». Задача разработки программного обеспечения потребует реализовать дополнительные режимы, диктуемые из ее потребностей, но основным ограничением является то, что обычно интерфейсы графически ориентированы и используют флаг элементы, списки и другие диалоговые элементы - затрудненное использование списков и диалоговых элементов возможно, но использование флаг элементов на первый взгляд кажется невозможным.

В результате требуется как минимум адаптированная или специализированная, а может и в целом иная по типу система предоставления средств голосового интерфейса в программировании.



Система предоставления средств голосового интерфейса позволит людям с ограниченными возможностями открыть себе двери в огромную индустрию, в противном случае недоступную для них, а также программистам, которые в связи с травмами или заболеваниями ограниченны в использовании стандартных интерфейсов, чтобы продолжать свою работу.

В мире также ведутся разработки программного обеспечения и инструментов предоставления средств голосового интерфейса для разработки программного обеспечения с различной степенью успеха. Приведем наиболее заметные из них.

VoiceCode — программное обеспечение инициатива Института Информационной Технологии Национального Исследовательского Консульства Канады. Задачей является разработка инструментария совместимых компонентов поддерживающего текущие лучшие практики голосовых интерфейсов для разработки программного обеспечения.

ShortTalk and EmacsListen — разработка специализированного разговорного языка для человека-компьютерного взаимодействия.

Voice Grip – дополнительный макрос для редактора Emacs созданный с целью упрощения использования коммерческого программного обеспечения распознавания речи программистами программистам.

Java by voice — серия макросов для редактора Emacs спроектированные для упрощенного ввода кода на языке Java.

Cache Pad – макрос для редактора Emacs для кэширования недавно продиктованных имен функций и переменных пере использования.

Emacs VR Mode - макрос для редактора Emacs добавляющий функционал «Select and Say» в редактор из Dragon Naturally Speaking.

На основании обзора предметной области, наибольшие результаты достигнуты в распознавании отдельных звуков, слов и фраз, а также в создании программного обеспечения для голосового управления операционными системами, мультимедийным программным обеспечением и текстовыми редакторами.


Выявлено, что в настоящее время мало инструментов предоставляющих специализированные средства голосового интерфейса, в частности для разработки программного обеспечения, или это продукты текущих исследований, а не полноценное/коммерческое программное обеспечение.

Данная работа ставит перед собой две цели:



  • первая, разработка модульной интегрируемой системы предоставления средств голосового интерфейса для разработки программного обеспечения и ее программной реализации, с совместимостью с любым пакетом программного обеспечения распознавания речи, для основных и мобильных платформ;

  • второй целью является улучшение задачи программирования, а также функционала программного обеспечения, и разработка средств специализированного голосового интерфейса.


следующая страница >>
Смотрите также:
Разработка и программная реализация модульной интегрируемой системы предоставления средств голосового интерфейса для разработки программного обеспечения
808.52kb.
4 стр.
Тема семестровой работы
69.78kb.
1 стр.
1. Что такое программирование?
46.81kb.
1 стр.
Дипломний проект пояснювальна записка гюік. 8080403. Пз программная реализация многоко
181.35kb.
1 стр.
Основные этапы разработки программного обеспечения
158.21kb.
1 стр.
Аппаратное и программное обеспечение копьютера
73.67kb.
1 стр.
Программная архитектура системы управления интернет-представительством промышленного предприятия
62.94kb.
1 стр.
Инструкция Начальника Отдела разработки программного обеспечения асу
57.36kb.
1 стр.
Технологии разработки программного обеспечения разработка сложных программных систем
6308.49kb.
73 стр.
1. Разработка структурной схемы программы
316.11kb.
1 стр.
Средства и технологии Операционные системы
101.46kb.
1 стр.
Вопросы разработки программного интерфейса синхронизации данных иаис и систем дистанционного обучения
44.9kb.
1 стр.