Главная
страница 1

УДК 004(06) Информатика и процессы управления


И.А. ПОПОВ, В.И. ЧУЧКИН

Московский инженерно-физический институт (государственный университет)

ПЕРЕДАЧА АУДИОИНФОРМАЦИИ
В РАСПРЕДЕЛЕННОЙ АРХИТЕКТУРЕ СИСТЕМЫ РАСПОЗНАВАНИЯ РЕЧИ

В проекте интеграции аудиомодальностей в существующие интерфейсы компьютерных систем [1] существует проблема нехватки вычислительных ресурсов для реализации задачи распознавания и синтеза речи [2]. Это приводит к получению неудовлетворительных результатов и низкой пригодности подобных интерфейсов к реальному использованию. В разрабатываемом проекте для решения этой проблемы применяется распределенная архитектура, в которой ресурсоемкие задачи выполняются на удаленном сервере.

При использовании такой распределенной архитектуры возникает необходимость передачи между ее частями аудиоинформации для последующей ее обработки [3]. Учитывая специфику решаемой задачи и невысокую расчетную пропускную способность каналов передачи данных между компонентами системы, использование традиционных алгоритмов сжатия информации и кодирования является неэффективным и приводит к ухудшению параметров системы. Поэтому необходимо разработать методы передачи информации учитывающие форматы и требования к входным аудиоданным в системах распознавания речи.



Введение

Сжатие и кодирование при передаче аудиоинформации широко применяются во всех цифровых системах. Существует множество различных алгоритмов сжатия и форматов кодирования аудиоданных. Они отличаются друг от друга по многим параметрам, основными из которых являются следующие: количество отсчетов в секунду, разрядность одного отсчета и применяемый алгоритм кодирования. Алгоритмы кодирования могут быть как с потерей части информации или без потерь.

Существующие алгоритмы сжатия аудио без потерь пока недостаточно эффективны для использования их в узких каналах передачи информации. Использование алгоритмов сжатия с потерей информации всегда приводит к искажению переданной аудиоинформации. Большинство распространенных алгоритмов сжатия ориентированы на восприятие аудио человеком, поэтому вносимые ими искажения могут значительно ухудшить точность распознавания, т.к. не учитывают специфику задачи распознавания речи [4].

В настоящее время выработано несколько методов решения задачи передачи аудиоинформации для последующего распознавания при применении алгоритмов сжатия с потерями. В данной работе проводится исследование эффективности данных методов, их сравнение и разработка на их основе собственного метода передачи для использования в распределенной системе распознавания речи.



Особенности метода передачи информации

На основе исследованных методов сжатия и кодирования аудиоинформации выделены следующие особенности, которые необходимо реализовать в методе передачи информации:



  1. Фильтрация внешнего шума. На основе тестов [5, 6] показано, что введение алгоритмов фильтрация внешнего и высокочастотного шума перед сжатием аудио повышает качество распознавания.

  2. Выделение деталей речи из несжатых аудиоданных и передача информации о них вместе с аудио данными.

  3. Сжатие аудиоданных с изменяемыми в процессе кодирования параметрами, которые зависят от выделенных из несжатых аудиоданных деталей речи.

С учетом выше перечисленных особенностей был построен метод сжатия и кодирования аудиоданных для применения в разрабатываемой системе интеграции аудио модальностей в существующие интерфейсы. Он адаптирован под применяемое программное и аппаратное обеспечение.

Состояние разработки

Данная работа проводится в рамках диссертационной работы по интеграции аудиомодальностей в существующие интерфейсы компьютерных систем. В настоящее время проводится программная реализация разработанного метода.


Список литературы


  1. Creation of multimodal interface with speech recognition, text-to-speech syn-thesis and face recognition for personal computer, Chuchkin V.I., Popov I.A. (MEPHI, 2004).

  2. The AURORA Experimental Framework for the Performance Evaluations of Speech Recognition Systems under Noisy Conditions, Hirsch, H.-G., Pearce, D. (ISCA ITRW ASR, 2000).

  3. Low-bitrate distributed speech recognition for packet-based and wireless communication, A. Bernard, A. Alwan (IEEE Trans SAP, Vol. 10, No. 8, стр. 570-579, 2002).

  4. The influence of speech coding algorithms on automatic speech recognition, S. Euler, J. Zinke, (Proc. ICASSP, стр. 621–624, 1994).

  5. Developing the ETSI Aurora advanced distributed speech recognition front-end & what next? D. Pearce, (Automatic Speech Recognition and Understanding Workshop, 2001).

  6. Speech processing, transmission and quality aspects; distributed speech recognition; front-end feature extraction algorithm; compression algorithms, (European Telecommunications Standards Institute, 2000).




ISBN 5-7262-0633-9. НАУЧНАЯ СЕССИЯ МИФИ-2006. Том 12


Смотрите также:
Передача аудиоинформации в распределенной архитектуре системы распознавания речи
28.82kb.
1 стр.
Использование нейросетей для автоматического распознавания и синтеза речи
241.83kb.
1 стр.
Применение вейвлет-преобразования для сокращения области значения искусственных нейронных сетей на примере задачи распознавания речи
189.46kb.
1 стр.
«спрут-7» – многофункциональные комплексы автоматической цифровой записи аудиоинформации
143.96kb.
1 стр.
«спрут-7» – многофункциональные комплексы автоматической цифровой записи аудиоинформации
127.19kb.
1 стр.
«спрут-7» – многофункциональные комплексы автоматической цифровой записи аудиоинформации
111.11kb.
1 стр.
Разработка алгоритмов построения оценок достоверности для систем распознавания речи
207.7kb.
1 стр.
Знание признаков и навыки распознавания и употребления в речи
139.26kb.
1 стр.
Проектирование сапр как распределенной информационно-вычислительной системы
93.03kb.
1 стр.
Дипломная работа студента 544 группы
474.42kb.
6 стр.
Модель адаптивной системы стереозрения для подвижного робота
71.82kb.
1 стр.
Реферат по дисциплине «История информатики» «История развития систем распознавания речи»
189.71kb.
1 стр.