Главная
страница 1
РОССИЙСКАЯ АКАДЕМИЯ НАУК
Федеральное государственное бюджетное учреждение науки

Российской академии наук

Вычислительный центр им. А.А.Дородницына РАН

«УТВЕРЖДАЮ»

Директор ВЦ РАН

академик РАН,

д.ф.-м.н., профессор

______________ Ю.Г.Евтушенко


«___»__________________ 2012 г.

РАБОЧАЯ ПРОГРАММА

УЧЕБНОЙ ДИСЦИПЛИНЫ

«Основы речевых технологий»

для подготовки аспирантов по специальности


05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

Москва 2012



1. ЦЕЛИ И ЗАДАЧИ

Цель курса - освоение аспирантами фундаментальных знаний в области обработки и анализа речевой информации, изучение основных проблем компьютерной обработки речи и современных подходов к их решению.

Задачами данного курса являются:


  • формирование базовых знаний в области компьютерной обработки речевой и аудио информации как дисциплины, обеспечивающей технологические основы современных инновационных сфер деятельности;

  • обучение аспирантов принципам решения задач обработки (цифровой обработки, анализа, распознавания) естественной речи на основе методов машинного обучения и распознавания образов;

  • подготовка аспирантов к выполнению самостоятельных исследований в области речевой технологии.

2. МЕСТО ДИСЦИПЛИНЫ В СТРУКТУРЕ ОПОП ПОСЛЕВУЗОВСКОГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ (АСПИРАНТУРА)

Дисциплина «Основы речевых технологий» относится к дисциплинам по выбору учебного плана подготовки аспирантов по научной специальности 05.13.11 «Математическое обеспечение вычислительных машин, комплексов и компьютерных сетей».

Изучение данной дисциплины базируется на следующих дисциплинах подготовки бакалавров или специалистов:


  • «Линейная алгебра»;

  • «Теория вероятности и математическая статистика»;

  • «Программирование и основы алгоритмизации»;

  • «Базы данных»;

  • «Искусственный интеллект»;

  • «Методы оптимизации»;

а также на дисциплинах подготовки магистра:



  • «Современные проблемы информатики и вычислительной техники»;

  • «История и методология информатики и вычислительной техники»;

  • «Компьютерные технологии в науке и образовании».

Для успешного изучения курса аспиранту необходимо знать общесистемное программное и техническое обеспечения автоматизированных систем, а также уметь работать с персональной ЭВМ.

Основные положения дисциплины будут использованы при подготовке к кандидатскому экзамену по научной специальности 05.13.11 «Математическое обеспечение вычислительных машин, комплексов и компьютерных сетей», в научно-исследовательской работе и при выполнении диссертации на соискание ученой степени кандидата физико-математических или технических наук.



3. ТРЕБОВАНИЯ К РЕЗУЛЬТАТАМ ОСВОЕНИЯ СОДЕРЖАНИЯ ДИСЦИПЛИНЫ

В результате изучения дисциплины «Основы обработки текстовой информации» аспирант должен:



  • иметь представление: о месте и роли дисциплины «Основы обработки текстовой информации» в своей будущей научной и практической деятельности, о взаимосвязи дисциплины с другими дисциплинами, наукой и техникой; о современных автоматизированных системах, используемых для обработки текстов;

  • знать: модели и алгоритмы, применяемые для обработки текстовой информации; современные проблемы обработки текстовой информации; подходы к экспериментальному исследованию качества решения задач обработки текстовой информации;

  • уметь: решать задачи из области обработки текстов; проводить самостоятельные научные исследования по теме дисциплины; применять изученные модели и алгоритмы для решения поставленных задач.

4. СТРУКТУРА И СОДЕРЖАНИЕ ДИСЦИПЛИНЫ

Объем дисциплины и виды учебной работы

Вид учебной работы

Всего часов

Семестры

Семестры

1

2

Общая трудоемкость дисциплины

90

46

44

Аудиторные занятия, в том числе:

28

14

14

Лекции

28

14

14

Семинары (С)

 

 

 

Лабораторные работы (ЛР)







Другие виды аудиторных занятий

 

 

 

Самостоятельная работа

62

32

30

Вид итогового контроля (зачет, экзамен)

 



экзамен

СТРУКТУРА ПРЕПОДАВАНИЯ ДИСЦИПЛИНЫ

Перечень разделов дисциплины и распределение времени по темам

№ темы и название


Количество часов

1. Предмет речевых технологий

4

2. Элементарные сведения о речеобразовании и восприянии речи человеком.

4

3. Элементы фонетики.

4

4. Обработка сигналов в частотной области. Кратковременный анализ. БПФ. Параметрическое и признаковое описание речевых образов в частотной области.

8

5. Параметрическое описание речевых сигналов во временной области. Модель линейного предсказания речи

8

6. Кодирование речевых сигналов. Векторное квантование. Примеры современных речевых кодеков

4

7. Меры сходства речевых сигналов.Оценка меры схожести для образов различной длительности. Распознавание изолированных слов.

6

8. Структура систем распознавания речи. Статистический подход к распознаванию речи. Критерии эффективности работы системы распознавания речи.

4

9. Статистические методы моделирования последовательностей образов. Скрытая марковская модель (СММ). Модель смеси нормальных распределений (СГР). Оценка параметров СММ и СГР.

12

10. Акустико-фонетическое моделирование в системах распознавания речи.

8

11. Статистические модели языка для систем распознавания речи

8

12. Алгортмическая реализация процедур распознавания слитной речи.

8

13. Методы подстройки параметров системы распознавания речи на голос говорящего

4

14. Методы автоматического синтеза речи по тексту

8

ВСЕГО( зач. ед.(часов))

90

ВИД ЗАНЯТИЙ

Аудиторные занятия

№ темы и название

Количество часов

1. Предмет речевых технологий

2

2. Элементарные сведения о речеобразовании и восприятии речи человеком.

2

3. Элементы фонетики.

2

4. Обработка сигналов в частотной области. Кратковременный анализ. БПФ. Параметрическое и признаковое описание речевых образов в частотной области.

2

5. Параметрическое описание речевых сигналов во временной области. Модель линейного предсказания речи

2

6. Кодирование речевых сигналов. Векторное квантование. Примеры современных речевых кодеков

2

7. Меры сходства речевых сигналов. Оценка меры схожести для образов различной длительности. Распознавание изолированных слов.

2

8. Архитектура систем распознавания речи. Статистический подход к распознаванию речи. Критерии эффективности работы системы распознавания речи.

2

9. Статистические методы моделирования последовательностей образов. Скрытая марковская модель (СММ). Модель смеси нормальных распределений (СГР). Оценка параметров СММ и СГР.

2

10. Акустико-фонетическое моделирование в системах распознавания речи.

2

11. Статистические модели языка для систем распознавания речи.

2

12. Алгортмическая реализация процедур распознавания слитной речи.

2

13. Методы подстройки параметров системы распознавания речи на голос говорящего

2

14. Методы автоматического синтеза речи по тексту

2

ВСЕГО( зач. ед.(часов))

28

ВИДЫ САМОСТОЯТЕЛЬНОЙ РАБОТЫ




Темы

Трудоёмкость в зач. ед.(количество часов)

1

Проработка и повторение лекционного материала и материала рекомендованной литературы – выполняется самостоятельно каждым аспирантом по итогам каждой из лекций, результаты контролируются преподавателем на лекционных занятиях, используются конспект лекций, учебники, рекомендуемые данной программой

40

2

Самостоятельное изучение отдельных подразделов программы – выполняется каждым аспирантом по заданию преподавателя, результаты контролируются преподавателем на лекционных занятиях, используются материалы, рекомендуемые данной программой

22




ВСЕГО ( зач. ед.(часов))

62 часа

СОДЕРЖАНИЕ ДИСЦИПЛИНЫ

Развёрнутые темы и вопросы по разделам

 

Разделы и темы

Содержание

Объем (зачетные единицы - часы)

Общее количество часов

 

 

Аудиторная работа

Самостоятельная работа

 

1

Предмет речевых технологий

Основные задачи речевой тех-нологии: распознавание речи; распознавание диктора; компрессия речи;фильтрация речи; синтез речи; распознава-ние языка;понимание речи; обучение произношению; диагностика патологий. Вариативность (интер- и интра) дикторная. Речевой сигнал. Основные этапы генерации и восприятия речи. Визуализация речевого сигнала.

2

2

4

2

Элементарные сведения о речеобразовании восприятии речи человеком.

Восприятие речи. Схема слухового тракта. Естественная частотная шкала слуха Частота колебаний и высота тона. Час-тотные группы слуха. Эффект маскировки. Восприятие громкости звуков. Качество речи. Разборчивость и комфортность. Схема речеобразующего тракта. Частота основного тона. Формантные частоты.

2

2

4

3

Элементы фонетики.

Фонемы. Классы фонем: гласные, согласные, твердые, мягкие, взрывные, звонкие, глухие. Фонетические алфавиты. Система Аванесова и машинные алфавиты. Алфавит IPA. Алфавит SAMPA. Произносительная транскрипция. Запись произношения в виде фонематической транскрипции.

2

2

4

4

Обработка сигналов в частотной области. Кратковре-менный анализ. БПФ. Параметри-ческое и признаковое описание речевых образов в частотной области.

Временные и частотные параметры. Проблема анализа протяженных сигналов и идея кратковременного анализа. Преобразование Фурье. ДФП. Алгоритм БПФ. Свойства ПФ. Амплитудный спектр. Кратковременное преобра-зование Фурье. Использование оконных функций. Кратко-временный спектр. Цифровая фильтрация: Гребенка ЦФ. Представление ДПФ как гребенки ЦФ. Кепстр. Мел-спектральные и мел-кепстральные коэффициенты.

2

6

8

5

Параметрическое описание речевых сигналов во временной области. Модель линейного предсказания речи

Модель авторегресии. Постановка задачи предсказания для временных последовательностей. Оценка параметров АР-модели в общем виде. Модель линейного предсказания речи. Физический смысл модели ЛПР. Коэффициенты линейного предсказания (КЛП). Авторегрессионный и автокорреляционный методы вычисления КЛП. Алгоритм Дарбина.

2

6

8

6

Кодирование речевых сигналов. Векторное квантование. Примеры современных речевых кодеков

Постановка задачи сжатия речевого сигнала. Измерение скорости передачи. A и U законы кодирования. Кодек G 711. Векторное квантование парамтеров речевых сигналов. Алгоритм k-средних. Кодек G723. Кодек MPEG

2

2

4

7

Меры сходства речевых сигналов. Переход от кратковре-менных параметров к протяженным во времени образам. Меры схожести для образов различной длительности.

Локальные меры сходства речевых сигналов. Метрика L2.Кепстральные расстояния. Связь со спектральными. Мера Итакуры-Саито (это не расстояние!). Методы нелинейного сравнения (деформации) протяженных образов на основе динамического программирования. Алгоритм Т.К.Винцюка.

2

4

6

8

Структура систем распознавания речи. Статистичес-кий подход к распознаванию речи. Критерии эффективности работы системы распознавания речи.

Статистическая формулировка проблемы распознавания речи (уравнение для распознавания слитной последовательности слов). Основные компоненты системы распознавания. Количественная оценка эффективности работы системы распознавания речи. Ошибки первого и второго рода. Примеры значений оценок эффективности для современных систем распознавания речи: WER, DER, LER, CER. Оценка эффективости работы систем распознавания ключевых слов – FAHR Оценка эффективости работы систем речевого диалога.

2

2

4

9

Статистичес-кие методы моделирования последовательностей образов. Скрытые марковские модели. Модель смеси нормальных (гауссовых) распределений (СГР). Оценка параметров СММ и СГР по обучающей выборке.

Скрытые марковские модели (СММ или HMM). Представление речевого сигнала в виде цепи Маркова. Три основные проблемы, связанные с практическим применением СММ. Алгоритм прямого и возвратного хода. Алгоритм Витерби (Viterbi). Непрерывные и дискретные СММ. Оценка параметров дискретной СММ. Основные недостатки СММ. Модель смеси нормальных гауссовых распределений (СГР - GMM). Оценивание параметров СММ-СГР с помощью ЕМ-алгоритма. Алгоритм Баума-Уэлча (Baum-Welch).

2

10

12

10

Акустико-фонетическое моделирование в системах распознавания речи.

Выбор множества акустико-фонетических моделей. Монофоны, бифоны и трифоны. Дискретные, непрерывные и полунепрерывные СММ. Автоматический выбор алфавита моделей. Использование деревьев бинарных решений для вычисления оптимального множества марковских моделей. Моделирование вариативности произношения.

2

6

8

11

Статистические модели языка

Что такое модель языка. Грамматики как модели языка. Стандарт SRGS. Вероятностная модель языка. Способы оценки качества модели языка. Перплексия. N-граммные модели языка.Дисконтные методы оценки параметров N граммных моделей языка.

2

6

8

12

Алгоритмы поиска - декодирования для слитной речи. Алгоритм перемещения маркера (фишки).

Представление произноси-тельного лексикона в виде графа. Интерпретация распознавания речи как поиска на графе. Алгоритм А*. Алгоритм перемещения фишки. Интеграция модели языка в процедуру поиска на лексической сети. Сохранение вычислительной эффектив-ности алгоритма. Генерация списка N лучших гипотез. Проблема кроссвордов

2

6

8

13

Методы настройки системы распознавания на голос диктора

Адаптация признаков речевого сигнала в частотной области по алгоритму VTLN. Настройка на голос путем адаптации параметров GMM: алгоритм MLLR

2

2

4

14

Синтез речи

Синтез речи. Компилятивный, формантный и артикуляторный синтез.Методы OLA и PSOLA. Метод Unit Selection. Оценки качества речевого сигнала: субьективные и обьективные.

2

6

8

ВСЕГО

28

62

90

5. ОБРАЗОВАТЕЛЬНЫЕ ТЕХНОЛОГИИ

В учебном процессе используются следующие образовательные технологии:



Вид занятия

Форма проведения занятий

Цель

1

Лекция

Изложение теоретического ма териала

Получение теоретических знаний по дисциплине

2

Лекция

Изложение теоретического ма териала с помощью презентаций

Повышение степени понимания материала

3

Лекция

Разбор конкретных примеров применения современных технологий обработки текстов

Осознание связей между теорией и практикой, а также взаимозависимостей разных дисциплин

4

Самостоятельная работа аспирантов

Самостоятельное изучение отдельных подразделов программы.

Самоподготовка (проработка и повторение лекционного материала и материала рекомендованной литературы)



Повышение степени понимания материала

6. ОЦЕНОЧНЫЕ СРЕДСТВА ДЛЯ ТЕКУЩЕГО КОНТРОЛЯ УСПЕВАЕМОСТИ, ПРОМЕЖУТОЧНОЙ АТТЕСТАЦИИ ПО ИТОГАМ ОСВОЕНИЯ ДИСЦИПЛИНЫ И УЧЕБНО_МЕТОДИЧЕСКОЕ ОБЕСПЕЧЕНИЕ САМОСТОЯТЕЛЬНОЙ РАБОТЫ АСПИРАНТОВ.

Форма контроля знаний:

- кандидатский экзамен по специальности.

Контрольно-измерительные материалы

На кандидатском экзамене аспирант должен продемонстрировать знания в объеме основной программы кандидатского экзамена по специальности 05.13.11 «Математическое обеспечение вычислительных машин, комплексов и компьютерных сетей», а также дополнительной программы, в которую, в зависимости от выбранной аспирантом специализации, могут входить вопросы, рассматриваемые в данном курсе.



Перечень контрольных вопросов для дополнительной программы:

1

Назовите и опишите основные типы задач, которые решает речевая технология

2

Особенности слухового восприятия. Эффект маскировки, критические полоски слуха. Как особенности восприятия используются в речевой техноогии, в частности в алгоритмах компрессии и подавления помех в речи.

3

Фонемы, фоны. Как соотносятся буква и фонемы. Что такое аллофон. Пример алфавита фонем для русского языка. Произносительная транскрипция слова. Каноническая транскрипция. Произношение, вариативность произношения в разговорной речи, способы моделирования вариативности произношения.

4

Статистическая формулировка проблемы распознавания речи. Что понимается под моделью языка, акустико-фонетической моделью, моделью произношения.

5

Дискретное преобразование Фурье последовательностей. Определение и основные свойства. Быстрое преобразование Фурье (БПФ).

6

Кратковременный анализ речевых сигналов. Кратковременный спектр. Оконные функции. Амплитудный спектр. Мел-спектр.

7

Что такое кепстр сигналов и Мел-кепстр. Алгоритм вычисления мел-кепстральных коэффициентов речевого сигнала.

8

Модель линейного предсказания речи (ЛПР). Коэффициенты линейного предсказания. Автокорреляционный метод оценки коэффициентов ЛПР. Алгоритм Дарбина.

9

Локальные меры схожести для речевых сигналов: Метрика L2. Cпектральное расстояние. Кепстральное расстояние, усеченное кепстральное расстояние. Информационные меры, мера Итакуры-Саито.

10

Скрытая Марковская модель речевых сигналов. Основные параметры СММ и их физический смысл. Три основные проблемы, связанные с использованием СММ.

11

Вычисление полной вероятности для наблюдений с помощью процедуры прямого и обратного хода.

12

Вычисление вероятности наилучшей последовательности состояний с помощью процедуры Витерби

13

Основные виды СММ. Вычисление вероятностей наблюдений для дискретных и непрерывных СММ.

14

Оценка параметров СММ. Процедура Баума – Уэлча (Baum-Welch).

15

Количественная оценка эффективности работы системы распознавания речи: точность распознавания в терминах пословная и др. ошибок распознавания (WER, DER, LER), операционная характеристики приемника (ROC). Показатели эффективности работы систем обнаружения ключевых слов (FOM, FAHR).

16

Методы акустико-фонетического моделирования в системах распознавания речи. Контексто-зависимые модели звуков: монофоны, бифоны, трифоны. Использование деревьев бинарных решений для нахождения оптимального множества марковских моделей.

17

Представление языка в диалоговых системах распознавания речи. Стандарт SRGS.

18

Статистическая модель языка. Энтропия и перплексия языка. Вероятностные n-граммные модели, основные методы оценки параметров моделей языка. Дисконтные модели. Модель классов слов. Триггерные модели.

19

Синтез речи. Компилятивный, формантный и артикуляторный синтез. Алгоритмы OLA и PSOLA. Метод Unit Selection.

20

Методы быстрой настройки параметров моделей на голос говорящего. Алгоритмы VTLN и MMLR.

21

Представление произносительного лексикона в виде префиксного графа. Алгоритм А*. Алгоритм перемещения фишки. Рекомбинация путей в вершинах графа. Интеграция модели языка в процедуру поиска на лексической сети. Пререживание путей и друнгие способы поддержания вычислительной эффективности процедур распознавания речи.


7. МАТЕРИАЛЬНО-ТЕХНИЧЕСКОЕ ОБЕСПЕЧЕНИЕ ДИСЦИПЛИНЫ

Необходимое оборудование для лекций и практических занятий: Компьютер и мультимедийное оборудование (проектор, звуковая система)

Необходимое программное обеспечение: ОС Microsoft Windows, Linux, MS Office, включая MS PowerPoint, любой браузер для доступа в Интернет

Обеспечение самостоятельной работы - базы данных по журналам Computational Linguistics, ACL Journal

8. УЧЕБНО-МЕТОДИЧЕСКОЕ И ИНФОРМАЦИОННОЕ ОБЕСПЕЧЕНИЕ ДИСЦИПЛИНЫ

Основная литература

  • Ронжин А.Л., Карпов А.А., Ли И.В. Речевой и многомодальный интерфейсы, Наука, 2006 г.

  • Потапова Р.К. Речевое управление роботом: лингвистика и современные автоматизированные системы / Р.К. Потапова. - М.:КомКнига, 2005. - 328 с.

  • Винцюк Т.К. Анализ, распознавание и смысловая интерпретация речевых сигналов, Наукова думка, 1987

  • Рабинер Л, Шафер Р. Цифровая обработка речевых сигналов, М., Радио и связь, 1981

  • Маркел Дж., Грей. Линейное предсказание речи, М., Радио и связь, 1980

  • Методы автоматического распознавания речи под ред. У.Ли, М.Мир 1983 г.

  • Corpus-Based Methods in Language and speech processing, Kluwer Academic Publishers, 1997 [библиотека ВЦ РАН]

  • X.Huang, Acero А. Spoken Language Processing: a Guide to Theory, Algorithm and System Development, 2001, Prentice Hall [ доступна в http://www.ccas.ru/sites/speech]

  • Rabiner L., Juang B.-H. Fundamentals of Speech Recognition. Prentice Hall, 1993 , Prentice Hall PTR [доступна в http://www.ccas.ru/sites/speech]

Информационные ресурсы: Журналы

  • Proceedings of IEEE Conference on Acoustic, Speech and Signal Processing (1980-2012)

  • Proceedings of InterSpeech Conference (1995-2012 гг.)

  • Proceedings of SPECOM (Speech and Computer Int.Conference) (1998- 2012 гг.)

  • Speech Communication, Elsevier

  • Computer Speech and Language, Academic Press, Elsevier

  • IEEE Transactions on Speech and Audio Processing,

  • IEEE Transactions on Audio, Speech and Language Processing ( IEEE Signal Processing Society)

  • Речевые технологии, м., Нар.образование (2008-2012)

Электронные ресурсы, включая доступ к базам данных и т.д.

  • htk.eng.cam.ac.uk/ - HTK Toolkit - сайт Кембриджский университета

  • http://www.spectrum.uni-bielefeld.de/~gibbon/gibbon_handbook_1997 - eaglebook

  • http://speech.cs.cmu.edu/ сайт университета Карнеги-Меллона, США

Программу составил к.ф.-м.н. Чучупал В.Я.

Принята на заседании ученого совета ВЦ РАН



Протокол № _____ от ____ декабря 2012г.


Смотрите также:
Рабочая программа учебной дисциплины земельное право
216.79kb.
1 стр.
Рабочая программа учебной дисциплины «Исполнительное производство»
473.69kb.
4 стр.
Рабочая программа учебной дисциплины «Договорное право»
201.58kb.
1 стр.
Рабочая программа учебной дисциплины «Право на недвижимость
383.1kb.
2 стр.
Рабочая программа учебной дисциплины «Международное частное право» «International Private Law»
761.58kb.
4 стр.
Рабочая программа учебной дисциплины деловой этикет business Etiquette
276.36kb.
1 стр.
Рабочая программа учебной дисциплины «Право собственности и способы его защиты»
604.59kb.
3 стр.
Рабочая программа учебной дисциплины сравнительное правоведение Comparative Jurisprudence Язык обучения: русский
288.6kb.
1 стр.
Рабочая программа учебной дисциплины «История развития прокуратуры в России. Прокуратура зарубежных государств»
222.87kb.
1 стр.
Рабочая программа учебной дисциплины «иностранный язык» наименование учебной дисциплины
285.62kb.
1 стр.
Рабочая программа учебной дисциплины «Международно-правовая охрана интеллектуальной собственности» «International Legal Protection of Intellectual Property»
435.19kb.
3 стр.
Рабочая программа учебной дисциплины «дополнительные главы неорганической химии. Химия элементов»
670.48kb.
3 стр.