Главная
страница 1
ФРАЗОВАЯ ПРОСОДИЯ

В СВЕТЕ ЗАДАЧ АВТОМАТИЧЕСКОГО СИНТЕЗА РЕЧИ



О.Ф. Кривнова (Моска, МГУ им. М.В.Ломоносова)

1. Как известно, автоматический синтез речи, построенный с использованием лингвистически обоснованных алгоритмов и правил, может рассматриваться в то же время как динамическая модель функционирования звуковой системы языка. Это не просто некоторое теоретическое построение, а вполне конкретный инструмент, позволяющий контролировать и проверять исходные фонетические (и шире – лингвистические) представления. Большое значение имеет при этом то, что при построении машинных речевых систем отчетливо выявляются недостающие фонетические знания, нечетко сформулированные понятия и отсутствие или недостаточность правил, задающих употребление и фонетико-акустическую реализацию звуковых средств языка. Подобные лакуны (и в большом количестве) обнаруживаются как для сегментных, так и для супрасегментных звуковых явлений и на самом деле требуют расширения и уточнения фонетических знаний, а не собственно компьютерных технологий, которыми обычно не очень хотят заниматься лингвисты. В связи с этим мы хотели бы обратить внимание на несколько крупных проблем, которые связаны с моделированием фразовой просодии в системе автоматического синтеза речи.


2. Современные компьютерные технологии синтеза речи в настоящее время вплотную подошли к задаче озвучивания произвольного текста, т.е. фактически к имитации поведения человека, читающего некоторый текст (т.н. сиcтемы "Текст-Речь" или "Text-to-Speech"). В системах, которые ставят перед собой такую задачу, обычно выделяются два крупных блока:

1) блок лингвистической обработки текста или подготовки его к озвучиванию; и 2) блок генерации акустического сигнала. В настоящем сообщении мы не будем касаться устройства и возможностей второго блока. Достаточно сказать, что технические проблемы, которые здесь возникают, решаются достаточно успешно и позволяют получить синтезированную речь высокого качества, если на выходе лингвистического блока правильно заданы акустические параметры, нужные для образования акустического сигнала. Таким образом, естественность синтезированной речи (с учетом компьютерных возможностей) определяется в первую очередь тем, как работает лингвистический блок синтезатора.




  1. На выходе лингвистического блока каждое предложение озвучиваемого

текста должно быть представлено в виде транскрипции, которая фиксирует

одновременно как звуковой состав предложения, так и его супрасегментные признаки, которые в условной, символьной форме задают ритмический

рисунок предложения (или его отдельных смысловых фрагментов, если

предложение фонетически членится), локализацию и тип фокусных смысловых акцентов, тип используемой интонационной модели, глобальные

интонационные параметры (громкость, темп, активная зона голосового

диапазона произнесения, тип фонации). Соответственно, в этом блоке

синтеза выделяются два транскриптора: фонемный (или иногда более

детальный аллофонический) и акцентно-интонационный.

В фонемном транксрипторе обычно реализуются правила чтения "буква-

звук", и, хотя и здесь есть "белые" пятна, связанные прежде всего с

различными стыковыми явлениями (границы слов, морфем и т.п.), ядерный

состав формализованных сегментных правил, по крайней мере, для

литературного русского языка уже можно считать известным.

Совершенно иначе обстоит дело с акцентно-интонационным транскриптором. Нам известны две попытки создания такого транскриптора для русской эмоционально нейтральной речи [?], авторы которых вплотную столкнулись с ограниченностью и недостаточной формализованностью фонетических знаний в области фразовой интонации. Достаточно сказать, что тексты разных речевых жанров именно в плане фразовой просодии читаются очень по-разному, для создания акцентно-интонационного транскриптора недостаточно просто знать, что бывают эмфатически и логически обусловленные подчеркивания слов, что интонационное членение коррелирует со смысловым и синтаксическим членением предложения, что при выражении определенных смыслов выбор интонационного оформления зависит от лексико-синтаксического состава предложения, что знаки препинания сложным образом связаны с интонацией и т.д. Для создания транскриптора нужно выявить все текстовые ситуации, которые являются интонационно значимыми, и сформулировать четкие правила, по которым те или иные признаки этих ситуаций задают выбор определенных элементов акцентно-интонационной транскрипции предложения.



Сложность этой задачи не нуждается в специальном объяснении, однако без ее решения невозможен не только автоматический синтез речи, но и дальнейшее развитие теории фразовой просодии в собственно лингвистическом плане.

4. При синтезе речи лингвистическая подготовка текста к озвучиванию не заканчивается построением комплексной фонетической транскрипции. Дальше нужно определить значения акустических параметров, на основе которых будет происходить генерация акустического сигнала. В частности, должны быть определены тональные (частота основного тона), временные и энергетические характеристики фонетических составляющих, выделенных в звуковой оболочке предложения в результате транскрипции. Здесь возникает свой комплекс проблем. Эти проблемы связаны со сложной многофакторной природой любого акустического параметра, которая проявляется в том, что значения акустичес-ких параметров определяются одновременно сбалансированным действием как сегментных факторов, так и различных компонентов акцентно-интонационного рисунка предложения. С точки зрения синтеза здесь опять-таки недостаточно знать, какие фонетические факторы важны и в каком направлении они действуют. Для получения естественно звучащей речи нужны точные фонетические модели взаимодействия различных факторов, причем в том сложном их сплетении, которое имеет место в естественных речевых ситуациях (хотя бы при чтении текста), а не в условиях произнесения отдельных, специально подобранных фраз. В целом, эта проблема связана с исследованием систематической акустической вариативности элементов интонационного оформления, а наш опыт работы в области автоматического синтеза русской речи показывает, что без учета такой вариативности (причем достаточно детального) добиться естественного звучания речевых образцов невозможно. В то же время хорошо известно, что исследование систематической фонетической вариативности и ее прогнозирование неразрывно связано с задачей выявления функционально значимых фонетических различий. Следовательно, и в рамках этой задачи проблемы синтеза речи тесно связаны с фундаментальными теоретическими вопросами фразовой просодии.


Смотрите также:
В свете задач автоматического синтеза речи
42.58kb.
1 стр.
Использование нейросетей для автоматического распознавания и синтеза речи
241.83kb.
1 стр.
Разработка методов представления и обработки естественного языка для проблемно-ориентированных систем автоматического понимания речи
211.25kb.
1 стр.
Синтеза анализа и синтеза альбом дошкольника
527.6kb.
4 стр.
Анализа и синтеза у дошкольников с нарушениями речи. Нарушение речи является распространенным явлением в последние год
68.85kb.
1 стр.
Генри Форд. Моя жизнь, мои достижения
2613.6kb.
18 стр.
Правильность речи
188.55kb.
1 стр.
Тиристорное устройство автоматического ввода резерва
630.02kb.
6 стр.
Книга рассчитана на научных работников, инженеров и студентов, специализирующихся по технической кибернетике и теории информации
1803.56kb.
9 стр.
Для решения широкого круга задач автоматического управления
48.03kb.
1 стр.
Сказка про всех на свете
85.1kb.
1 стр.
Автоматический синтез речи – проблемы и методы генерации речевого сигнала
139.49kb.
1 стр.