Главная
страница 1
Значение лексических функций для качества машинного перевода

Фролова Татьяна



Лаборатория компьютерной лингвистики ИППИ РАН

tfrolova@cl.iitp.ru



Аннотация
Данная работа посвящена оценке значимости информации о лексических функциях (ЛФ) в словаре системы автоматического перевода ЭТАП-3 для качества англо-русского перевода. В результате описываемого в работе эксперимента при использовании ЛФ удалось добиться не слишком существенного (менее чем десятипроцентного, 29 предложений из 335) улучшения качества перевода), однако после некоторой доработки правил обрабатывающих ЛФ, улучшение качества наблюдалось ещё в 13 предложениях.

1. Введение


Аппарат лексических функций был предложен А.К.Жолковским и И.А.Мельчуком в [1,2] для описания коррелятов слова, имеющих стандартное значение и нестандартное выражение. В нашем эксперименте были представлены следующие ЛФ1:

- OPER1 (Делать X, иметь X или быть в состоянии X (лексически обусловленный глагол, при котором P1 выполняет функцию подлежащего, а X - функцию главного дополнения, например, ГРИПП => болеть (гриппом));

- MAGN (Прилагательное, наречие, сочетание предлога с существительным или сравнительный оборот с союзом, обозначающие большую степень или интенсивность X-а и выполняющие при X-е функцию синтаксического определения или обстоятельства, например, БОЛЕЗНЬ => тяжелая);

- ANTIMAGN (Прилагательное, наречие или сочетание предлога с существительным, обозначающее небольшую степень X-а и выполняющее при X-е функцию синтаксического определения или обстоятельства, например, ПРОСТУДА => легкая);

- FINOPER1 (Перестать делать X, иметь X или быть в состоянии X (лексически обусловленный глагол, при котором P1 выполняет функцию подлежащего, а X - функцию главного дополнения, например, АНГИНА => вылечиваться от (ангины));

- LIQUFUNC0 (Делать так, что Х перестает существовать или иметь место (лексически обусловленный глагол, при котором P0 или P1 выполняет функцию подлежащего, а Х - функцию дополнения, например, БОЛЕЗНЬ => вылечивать (болезнь));

- SING (Существительное, обозначающее один экземпляр, элемент, порцию, штуку или единицу X-а и либо подчиняющее X синтаксически, либо включающее значение X-а в свое лексическое значение, например, АСТМА => приступ (астмы));

Информация о лексических функциях представлена в словарных статьях комбинаторного словаря системы машинного перевода ЭТАП-3 (более подробно о системе см. [4-6]). Представление информации о лексических функциях в системе ЭТАП не полно, работа далека от завершения, однако уже на данном этапе можно сдлать определенные выводы о том, насколько эта информация улучшает качество перевода.



2. Содержание эксперимента

Для эксперимента была взята одна из групп английских слов, в словарных статьях которых лексические функции описаны наиболее последовательно и полно, а именно, имена существительне, обозначающие болезни. Из этого списка были исключены те существительные, встречаемость которых, согласно поисковой системе Google, составляет менее 10 000. Таким образом был получен список из 114 слов, послуживших основой для эксперимента. Словарные статьи русских слов, являющихся переводными эквивалентами этих английских слов, были проверены на предмет наличия в них информации о соответствующих ЛФ.

Для каждого слова из списка при помощи поисковой системы Google было набрано определенное количество предложений, в которых эти слова представлены. Количество предложений было определено следующим образом:

- для десяти слов, которые встречаются миллион и более раз – по 10 предложений;

- для двух слов, которые встречаются менее миллиона, но более девятисот тысяч раз – по 9 предложений;

- для пяти слов (от 800 000 до 900 000 раз) – по восемь предложений;

- для одного слова (более 700 000, но менее 800 000 раз) – семь предложений;

- для двух слов (от 600 000 до 700 000) – по шесть предложений;

- для шести слов (от 500 000 до 600 000) – по пять предложений;

- для четырех слов (от 400 000 до 500 000) – по четыре предложения;

- для девяти слов (от 300 000 до 400 000) – по три предложения;

- для десяти слов (от 200 000 до 300 000) – по два предложения;

- для остальных шестидесяти пяти слов – по одному предложению.

Таким образом, было отобрано 335 предложений на английском языке.

Предложения набирались подряд из результатов поиска для всех слов, кроме последних 65, для которых в алфавитном порядке через один брался то первый результат, то одиннадцатый результат поиска.

Эти 335 предложений были поданы на вход системы перевода ЭТАП-3 с отключенными лексическими функциями. После этого те же 335 предложений были переведены при помощи этой же системы перевода, но с включенными лексическими функциями. В результате сравнения различия были выявлены в 29 предложениях.

Более половины изменений происходит при включении лексической функции OPER1 (15 предложений), ср.:

Английский текст: People who have pneumonia.

Перевод без ЛФ: Люди, у которых есть пневмония

Перевод с ЛФ: Люди, которые болеют пневмонией.

Следующее место в данной группе примеров занимают изменения, связанные с включением лексической фенкции LIQUFUNC0 (9 предложений), ср.:

Английский текст: If diabetes is not treated it can cause health problems

Перевод без ЛФ: Если диабет не обрабатывается, это может вызывать проблемы здоровья.

Перевод с ЛФ: Если диабет не лечится, это может вызывать проблемы здоровья.

В трех предложениях представлены изменения текста перевода, связанные с работой ЛФ MAGN, ср.:

Английский текст: Schizophrenia is a severe illness

Перевод без ЛФ: Шизофрения – суровая болезнь.

Перевод с ЛФ: Шизофрения – тяжелая болезнь.

В одном случае изменение связано с ЛФ FINOPER1, ср.:

Английский текст: I'd like to know the best way to get over flu.

Перевод без ЛФ: Мне бы хотелось знать наилучший способ преодолевать грипп.

Перевод с ЛФ: Мне бы хотелось знать наилучший способ вылечиваться от гриппа.

В одном случае изменение связано с ЛФ ANTIMAGN, ср.:

Английский текст: Rubella is a mild infectious disease with an incubation period of 14-21 days.

Перевод без ЛФ: Краснуха – мягкое инфекционное заболевание с инкубационным периодом 14-21 дней.

Перевод с ЛФ: Краснуха – легкое инфекционное заболевание с инкубационным периодом 14-21 дней.

В ряде случаев значения лексических функций не попали в перевод. Эти случаи можно разделить на две группы.

В семи предложениях не анализируются существительные, образованные от глаголов, имеющих лексико-функциональное значение (во всех семи случаях, LIQUFUNC0), ср.:

Английский текст: Treatment of acute infarction.

Перевод: Обработка острого инфаркта.

Вместо ожидаемого: лечение острого инфаркта

В пяти предложениях адекватного перевода не получается из-за недостаточной разработанности обработки лексической функции SING, ср.

Английский текст: Migraine causes attacks of headaches.

Перевод: Мигрень вызывает атаки со стороны головных болей.

Вместо ожидаемого: Мигрень вызывает приступы головной боли

Описываемые выше тринадцать случаев могут представить собой возможные направления развития обработки лексических функции в системе ЭТАП-3, наряду с расширением количества лексем с последовательным и полным описанием лексических функций в словаре системы ЭТАП-3. После достижения этих целей возможно проведение более масштабного эксперимента с привлечением текстов более разнообразного содержания.

Данный эксперимент проведен на ограниченном лексическом и фразовом материале, однако даже этот материал показывает насколько информация о лексических функциях полезна для перевода.
Автор благодарит В.Г.Сизова за помощь в проведении эксперимента и Л.Л.Иомдина за замечания и поправки к тексту статьи.
[1] А.К.Жолковский, И.А.Мельчук. О семантическом синтезе. // Проблемы кибернетики. Вып. 19. М.: Наука, 1967, с. 177-238.

[2] И.А.Мельчук. Опыт теории лингвистических моделей «Смысл – Текст». М., Наука, 1974.…

[3] Апресян – Дяченко…

[4] Апресян Ю.Д., Богуславский И.М., Иомдин Л.Л., Лазурский А.В., Перцов Н.В., Санников В.З., Цинман Л.Л. Лингвистическое обеспечение системы ЭТАП 2. М: Наука, 1989. 295 стр.

[5] Апресян Ю.Д., Богуславский И.М., Иомдин Л.Л., Лазурский А.В., Митюшин Л.Г., Санников В.З., Цинман Л.Л. Лингвистический процессор для сложных информационных систем. М: Наука, 1992. 256 стр.

[6] Apresian Ju.D., Boguslavsky I.M., Iomdin L.L., Lazursky A.V., Sannikov V.Z, Sizov V.G., Tsinman L.L. ETAP-3 Linguistic Processor: a Full-Fledged NLP Implementation of the MTT. // MTT 2003, First International Conference on Meaning – Text Theory. Paris: École Normale Supérieure, 2003, p. 279-288.








1 Здесь и далее приводятся новейшие экспликации лексических функций, предложенные акад. Ю.Д. Апресяном в статье [3], посвященной компьютерным лексическим играм.


Смотрите также:
Значение лексических функций для качества машинного перевода
56.76kb.
1 стр.
К проблеме перевода сокращений
66.54kb.
1 стр.
Применение генетических алгоритмов для получения логически связного машинного перевода текста
28.34kb.
1 стр.
Профессиональные переводы
34.67kb.
1 стр.
Некоторые важные даты в истории машинного перевода
42.6kb.
1 стр.
Машинный перевод
143.81kb.
1 стр.
Преддипломная практика студентов факультета вмк на безе отдела «Информационных систем» исп ран
25.41kb.
1 стр.
6. Понятие экологических функций литосферы
292.17kb.
1 стр.
Основные принципы теории перевода 7 Специфика перевода киносценариев 7
110.17kb.
1 стр.
Типы перевода сложных существительных и сложных прилагательных
56.97kb.
1 стр.
Л. Ю. Щипицина выделяет следующие базовые текстовые категории, присущие твиттеру: 1) интенциональность (совмещение разных функций в одном твите, твиттер полуфункционален); 2) целостность
656.27kb.
5 стр.
С. А. Шашкова, О. А. Пантелеенко (мглу, Минск) Стилистическая функция терминов
76.45kb.
1 стр.