Главная Другое
Экономика Финансы Маркетинг Астрономия География Туризм Биология История Информатика Культура Математика Физика Философия Химия Банк Право Военное дело Бухгалтерия Журналистика Спорт Психология Литература Музыка Медицина |
страница 1
Правительство Российской Федерации Нижегородский филиал Федерального государственного автономного образовательного учреждения высшего профессионального образования "Национальный исследовательский университет "Высшая школа экономики" Факультет бизнес-информатики и прикладной математики Программа дисциплины «Модели корпусной лингвистики» для направления 010400.68 «Прикладная математика и информатика» подготовки магистра Магистерская программа «Прикладная математика и информатика» Специализация «Компьютерная лингвистика» Автор программы: Cибирцева В.Г., к.ф.н., НИУ ВШЭ - Нижний Новгород, vsibirtseva@hse.ru Одобрена на заседании кафедры прикладной лингвистики и межкультурной коммуникации « «30» октября 2012г Зав. кафедрой докт. филол.н., проф.В.Г.Зусман _______________________ Рекомендована секцией УМС «Гуманитарные науки» «30» октября 2012 г Председатель В.Г.Зусман _______________________ Утверждена УМС НИУ ВШЭ – Нижний Новгород «25» декабря 2012 г. Председатель Н.С. Петрухин ________________________ Нижний Новгород, 2011
Настоящая программа учебной дисциплины устанавливает минимальные требования к знаниям и умениям студента и определяет содержание и виды учебных занятий и отчетности. Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления 010400.68 "Прикладная математика и информатика", обучающихся по магистерской программе "Прикладная математика и информатика", специализация «Компьютерная лингвистика», изучающих дисциплину. Программа разработана в соответствии с:
1.Цели освоения дисциплиныЦель освоения дисциплины «Модели корпусной лингвистики» состоит в том, чтобы познакомить студентов с концепциями корпусной лингвистики, дать им возможность освоить основы корпусных технологий, приобрести навыки работы с корпусами, определить место дисциплины и собственно корпусов в ряду информационных технологий. 2.Компетенции обучающегося, формируемые в результате освоения дисциплиныВ результате обучения студент: - должен знать: основные понятия корпусных технологий основные типы корпусов понятие разметки основные стандарты разметки средства создания корпусов основные имеющиеся корпуса типы программных средств для работы с корпусами в целом поисковые средства (конкордансеры и корпусные менеджеры)
работать с программами-менеджерами и конкордансерами осуществлять поиск и исследования на базе корпусов.
3.Место дисциплины в структуре образовательной программыНастоящая дисциплина относится к блоку обязательных дисциплин программы (базовая часть) для направления «Прикладная математика и информатика» (1-й год обучения,1-2 модули). Основные положения дисциплины должны быть использованы одновременно и в дальнейшем при изучении следующих дисциплин: структуры и модели когнитивной лингвистики; основы компьютерной лингвистики. 4.Тематический план учебной дисциплины
5.Формы контроля знаний студентов
Результатом проверки работы студентов является оценка, выставляемая по 10-ти балльной шкале в соответствии со следующими критериями. Высшая оценка(10 баллов) выставляется при качественной подготовке теоретических вопросов к устной части зачёта по всему курсу, при отсутствии фактических ошибок в контрольной работе ( допускается 1-2 негрубые ошибки, которые студент сам исправляет в беседе с преподавателем). Оценка 8-9 баллов предполагает качественную подготовку к устной части зачёта, 1-2 фактические ошибки в контрольной работе. Оценка 6-7 баллов выставляется при наличии отдельных неточностей, допускает частичную неполноту ответа и 1-4 фактические ошибки в контрольной работе. Оценка в 5 баллов выставляется, если контрольная работа содержит более 5 ошибок и устный ответ содержит значительное количество ошибок. 4 балла выставляется, если обнаружены значительные пробелы в области теоретических знаний и при наличии серьёзных ошибок в контрольной работе. Оценка в 3 балла выставляется при наличии лишь отдельных положительных моментов в устном ответе или в контрольной работе. 2 балла выставляется при полном отсутствии знаний. 1;0 – неправильные ответы сопровождаются демонстративными проявлениями безграмотности или неэтичного отношения к теме и предмету в целом.
6.Содержание дисциплиныДисциплина состоит из трех частей, которые могут изучаться как последовательно, так и каждая в отдельности: Часть 1. Введение в корпусную лингвистику (18 лекций, 10 семинаров). Часть 2. Создание корпусов (14 лекций, 16 семинаров). Часть 3. Использование корпусов (10 лекций, 6 семинаров). Все три части между собою связаны, так, например, методы создания корпусов определяются их назначением и типологией, которые рассматриваются в первой части. Языки запросов и возможности корпусных менеджеров во многом определяются разметкой, которая рассматривается в третьей части.
Тема 1. Основные понятия и определения. Тема 2. Лингвистические (языковые) и нелингвистические корпусы.
Тема 3. История лингвистических корпусов: от картотеки к корпусу. Тема 4. Корпусная лингвистика: современное состояние. Тема 5. Корпусная лингвистика в России. Краткое содержание разделов 2 части: Раздел 3. Типология корпусов Тема 6. Классификация (типология) корпусов по различным основаниям. Тема 7. Типы корпусов по задачам. Тема 8. Типы корпусов по формальным признакам. Раздел 4. Методы и средства разметки и создания корпусов. Тема 9. Языковые средства представления размеченных текстов. Международные стандарты и проекты (TEI, EAGLES, CDIF, XCES). Тема 10. Экстралингвистическая разметка. Метаданные. Графематический анализ. Тема 11. Лингвистическая разметка. Автоматическая морфологическая и синтаксическая разметка. Снятие неоднозначности. Параллельные корпусы. Многоязычие. Проблема выравнивания.
Тема 12. Конкордансер и корпусный менеджер как поисковая система. Сравнение с архитектурой поисковых систем в сети Интернет. Тема 13. Языки запросов корпусных менеджеров. Выходные интерфейсы. Тема 14. Обзор существующих корпусов различных типов. Сравнительный анализ корпусов и корпусных менеджеров. Краткое содержание разделов 3 части: Раздел 6. Корпусные исследования. Тема 15. Лингвистические исследования, базирующиеся на корпусах. Использование корпусов в обучении языкам и в других гуманитарных исследованиях. Использование корпусов в настройке и самообучении лингвистических автоматов. Тема 16. Поисковые системы Интернет как корпусные менеджеры. Специализированные корпусные интерфейсы к индексам глобальных поисковых систем.
7.Образовательные технологииДистанционные лекции, семинары, разбор практических задач по НКРЯ; встреча с ведущими специалистами-разработчиками НКРЯ, мастер-классы ведущих ученых. 8.Оценочные средства для текущего контроля и аттестации студента8.1.Вопросы для оценки качества освоения дисциплиныПримерная тематика рефератов Способы использования корпусов в лингвистических исследованиях. Исследование способов использования корпусов в лексикографии. Изучение средств обработки корпусных данных, представленных на языке XML. Создание электронной хрестоматии по корпусной лингвистике. Исследование механизмов взаимодействия корпуса текстов и электронной картотеки (корпусы цитат). Создание веб-сайта по корпусной лингвистике. Графематический анализ текстов. Унификация текстов внутри корпуса 19 века. Автоматическая морфологическая разметка текстов 19 века. Исследование набора метаданных для корпуса 19 века. База данных «Морфологический словарь языка 19 века». Создание параллельного англо-русского корпуса. Методы снятия морфологической неоднозначности. Исследование механизмов взаимодействия корпуса текстов и электронной картотеки (корпусы цитат).
Вопросы к экзаменуДать определения терминов: Корпус
Разметка Репрезентативность Метаданные Корпусный менеджер Treebank Лемматизация Конкорданс Параллельный корпус Перечислить типы корпусов Назвать и охарактеризовать наиболее известные корпусы. Проблемы репрезентативности корпусов. Проблемы хронологии в общеязыковых корпусах. Отбор текстов для корпусов. Графематический анализ. Понятие разметки. Типы разметки. Морфологическая разметка. Синтаксические корпуса (treebanks). Семантическая разметка. Технология создания корпусов. Стадии работы. Автоматическая морфоразметка. Автоматический синтаксический анализ (parsing). Языковые средства представления размеченных текстов (языки SGML, XML). Международные стандарты (TEI, EAGLES, CDIF, XCES). 9. Порядок формирования оценок по дисциплинеВ течение семестра студентами выполняются практические домашние работы, подготавливаются рефераты по одной из выбранных тем, которые «защищаются» в конце курса в виде докладов. В конце курса — экзамен. Накопительная оценка по 10-ти балльной шкале за работу на семинарских и практических занятиях определяется перед итоговым контролем. Отек. = 0,35·Одом.работы + 0,2·Оконтрольная работа + 0,2·Оаудиторная активность+ 0,25·Озащита реферата Оитоговый = 0,25·Оэкзамен + 0,75·Отекущий Способ округления оценок – арифметический. 10. Учебно-методическое и информационное обеспечение дисциплины
В.П. Захаров В.П., Богданова С.Ю. Корпусная лингвистика. - Иркутск, ИГЛУ, 2011. 11.2. Дополнительная литература 1. Богуславский И.М. и др. Аннотированный корпус русских текстов: Концепция, инструменты разметки, типы информации // Труды Международного семинара по компьютерной лингвистике и ее приложениям «Диалог-2000». Протвино, 2000. 2. Венцов А.В., Касевич В.Б., Ягунова Е.В. Корпус русского языка и восприятие речи // Научно-техническая информация. Сер. 2. 2003. № 6. С. 25–32. 3. Доклады научной конференции «Корпусная лингвистика и лингвистические базы данных» / Под ред. А.С. Герда. СПб., 2002. 4. Захаров В.П. Чешский национальный корпус текстов: организация и способы использования // Доклады научной конференции «Корпусная лингвистика и лингвистические базы данных» / Под ред. А.С. Герда. СПб., 2002. С. 72–79. 5. Копотев М.В. Корпусная лингвистика в Финляндии (обзор ресурсов) // Научно-техническая информация. Сер. 2. 2003. № 6. С. 37–41. 6. Копотев М.В., Мустайоки А. Принципы создания Хельсинкского аннотированного корпуса русских текстов (ХАНКО) в сети Интернет // Научно-техническая информация. Сер. 2. 2003. № 6. С. 33–36. 7. Научно-техническая информация. Сер. 2. 2005. № 3, 6. 2003. № 6. 8. Труды Международного семинара по компьютерной лингвистике и ее приложениям «Диалог-2000», «Диалог-2001», «Диалог-2002», «Диалог-2003», «Диалог-2004», «Диалог-2005». 9. Aarts Jan. Комментарий к статье «A New Corpus of English» (Sidney Greenbaum) // Directions in Corpus Linguistics. Berlin, 1992. 10. Burnard L. The Text Encoding Initiative: an Overview. // Spoken English on Computer / Leech G., Myers G., Thomas J. (eds.) New York, 1995. P. 223–235; См. также http://www-tei.uic.edu/orgs/tei/. 11. Ball Catherine N. Tutorial: Concordances and Corpora // http://www.georgetown.edu/cball/corpora/tutorial.html 12. BNC: The BNC Users Reference Guide, 2000. http://www.natcorp.ox.ac.uk/World/HTML/ 13. Fillmore C.J., Atkins B.T.S. Starting Where the Dictionaries Stop: the Challenge of Corpus Lexicography // Computational Approaches to the Lexicon / Atkins B.T.S., Zampolli A. (eds.). 1994 14. Gellerstam Martin. Modern Swedish Text Corpora // Directions in Corpus Linguistics. Berlin, 1992. P. 151–159. 15. Lee D. Genres, Registers, Text Types, Domains, and Styles: Clarifying the Concepts and Navigating a Path through the BNC Jungle // Language Learning & Technology. September 2001. Vol. 5, N. 3, P. 37–72; См. также http://llt.msu.edu/vol5num3/pdf/lee.pdf 16. Leech G. Corpus Annotation Schemes // Literary and Linguistics Computing. 1993. Vol. 8. N. 4. P.275–281 17. Proceedings of the LREC (Language Resource Evaluating Conference). 2002, 2003, 2004, 2005 18. Sharoff S. Towards Basic Categories for Describing Properties of Texts in a Corpus. In Proc. of Language Resources and Evaluation Conference (LREC04). May, 2004, Lisbon, Portugal // http://www.comp.leeds.ac.uk/ ssharoff/texts/lrec-04.pdf 19. TEI P4: Guidelines for Electronic Text Encoding and Interchange. 2001 / Sperberg-McQueen C. M., Burnard L. (eds.) // http://www.hcu.ox.ac.uk/ TEI/P4X/index.html. 20. UCREL: Corpus Annotation // http://www.comp.lancs.ac.uk/ucrel/annotation.htm21. XML Corpus Encoding Standard Document XCES 0.2. // http://www.cs.vassar.edu/XCES/22. Zakharov V., Volkov S. Evaluating Morphological Tagging of Russian texts of the XIXth Century // Text, Speech and Dialogue: Proceedings of the 7th International Conference TSD 2004, Brno, Czech Republic, September 2004 /23. Petr Sojka, Ivan Kopeček, Karel Pala (eds.). Berlin; Heidelberg, 2004. P. 235–242. (Lecture Notes in Artificial Intelligence, 3206).12. Материально-техническое обеспечение дисциплины Для лекций и семинаров используется компьютер/ноутбук; проектор; экран. Составитель: Сибирцева В.Г. Смотрите также: Программа дисциплины «Модели корпусной лингвистики»
167.87kb.
1 стр.
Программа учебной дисциплины "Социолингвистика" Программа дисциплины
105.76kb.
1 стр.
Программа дисциплины «Модели бизнеса и методы стратегического менеджмента»
467.27kb.
3 стр.
Программа дисциплины «Модели бизнеса и методы стратегического менеджмента»
467.79kb.
3 стр.
Рабочая программа дисциплины математические модели в механике разрушения блок "Дисциплины специализации"; раздел "Вузовский компонент"
122.61kb.
1 стр.
Программа дисциплины «Современные методы анализа данных»
596.57kb.
4 стр.
Программа дисциплины «Математика и математические модели»
52.16kb.
1 стр.
Программа учебной дисциплины "Метарепрезентация (Theory of Mind), модели сознания и речевые маски в нарративе" Программа дисциплины
67.85kb.
1 стр.
Программа дисциплины «Современная социологическая теория: модели объяснения и логика социологического исследования»
274.04kb.
1 стр.
Программа дисциплины «Современная социологическая теория: модели объяснения и логика социологического исследования»
294.21kb.
4 стр.
Программа дисциплины «Литературные и мифологические модели в римской истории»
139.94kb.
1 стр.
Ономасиологические модели в свете современных школ когнитивной лингвистики 186.11kb.
1 стр.
|