Главная
страница 1
Правительство Российской Федерации

Федеральное государственное автономное образовательное учреждение высшего профессионального образования
"Национальный исследовательский университет
"Высшая школа экономики"



Факультет Бизнес- информатика


Программа дисциплины
Анализ данных
подготовки магистра для направления 080500.68 Бизнес-информатика

Программа обучения Электронный бизнес


Автор к. ф.-м. н., доцент Е.Р. Горяинова

Рекомендована секцией УМС Одобрена на заседании кафедры


_____________________________ ________________________________

Председатель Зав. кафедрой

_____________________________ ________________________________

«_____» __________________ 20 г. «____»_____________________ 20 г

Утверждена УС факультета

_________________________________

Ученый секретарь

_________________________________

« ____» ___________________20 г.
Москва

1. Цели и задачи дисциплины.
1.1. Цель дисциплины - обучить студентов применять основные модели и методы математической статистики для обработки реальных социально-экономических данных.

1.2. Задачи дисциплины

– освоение студентами вероятностного подхода к анализу реальных социально-экономических явлений;

– построение математических моделей, адекватно описывающих социально-экономические явления;

– овладение методами и алгоритмами обработки и анализа данных, содержащих случайные погрешности,

- освоение робастных непараметрических статистических методов обработки информации, применяемых в условиях априорной стохастической неопределённости.
2. Место дисциплины в структуре ООП.

Программа учебной дисциплины «Анализ данных» предназначена для подготовки студентов, обучающихся по направлению «Бизнес-информатика». Программа составлена в соответствии с Федеральным государственным образовательным стандартом высшего профессионального образования.

«Анализ данных» является самостоятельной учебной дисциплиной, относится к математическому и естественнонаучному циклу дисциплин. Обучающиеся должны владеть знаниями следующих дисциплин: «Линейная алгебра», «Математический анализ», «Теория вероятностей и математическая статистика ».
Аннотация курса.

В курсе освещены следующие темы : методы построения точечных оценок параметров, построение интервальных оценок параметров в гауссовских моделях, основы проверки статистических гипотез, определение объема репрезентативной выборки для однородной и стратифицированной генеральной совокупности, выявление неоднородности выборок с помощью классических и ранговых процедур, дисперсионный анализ, оценивание контрастов, выявление и анализ статистической связи показателей, измеряемых в различных шкалах, меры прогноза в номинальных шкалах, основные методы регрессионного анализа.



3. Требования к результатам освоения дисциплины.

В результате изучения учебной дисциплины «Анализ данных» обучающийся должен



знать:

-алгоритм проверки статистических гипотез;

- основные методы проверки однородности экспериментальных данных;

- методы построения доверительных интервалов параметров случайных величин;

- методы проверки независимости признаков, измеренных в различных шкалах;

- методы оценивания параметров в регрессионных моделях;

- критерии, позволяющие проверять адекватность регрессионной модели;

- принципы сравнения статистических критериев;

уметь:

– строить математические модели, адекватно описывающие социально-экономические явления;

- использовать статистические критерии для проверки гипотез относительно наблюдаемых случайных данных;

- оценивать неизвестные параметры статистической модели;

- использовать стандартные пакеты прикладных статистических программ для обработки и анализа статистической информации;

- готовить научно-технические отчеты и научные публикации по результатам выполненных исследований (ПК-21);

- обрабатывать статистическую информацию в условиях априорной стохастической неопределённости;

- проводить сравнительный анализ различных статистических методов;



владеть:

- основными определениями, методами и алгоритмами анализа данных, содержащих случайную составляющую;

- стандартными инструментариями обработки статистической информации.

Тематический план курса « Анализ данных»





Название темы

Всего

Аудиторные часы

самост. работа







часов

лекции

семинары




1

Основные методы статистического анализа данных.


28

5

5

18

2

Исследование однородности двух выборок


24

4

4

16

3

Дисперсионный анализ


20

3

3

14

4

Анализ статистической взаимосвязи социально-экономических явлений


18

2

2

14

5

Регрессионный анализ

18

2

2

14




Итого

108

16

16

76



Базовый учебник по курсу

1. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. – М.: Инфра. – М, 2003.

2. Кибзун А.И., Горяинова Е.Р., Наумов А.В. Теория вероятностей и математическая статистика. Базовый курс с примерами и задачами. - М.:Физматлит, 2005

Дополнительная литература по курсу

1. Холлендер М., Вулф Д. Непараметрические методы статистики. – М.: Финансы и статистика, 1983.

2. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Исследование зависимостей. Справочное издание под ред. Айвазяна С.А. – М.: Финансы и статистика, 1985.

3. Ивченко Г.И., Медведев Ю.И. Математическая статистика. – М.: Высшая школа, 1992.

4. Дрейпер Н., Смит Г. Прикладной регрессионный анализ: В 2-х книгах, Кн. 1. – М.: Финансы и статистика, 1986. Кн. 2. – М.: Финансы и статистика, 1987.

5. Леман Э. Проверка статистических гипотез. – М.: Наука, 1964.

6. Кокрен У. Методы выборочного исследования. – М.: Статистика, 1976

7. Хеттманспергер Т. Статистические выводы, основанные на рангах. – М.:Финансы и статистика,1987.

8. Крыштановский А.О. Анализ социологических данных. - М.: ИД ГУ ВШЭ, 2007.
Формы контроля и структура итоговой оценки.

Итоговый контроль – письменная зачётная работа (90 мин.)

Итоговая оценка складывается из следующих элементов:

работа на семинарах – 10%;

домашнее задание – 10%;

письменная зачётная работа – 80%



Содержание программы курса «Анализ данных»


Тема 1. Основные методы статистического анализа данных

Введение.

Статистические оценки параметров и их свойства (несмещённость, состоятельность, с.к.-оптимальность).

Основные методы точечного оценивания параметров (Метод моментов, метод максимального правдоподобия).

Интервальное оценивание параметров в гауссовских моделях.

Основы проверки статистических гипотез.

Определение объема репрезентативной выборки для однородной и стратифицированной генеральной совокупности.
Основная литература
1. Кибзун А.И., Горяинова Е.Р., Наумов А.В. Теория вероятностей и математическая статистика. Базовый курс с примерами и задачами. - М.:Физматлит,2005 (глава 5 с.165-168, 188-191,214).

2. Кокрен У. Методы выборочного исследования. М.: Статистика, 1976(глава 3 с.64-74,89-90,глава 5 с.103-111).



Тема 2. Исследование однородности двух выборок

Понятие об однородности выборок.

Выявление неоднородности, связанной со сдвигом (классический критерий Стьюдента, критерий Вилкоксона, Фишера – Йейтса) или масштабом (классический F- критерий, критерий Ансари-Брэдли). Проверка однородности против альтернатив общего вида (критерий Колмогорова – Смирнова).
Основная литература
1. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. – М.: Инфра. – М, 2003(глава 3 с.93-118, глава 5 с.165-190).

2. Хеттманспергер Т. Статистические выводы, основанные на рангах. – М.:Финансы и

статистика,1987 (глава 2 с.76-87).

3.Холлендер М., Вулф Д. Непараметрические методы статистики. – М.: Финансы и статистика, 1983 (глава 5 с.101-110, глава 10 с.232-242).



Тема 3. Дисперсионный анализ

Задача однофакторного анализа (классический F-критерий, ранговый критерий Краскела – Уоллиса). Доверительное оценивание контрастов в гауссовской модели. Критерий Джонкхиера для упорядоченных альтернатив.


Основная литература
1. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. – М.: Инфра. – М, 2003 (главы 6,7 с.191-230).

Тема 4. Анализ статистической взаимосвязи социально-экономических явлений

Шкалы измерений (количественная, порядковая, номинальная).

Исследование связи между номинальными переменными (таблица сопряженности признаков, критерий хи-квадрат).

Случайные векторы. Ковариационная матрица. Независимость и некоррелированность компонент случайного вектора. Выборочный коэффициент корреляции. Критерий проверки некоррелированности двух случайных величин, основанный на выборочном коэффициенте корреляции.

Анализ структуры и тесноты связи между количественными переменными. Критерий хи-квадрат для количественных показателей.
Основная литература
1. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. – М.: Инфра. – М, 2003(глава 9 с.267-290).

2. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Исследование зависимостей. Справочное издание под ред. Айвазяна С.А. – М.: Финансы и статистика, 1985 (главы 1,2 с.56-124).



Тема 5. Регрессионный анализ

Задача линейной регрессии. Проблема выбора вида функции регрессии.

Методы оценивания параметров.

Свойства МНК оценок.

Некоторые критерии проверки адекватности в нормальной регрессионной модели.
Основная литература
1. Кибзун А.И., Горяинова Е.Р., Наумов А.В. Теория вероятностей и математическая статистика. Базовый курс с примерами и задачами. – М.:Физматлит,2005(глава 7 с.204-213).

2. Дрейпер Н., Смит Г. Прикладной регрессионный анализ: В 2-х книгах, Кн. 1. – М.: Финансы и статистика, 1986. Кн. 2. – М.: Финансы и статистика, 1987(глава 2 с.104-148).




Вариант домашней работы
1.Из 635 зафиксированных отделом ГАИ ДТП 132 произошло по вине водителей-женщин. Учитывая, что по статистике доля женщин за рулём составляет 30% от общего числа водителей, можно ли считать, что женщины водят аккуратнее мужчин?
2.Средняя стоимость лечения одного пациента-льготника с диагнозом «дуоденит» составляет (в рублях на ноябрь 2007 года):


Дальневосточный фед. округ

Приволжский фед. округ

Амурская обл. 245,61

Кировская обл. 196,27

Еврейская АО 101,45

Оренбургская обл. 309,79

Камчатская обл. 202,84

Пензенская обл. 271,76

Корякский АО 327,63

Пермская обл. 329,58

Магаданская обл. 144,5

Башкортостан 233,49

Приморский край 458,81

Марий-Эл 298,24




Мордовия 311,6




Татарстан 284,03




Чувашия 405,5

Одинакова ли средняя стоимость лечения льготников в Дальневосточном и Приволжском федеральных округах?


3.Проведен социологический опрос 655 человек. Каждый из опрошенных отвечал на два вопроса. Вопрос А: «Удовлетворены ли Вы своим образом жизни?» (варианты ответов: да, нет). Вопрос В: «Каково Ваше материальное положение?» (варианты ответов: плохое, ниже среднего, среднее, выше среднего, хорошее). Результаты опроса сведены в следующую таблицу:


B

A


плохое

ниже среднего

среднее

выше среднего

хорошее

Нет

92

64

48

23

3

Да

22

46

136

148

72

Имеется ли зависимость между материальным положением (признак В) и удовлетворенностью образом жизни (признак А) ?


4. В таблице представлены данные за 1997 год показателей X (индекс человеческого развития) и Y (суточная калорийность питания населения, ккал на душу) для следующих стран: Австрия, Аргентина, Великобритания, Германия, Египет, Норвегия, Украина, Республика Корея, ЮАР, США.

X

0.904

0.827

0.918

0.906

0.616

0.927

0.721

0.852

0.695

0.927

Y

3343

3136

3237

3330

3289

3350

2753

3336

2933

3642

Являются ли показатели X и Y зависимыми?


Вопросы для оценки качества освоения дисциплины
Тема 1.

1. Что такое статистическая гипотеза?

2. В чем состоят ошибки I и II рода?

3. Дайте определение квантили. Чему равна 0,05-квантиль стандартного гауссовского распределения, если 0,95-квантиль этого распределения равна 1,65?

4.Каков порядок проверки параметрических статистических гипотез?

5. Какую выборку называют репрезентативной?


Тема 2.

1. Какие выборки называют однородными?

2. Назовите основные типы неоднородности выборок.

3. Опишите условия применимости классических и ранговых критериев для проверки гипотезы об однородности.

4. Какие преимущества и какие недостатки имеют ранговые критерии по сравнению с классическими?

5. Какие критерии применяют для проверки гипотезы об однородности двух выборок?


Тема 3.

1. Назовите основные термины дисперсионного анализа.

2. В чем состоит задача однофакторного дисперсионного анализа?

3. Опишите условия применимости классических и ранговых критериев в задаче однофакторного дисперсионного анализа.

4. Как построить доверительный интервал контраста в задаче однофакторного анализа для гауссовских наблюдений?

5. В каких ситуациях следует применять критерий Джонкхиера?


Тема 4.

1. Опишите основные типы шкал измерений и допустимые преобразования в этих шкалах.

2. Что такое таблица сопряженности признаков?

3. Дайте определение независимости признаков, измеряемых в номинальной шкале.

4. Как проверить гипотезу о независимости признаков в номинальной шкале?

5. Что такое коэффициент корреляции? Каковы его основные свойства?

6. Как проверить гипотезу о некоррелированности признаков?

7. В каком случае проверка некоррелированности наблюдений эквивалентна проверке независимости?


Тема 5.

1. В чем состоит задача линейной регрессии?

2. В чем состоит идея метода наименьших квадратов (МНК)?

3. Какие методы оценивания параметров регрессии вам известны?

4. Какими свойствами обладает МНК-оценка параметров регрессии?

Вариант письменной зачётной работы.
1. .В городскую администрацию поступила просьба о переносе автобусной остановки. Сколько жителей микрорайона надо опросить, чтобы с точностью до 0,03 оценить долю людей, считающих перенос остановки целесообразным? Результат должен быть гарантирован на уровне доверия 0,95. Известно, что в данном микрорайоне проживает 4000 человек.
2.Уровень гистамина в мокроте у 7 курильщиков, склонных к аллергии, составил (в микрограммах): 102,4; 100,0; 67,6; 65,9; 64,7; 39,6; 31,2, а у курильщиков, несклонных к аллергии: 48,1; 45,5; 41,7; 35,4; 29,1; 18,9; 58,3; 66,8; 71,3; 94,3. Верно ли предположение о том, что уровень гистамина у курильщиков, подверженных аллергии, выше, чем у неаллергенов? Принять уровень значимости равным 0,05.
3. Три группы случайно отобранных людей обучались навыкам скорочтения тремя разными методами. В конце обучения проводился зачет, на котором оценивалась скорость чтения. Обучающиеся показали следующие результаты (страниц за 10 минут). Первая группа: 20, 23,24, 24,25,26, 28, 30, 31, 32. Вторая группа: 38, 42, 42, 44, 47, 48, 49, 50, 51, 52. Третья группа: 29, 32, 33, 35, 35, 37, 38, 39, 40, 42. Можно ли считать на уровне значимости 0,05, что предлагаемые методы обучения имеют различную эффективность?
4. В результате проведенного исследования было установлено, что у 309 светлоглазых мужчин жены также имеют светлые глаза, а у 214 светлоглазых мужчин жены темноглазые. У 119 темноглазых мужчин жены также темноглазые, а у 132 темноглазых мужчин жены светлоглазые. Имеется ли зависимость между цветом глаз мужей и их жен?
5. В таблице представлены данные за 1995 год показателей X (ВВП в паритетах покупательной способности) и Y (коэффициент детской смертности в %) для следующих стран: Бурунди, Чад, Индия, Египет, Мексика, Бразилия, Республика Корея, Канада, США, Швейцария.

X

2.3

2.6

5.2

12.2

23.7

20

42.4

78.3

100

95.9

Y

98

117

68

16

33

44

10

6

8

6

Считая , что наблюдения имеют гауссовское распределение, выясните являются ли признаки X и Y зависимыми.


Автор программы: _____________________________/ Е.Р. Горяинова/









Смотрите также:
Программа дисциплины Анализ данных подготовки магистра для направления 080500. 68 Бизнес-информатика
137.15kb.
1 стр.
Программа дисциплины Электронная коммерция и бизнес для направления 080500. 68 «Бизнес-информатика»
131.28kb.
1 стр.
Программа дисциплины Высокопроизводительные вычисления для направления 080500. 62 «Бизнес-информатика» подготовки бакалавра
233.52kb.
1 стр.
Программа дисциплины Управление данными для направления 080500. 62 Бизнес-информатика подготовки бакалавров
1404.1kb.
14 стр.
Программа дисциплины Дискретная математика для направления 080500. 62 «Бизнес-информатика»
372.5kb.
5 стр.
Программа дисциплины Дискретная математика для направления 080500. 62 «Бизнес-информатика»
334.01kb.
1 стр.
Программа дисциплины Моделирование процессов и систем  для направления 080500. 62 «Бизнес информатика» подготовки бакалавра
91.46kb.
1 стр.
Программа дисциплины Введение в программирование для направления 080500. 62 Бизнес-информатика подготовки бакалавра
211.28kb.
1 стр.
Программа дисциплины Анализ данных и прогнозирование для направления 080700. 62 Бизнес-информатика
147.83kb.
1 стр.
Программа дисциплины Культурология для направления 080500. 62 «Бизнес-информатика» подготовки бакалавра
432.85kb.
2 стр.
Программа дисциплины "Крупная корпорация как субъект публичной политики. Корпоративное гражданство"  для направления
365.99kb.
4 стр.
Программа дисциплины Венчурный бизнес и прямые частные инвестиции для направления 080200. 68 Менеджмент подготовки магистра
167.19kb.
1 стр.