Главная
страница 1
Доктор технических наук Николай Иванович Куренков

Особенности анализа многомерных данных

В настоящее время существует большое число различных математических методов, используемых для анализа данных. Однако, специфика данных, применяемых в анализе причинно-следственных связей, не позволяет корректным образом использовать хорошо апробированные модели многомерного статистического анализа по нескольким причинам:



  1. Отсутствие представительной статистики, которую зачастую не возможно получить из-за больших материальных затрат на их получение.

  2. Наличие размерных величин. Простые способы нормировки субъективны и часто влияют на результат исследования [ 5].

  3. Наличие пропусков в данных. Восстановление или просеивание данных возможно при наличии представительной статистики.

  4. Интервальный характер данных, обусловленный неопределенностью условий их получения. Статистические методы многомерного анализа принципиально не могут оперировать с указанными данными.

  5. Большая размерность признакового пространства, вызванная наличием нескольких десятков характеристик. Известные методы сжатия «не работают», поскольку требуют проведения корректной нормировки.

Предлагаемые ниже новые методы как раз и ориентированы на «работу» с указанной спецификой данных и могут быть использованы при решении ряда традиционных задач анализа многомерных данных.

Рассмотрим новые методы анализа данных в контексте задач медицинской статистики таких как:



  1. Построение сводного показателя, используемого для интегральной оценки состояния здравоохранения, качества медицинского обслуживания, построения прогнозных моделей и т.п.

  2. Снижение размерности пространства характеристик с целью их визуализации, выявления причинно-следственных связей, построению обобщенных характеристик для анализа данных и интерпретации полученных результатов.

  3. Кластеризация данных для выявления их корреляции в условиях трудно формализуемой зависимости между ними, для наглядного представления их.

  4. Оценка информативности используемых медицинских показателей для проведения более детального и достоверного обследования больных.

Рассмотрим каждую из этих задач. Выявим особенности их решения применительно к специфике медицинских данных.

Для решения перечисленных задач будем использовать две меры близости. Первая хорошо известная и часто применяется в статистических исследованиях, вторая - новая мера близости, отличительной особенностью которой является инвариантность к мультипликативным константам или, что тоже самое, инвариантность к преобразованиям подобия. Эта мера не чувствительна к единицам измерения результатов обследования пациентов, что и предопределило её использование при анализе медицинской статистики.

Обозначим через матрицу данных, строки которой соответствуют анализируемым объектам, а столбцы - их характеристикам, -диагональную матрицу с вектором на главной диагонали, а -диагональ квадратной матрицы ,-вектор-столбец с компонентами из единиц, который для краткости будем называть единичным вектором, - операторы над матрицами, результатом действия которых соответственно являются транспонирование, взятие обратного элемента и их композиция, что означает, например, транспонированную матрицу, состоящую из обратных элементов матрицы.

Определим норму матрицы как:



, (1)

где, как обычно, обозначает значение следа матрицы - суммы её диагональных элементов



(2)

Теперь можно определить меру близости двух матриц и



(3)

Эта мера для одностолбцовых матриц совпадает с евклидовым расстоянием, поскольку



(4)

Хорошо известно, что евклидово расстояние, а значит и мера (3) зависит от единиц размерности аргументов, поэтому она малопригодна для анализа медицинских данных, измеренных, как правило, в различных шкалах. Как отмечалось, нормирование столбцов матриц и также не приводит к желаемому результату, поскольку нормировка влияет на значение меры (3), а её выбор всегда субъективен.

Очевидно, нормировка должна проводиться не до, а в процессе обработки данных, тем самым она позволит аккумулировать информацию о структурных особенностях данных и соответствовать применяемому методу.

Применим эту идею для построения сводного показателя (обобщенной характеристики) строк матрицы данных . Для этого умножим, справа матрицу данных на диагональную матрицу и будем минимизировать по вектор-столбцу величину отклонения указанной матрицы от матрицы, все столбцы которой совпадают друг с другом.

Если вектор-столбец есть обобщенная характеристика, то матрица с учетом нормировки, задаваемой пока неизвестным вектором , должна приближаться матрицей . Таким образом, приходим к решению следующей оптимизационной задачи:

(5)

Докажем, что решения задачи (5) совпадают с главным собственным вектором соответственно матриц и , то есть



(6)

, (7)

где матрица получена из матрицы нормированием столбцов последней корнем квадратным из суммы квадратов элементов соответствующих столбцов, что, в обозначениях сделанных выше, эквивалентно



(8)

Доказательство:

Имеем

здесь использовалось условие , поскольку всегда можно выбрать константудля его выполнения.

Следуя общей теории, выпишем уравнения Лагранжа для

(9)

(10)

Раскрывая левую часть (10) и используя свойства матричной производной [ ], получим следующую систему матричных уравнений для некоторых констант и :



(11)

Что, очевидно, эквивалентно после умножения первого уравнения из (11) на матрицу , а второго – на матрицу следующей системе



(12)

Сделав замену переменных , приходим окончательно к системе матричных уравнений



(13)

Далее, из (9) следует



, (14)

подставляя (14) в (9) получим



(15)

Заметим, что если матрица состоит из неотрицательных элементов, то по теореме Перрона-Фробениуса [ ] вектор также будет иметь неотрицательные компоненты, а это означает, что компоненты вектора можно интерпретировать как обобщенные характеристики (сводные показатели) для строк матрицы данных .

Что касается нормировочного вектора , то, как следует из первого уравнения (11) его компоненты можно интерпретировать как весовые коэффициенты столбцов матрицы в определении компонент вектора как обобщенной характеристики её строк.

Для того чтобы определить точность аппроксимации матрицы данных матрицей , состоящей по столбцам из обобщенных характеристик , вычислим относительную ошибку аппроксимации



(16)

Из опыта решения задач подобного типа можно констатировать, что при точность определения сводного показателя достаточна для проведения прогнозных исследований.

Приведем пример, имеющий самостоятельное значение. В таблицах 1 и 2 приведены данные, характеризующие общую заболеваемость всего населения России за 1992 по 2002гг.

Заболеваемость всего населения России по классам болезней

по данным обращаемости в ЛПУ за 1992-2002 г (на 100 000 населения)

Таблица 1



Классы болезней по МКБ-IX

1992

1993

1994

1995

1996

1997

1998

1999

2000

2001

2002

'Всего'

104624

109423

110947

115162

114126

117870

119886

127090

132372

133828

138227

'Инфекционные и паразитарные болезни'

5058

5340

5955

6272

6036

5967

6190

6230

6217

6187

5929

'Новообразования'

2276

2356

2452

2528

2677

2644

2798

2951

3083

3163

3273

'Болезни эндокринной системы'

2323

2427

2591

2690

2880

3071

3344

3596

3840

4077

4407

'Психические расстройства'

426

482

538

590

637

679

728

813

885

934

1094

'Болезни нервной системы и органов чувств'

4715

4679

4635

4720

4695

4634

4771

5062

5163

5262

5306

'Болезни системы кровообращения'

11666

12442

13057

13532

14200

14446

15064

4647

4514

4608

4724

'Болезни органов дыхания'

9416

9661

10248

10645

11115

11433

11974

13199

13900

14697

15615

'Болезни органов пищеварения'

33322

35546

32819

34152

31360

34544

33061

35309

37028

35157

35374

'Болезни мочеполовой системы'

9500

9446

9769

10189

9942

9755

10216

11630

10946

10959

11381

'Осложнения беременности'

4819

5092

5523

5924

6367

6588

7061

7550

7947

8281

8650

'Болезни кожи и подкожной клетчатки'

4052

4080

4358

4441

4734

4750

5035

6340

6419

6814

7302

'Болезни костно-мышечной системы'

6231

6366

6707

6999

7459

7683

8120

8277

8812

9264

10083

'Врожденные аномалии(пороки развития)'

337

349

368

387

424

451

480

509

525

540

588

' Неточно обозначенные состояния'

252

277

304

322

343

358

378

579

634

858

1090

'Травмы и отравл.»

8409

8701

8907

8927

8668

8540

8603

8571

8813

8963

9095

Для расчета сводного показателя :



  • составим матрицу , строки которой соответствуют временным срезам по годам, а столбцы - классам болезней по МКБ;

  • проведем нормировку каждого столбца матрицы путем деления всех его элементов на корень квадратный из суммы их квадратов, образовав тем самым матрицу ;

  • решим систему (13), найдя вектора и , являющиеся искомыми.

На рис.1 представлен график изменения значений сводного показателя по годам. Для сравнения там же представлена графическая зависимость нормированного общего количества больных. Как видно разброс в значениях сводного показателя почти в два раза меньше абсолютного показателя. Это объясняется тем, что его значения взвешены значениями компонент вектора , определяющие вес частного показателя, с которым он входит в обобщенный показатель.

На рис.2 представлена графическая зависимость указанных весовых коэффициентов, из которой следует



Рис.1 Динамика изменения интегральных показателей больных

что наибольший вес в образование обобщенного показателя имеют «травмы и отравления», наименьший – «болезни органов кровообращения». Сравним полученные весовые коэффициенты с коэффициентами корреляции обобщенного показателя с частными показателями (рис.3). Распределения корреляционных и весовых коэффициентов заметно отличаются друг от друга. Это объясняется тем, что весовые коэффициенты учитывают не только корреляционные свойства показателей, но и их значения (смотри табл.1). Поэтому они характеризуют больше интегральных свойств, чем корреляционные.

Рис.2 Распределение весовых коэффициентов по типам болезней


Рис.3 Распределение коэффициентов корреляции

обобщенного показателя с частными по типам болезней

Для проведения анализа данных, сокращения размерности пространства характеристик и интерпретации полученных результатов большое значение имеет оценка важности частных характеристик. Категория «важность» является трудно формализуемым понятием. Её содержание зависит от решаемой задачи. Будем понимать под важностью характеристики (показателя) ее способность интегрально отражать структурные особенности всей выборки. Это означает применительно к рассматриваемой задаче: показатель тем важнее, чем лучше он характеризует изменение во времени свойств всей выборки.

Для формального изложения метода расчета важности показателей воспользуемся идеями кластерного анализа. Для проведения кластеризации используют определенную меру близости. Традиционно употребляемая евклидова мера (4) для этих целей малопригодна, поскольку её значение зависит от единиц размерности данных. Предлагается новая мера близости, определяемая на множестве векторов мерного пространства с положительными компонентами

(17)

Доказано  , что мера (17) удовлетворяет всем свойствам мер близости за исключением одного: её минимальное значение достигается на коллинеарных векторах



(18)

Очевидно, это свойство не является ограничением для решения задач кластеризации, а наоборот, оно необходимо, поскольку медицинские данные, как правило, включают размерные величины.

Рассмотрим возможность использования меры близости (17) для решения задачи выявления периодов времени, в течение которых здоровье населения, характеризуемое совокупностью частных показателей заболеваемости, остается относительно неизменным. Исходными данными для решения этой задачи являются показатели заболеваемости (по типам заболеваний), которые представлены в статистических отчетах за 1992, 1993,…, 2002 годы.

С использованием (17) проведем кластеризацию совокупностей частных показателей заболеваемости населения России, отражающих их динамику во времени, на два, три, четыре периода, в течение которых структура этих показателей была примерно одинакова. Результаты сведем в таблицу 2.

Таблица 2

Результаты поиска структурной однородности частных показателей здоровья населения в различные периоды времени



Временные срезы, годы

Число периодов времени с однородными по структуре данными

2

3

4

1992

1

1

1

1993

1

1

1

1994

1

1

1

1995

1

1

1

1996

1

1

2

1997

1

1

2

1998

1

1

2

1999

2

2

3

2000

2

2

3

2001

2

3

4

2002

2

3

4

Как видно, динамика изменения заболеваемости (частных показателей заболеваемости) с точки зрения кластерного анализа хорошо согласуется с изменением обобщенной характеристики (рис. 1).

Если провести подобную кластеризацию только по одному частному показателю (назовем такую процедуру частной кластеризацией), то для некоторых из них результаты в корне будут отличаться от результатов табл.2. Очевидно, наиболее значимыми или информативными будут те показатели, для которых частная кластеризация сходна с общей. Например, результат частной кластеризации на два периода по показателю с номером 3 - «болезни эндокринной системы» - есть , тогда как кластеризация всей выборки - . Как видно, не совпадение произошло на седьмом временном срезе (1998 год).

Поскольку результат кластеризации можно отождествить с некоторым словом в конечном алфавите, то для сравнения указанных результатов можно использовать аппарат алгебраической теории информации  . Например, в качестве меры сходства предлагается использовать количество информации, содержащейся в частной кластеризации относительно общей (применительно к рассматриваемому примеру - и ). На рис. 2…4 представлены нормированные значения информативностей частных показателей при кластеризации на 2…4 временные периоды соответственно.



Рис. 4. Оценка информативности частных показателей по результатам кластеризации временных срезов на два периода



Рис. 5. Оценка информативности частных показателей по результатам кластеризации временных срезов на три периода



Рис. 6. Оценка информативности частных показателей по результатам кластеризации временных срезов на четыре периода.

Анализ результатов показывает, что наиболее информативными в указанном смысле, а, следовательно, наиболее значимыми являются следующие показатели:

- «Болезни кожи и подкожной клетчатки»;

- «Болезни системы кровообращения»;

- «Болезни нервной системы и органов чувств»;

- «Болезни органов дыхания»;

- «Болезни мочеполовой системы»;

- «Симптомы, признаки и неточно обозначенные состояния».

Именно эти показатели играют определяющую роль для прогнозирования состояния здравоохранения на последующие временные периоды. Например, частная кластеризация по показателю «Болезни кожи и подкожной клетчатки» полностью совпадает с общей кластеризацией показателей заболеваемости на четыре временные периода.

Прогнозирование состояния здравоохранения на последующие временные периоды является важнейшей составной частью анализа данных при проведении взвешенной политики в медицинском обслуживании населения. Существуют много прогнозных моделей  . Однако они являются «одномерными» в том смысле, что с их помощью не удается осуществить прогноз многомерных данных с учетом всей совокупности корреляционных связей между ними. Как раз последнее обстоятельство и является серьезным недостатком этих моделей. Очевидно, учет корреляции в значениях показателей позволит существенно улучшить качество прогнозных моделей и тем самым повысить достоверность проводимого анализа.

Предложим новый метод прогнозирования совокупности временных рядов (строк матрицы данных , соответствующих временным отсчетам). Сначала рассмотрим простую модель, в которой для каждой строки справедливо



(19)

где - число строк (отсчетов) матрицы , а , как обычно, диагональная матрица с вектором на главной диагонали.

Если , то условие для определения вектора можно представить в виде

(20)

Найдем формульные зависимости для определения вектора . Имеем



(21)

Приравнивая производную от к нулю, получим уравнение для определения вектора





(22)

где символ () определяет по элементное деление векторов.


Зная вектор , прогнозное значение для временного интервала из (19) определим по формуле

(23)

Применительно к рассмотренному выше примеру определен вектор , компоненты которого определяют коэффициенты регрессии для каждого показателя заболеваемости, График представлен на рис. 7.





Рис. 7 Регрессионные коэффициенты для прогнозирования показателей заболеваемости


Смотрите также:
Особенности анализа многомерных данных
170.74kb.
1 стр.
Статистические методы анализа языка как способ повышения эффективности генерации языка по шаблонам из многомерных баз данных
90.42kb.
1 стр.
Отчет о лаботарорной работе методы и средства анализа данных по теме: «Система анализа данных weka»
383.87kb.
2 стр.
Отчет о лаботарорной работе по дисциплине Методы и средства анализа данных по теме: «Система анализа данных weka»
229.16kb.
1 стр.
Место теории измерений в методах анализа данных
266.06kb.
1 стр.
Методология психодиагностики и обработки экспериментальных данных
45.47kb.
1 стр.
Отчет о лаботарорной работе методы и средства анализа данных по теме
286.73kb.
1 стр.
Методы анализа данных Кредиты: 3 Аннотация дисциплины
17.78kb.
1 стр.
Формула специальности: Содержанием специальности 22. 00. 04 – «Социальная структура, социальные институты и процессы»
36.75kb.
1 стр.
Бизнес-информатики программа дисциплины Упорядоченные множества для анализа данных
214.13kb.
1 стр.
Комитет по охране прав детей
1912.67kb.
14 стр.
Материал подготовлен Управлением стратегического планирования, анализа и прогноза Комитета по экономической политике и стратегическому планированию Санкт-Петербурга на основании данных органов государственной статистики
409.01kb.
5 стр.