Главная Другое
Экономика Финансы Маркетинг Астрономия География Туризм Биология История Информатика Культура Математика Физика Философия Химия Банк Право Военное дело Бухгалтерия Журналистика Спорт Психология Литература Музыка Медицина |
страница 1 Особенности анализа многомерных данных В настоящее время существует большое число различных математических методов, используемых для анализа данных. Однако, специфика данных, применяемых в анализе причинно-следственных связей, не позволяет корректным образом использовать хорошо апробированные модели многомерного статистического анализа по нескольким причинам:
Предлагаемые ниже новые методы как раз и ориентированы на «работу» с указанной спецификой данных и могут быть использованы при решении ряда традиционных задач анализа многомерных данных. Рассмотрим новые методы анализа данных в контексте задач медицинской статистики таких как:
Рассмотрим каждую из этих задач. Выявим особенности их решения применительно к специфике медицинских данных. Для решения перечисленных задач будем использовать две меры близости. Первая хорошо известная и часто применяется в статистических исследованиях, вторая - новая мера близости, отличительной особенностью которой является инвариантность к мультипликативным константам или, что тоже самое, инвариантность к преобразованиям подобия. Эта мера не чувствительна к единицам измерения результатов обследования пациентов, что и предопределило её использование при анализе медицинской статистики. Обозначим через Определим норму ![]() где, как обычно, ![]() Теперь можно определить меру близости ![]() Эта мера для одностолбцовых матриц совпадает с евклидовым расстоянием, поскольку ![]() Хорошо известно, что евклидово расстояние, а значит и мера (3) зависит от единиц размерности аргументов, поэтому она малопригодна для анализа медицинских данных, измеренных, как правило, в различных шкалах. Как отмечалось, нормирование столбцов матриц Очевидно, нормировка должна проводиться не до, а в процессе обработки данных, тем самым она позволит аккумулировать информацию о структурных особенностях данных и соответствовать применяемому методу. Применим эту идею для построения сводного показателя (обобщенной характеристики) строк матрицы данных Если вектор-столбец Докажем, что решения ![]() ![]() где матрица ![]() Доказательство: Имеем
здесь использовалось условие Следуя общей теории, выпишем уравнения Лагранжа для
Раскрывая левую часть (10) и используя свойства матричной производной [ ], получим следующую систему матричных уравнений для некоторых констант ![]() Что, очевидно, эквивалентно после умножения первого уравнения из (11) на матрицу ![]() Сделав замену переменных ![]() Далее, из (9) следует ![]() подставляя (14) в (9) получим ![]() Заметим, что если матрица Что касается нормировочного вектора Для того чтобы определить точность аппроксимации матрицы данных ![]() Из опыта решения задач подобного типа можно констатировать, что при Приведем пример, имеющий самостоятельное значение. В таблицах 1 и 2 приведены данные, характеризующие общую заболеваемость всего населения России за 1992 по 2002гг. Заболеваемость всего населения России по классам болезней по данным обращаемости в ЛПУ за 1992-2002 г (на 100 000 населения) Таблица 1
Для расчета сводного показателя
На рис.1 представлен график изменения значений сводного показателя по годам. Для сравнения там же представлена графическая зависимость нормированного общего количества больных. Как видно разброс в значениях сводного показателя почти в два раза меньше абсолютного показателя. Это объясняется тем, что его значения взвешены значениями компонент вектора ![]() На рис.2 представлена графическая зависимость указанных весовых коэффициентов, из которой следует ![]() Рис.1 Динамика изменения интегральных показателей больных что наибольший вес в образование обобщенного показателя имеют «травмы и отравления», наименьший – «болезни органов кровообращения». Сравним полученные весовые коэффициенты с коэффициентами корреляции обобщенного показателя с частными показателями (рис.3). Распределения корреляционных и весовых коэффициентов заметно отличаются друг от друга. Это объясняется тем, что весовые коэффициенты учитывают не только корреляционные свойства показателей, но и их значения (смотри табл.1). Поэтому они характеризуют больше интегральных свойств, чем корреляционные.
Рис.2 Распределение весовых коэффициентов по типам болезней ![]() Рис.3 Распределение коэффициентов корреляции обобщенного показателя с частными по типам болезней Для проведения анализа данных, сокращения размерности пространства характеристик и интерпретации полученных результатов большое значение имеет оценка важности частных характеристик. Категория «важность» является трудно формализуемым понятием. Её содержание зависит от решаемой задачи. Будем понимать под важностью характеристики (показателя) ее способность интегрально отражать структурные особенности всей выборки. Это означает применительно к рассматриваемой задаче: показатель тем важнее, чем лучше он характеризует изменение во времени свойств всей выборки. Для формального изложения метода расчета важности показателей воспользуемся идеями кластерного анализа. Для проведения кластеризации используют определенную меру близости. Традиционно употребляемая евклидова мера (4) для этих целей малопригодна, поскольку её значение зависит от единиц размерности данных. Предлагается новая мера близости, определяемая на множестве Доказано , что мера (17) удовлетворяет всем свойствам мер близости за исключением одного: её минимальное значение ![]() Очевидно, это свойство не является ограничением для решения задач кластеризации, а наоборот, оно необходимо, поскольку медицинские данные, как правило, включают размерные величины. Рассмотрим возможность использования меры близости (17) для решения задачи выявления периодов времени, в течение которых здоровье населения, характеризуемое совокупностью частных показателей заболеваемости, остается относительно неизменным. Исходными данными для решения этой задачи являются показатели заболеваемости (по типам заболеваний), которые представлены в статистических отчетах за 1992, 1993,…, 2002 годы. С использованием (17) проведем кластеризацию совокупностей частных показателей заболеваемости населения России, отражающих их динамику во времени, на два, три, четыре периода, в течение которых структура этих показателей была примерно одинакова. Результаты сведем в таблицу 2. Таблица 2 Результаты поиска структурной однородности частных показателей здоровья населения в различные периоды времени
Как видно, динамика изменения заболеваемости (частных показателей заболеваемости) с точки зрения кластерного анализа хорошо согласуется с изменением обобщенной характеристики Если провести подобную кластеризацию только по одному частному показателю (назовем такую процедуру частной кластеризацией), то для некоторых из них результаты в корне будут отличаться от результатов табл.2. Очевидно, наиболее значимыми или информативными будут те показатели, для которых частная кластеризация сходна с общей. Например, результат частной кластеризации на два периода по показателю с номером 3 - «болезни эндокринной системы» - есть Поскольку результат кластеризации можно отождествить с некоторым словом в конечном алфавите, то для сравнения указанных результатов можно использовать аппарат алгебраической теории информации . Например, в качестве меры сходства предлагается использовать количество информации, содержащейся в частной кластеризации ![]() Рис. 4. Оценка информативности частных показателей по результатам кластеризации временных срезов на два периода ![]() Рис. 5. Оценка информативности частных показателей по результатам кластеризации временных срезов на три периода ![]() Рис. 6. Оценка информативности частных показателей по результатам кластеризации временных срезов на четыре периода. Анализ результатов показывает, что наиболее информативными в указанном смысле, а, следовательно, наиболее значимыми являются следующие показатели: - «Болезни кожи и подкожной клетчатки»; - «Болезни системы кровообращения»; - «Болезни нервной системы и органов чувств»; - «Болезни органов дыхания»; - «Болезни мочеполовой системы»; - «Симптомы, признаки и неточно обозначенные состояния». Именно эти показатели играют определяющую роль для прогнозирования состояния здравоохранения на последующие временные периоды. Например, частная кластеризация по показателю «Болезни кожи и подкожной клетчатки» полностью совпадает с общей кластеризацией показателей заболеваемости на четыре временные периода. Прогнозирование состояния здравоохранения на последующие временные периоды является важнейшей составной частью анализа данных при проведении взвешенной политики в медицинском обслуживании населения. Существуют много прогнозных моделей . Однако они являются «одномерными» в том смысле, что с их помощью не удается осуществить прогноз многомерных данных с учетом всей совокупности корреляционных связей между ними. Как раз последнее обстоятельство и является серьезным недостатком этих моделей. Очевидно, учет корреляции в значениях показателей позволит существенно улучшить качество прогнозных моделей и тем самым повысить достоверность проводимого анализа. Предложим новый метод прогнозирования совокупности временных рядов (строк матрицы данных ![]() где Если Найдем формульные зависимости для определения вектора ![]() Приравнивая производную от ![]() ![]() где символ ( Зная вектор ![]() ![]() ![]() ![]() Применительно к рассмотренному выше примеру определен вектор ![]() Рис. 7 Регрессионные коэффициенты для прогнозирования показателей заболеваемости Смотрите также: Особенности анализа многомерных данных
170.74kb.
1 стр.
Статистические методы анализа языка как способ повышения эффективности генерации языка по шаблонам из многомерных баз данных
90.42kb.
1 стр.
Отчет о лаботарорной работе методы и средства анализа данных по теме: «Система анализа данных weka»
383.87kb.
2 стр.
Отчет о лаботарорной работе по дисциплине Методы и средства анализа данных по теме: «Система анализа данных weka»
229.16kb.
1 стр.
Место теории измерений в методах анализа данных
266.06kb.
1 стр.
Методология психодиагностики и обработки экспериментальных данных
45.47kb.
1 стр.
Отчет о лаботарорной работе методы и средства анализа данных по теме
286.73kb.
1 стр.
Методы анализа данных Кредиты: 3 Аннотация дисциплины
17.78kb.
1 стр.
Формула специальности: Содержанием специальности 22. 00. 04 – «Социальная структура, социальные институты и процессы»
36.75kb.
1 стр.
Бизнес-информатики программа дисциплины Упорядоченные множества для анализа данных
214.13kb.
1 стр.
Комитет по охране прав детей
1912.67kb.
14 стр.
Материал подготовлен Управлением стратегического планирования, анализа и прогноза Комитета по экономической политике и стратегическому планированию Санкт-Петербурга на основании данных органов государственной статистики 409.01kb.
5 стр.
|