Главная
страница 1страница 2 ... страница 4страница 5
3. Разработка новых математических и статистических методов и технологий обработки археологических данных для палеолитических объектов
А) ЗНАЧИМОСТЬ И УСТОЙЧИВОСТЬ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ В ЗАДАЧЕ ПОИСКА ОПТИМАЛЬНОГО РАЗБИЕНИЯ

Введение


Задача проведения оптимальной (по количеству классов) автоматической классификации поставлена достаточно давно, но предложенные решения носят скорее эвристический, чем статистический характер, что оставляет вопрос об оптимальной классификации открытым .

Автоматическая классификация, синонимами которой можно считать термины "разбиение", "таксономия", "кластерный анализ", применяется в целях получения гипотез о логической структуре изучаемой статистической совокупности объектов. Слово автоматическая подчеркивает тот факт, что разделение проводится без предварительного обучения с помощью учителя или обучающей выборки, на которой все объекты разнесены по классам. Результатом классификации является разбиение исходной совокупности объектов на некоторое число классов (таксонов, кластеров). Содержательный смысл деления на классы состоит в выделении качественно различных состояний объектов, характеризуемых своими особенными закономерностями. Дальнейшее исследование может как подтвердить, так и опровергнуть гипотезу о существовании обнаруженной кластерной структуры. Подтверждением правильности классификации является ее объяснительная и предсказательная сила при выходе за пределы исходной выборки как по признакам, так и по объектам.

Классификация применяется на предварительном этапе исследования, когда до проведения основной статистической обработки (построения регрессионных моделей, оценки параметров генеральной совокупности и т.д.) добиваются расслоения этого множества на однородные (в смысле проводимого затем статистического анализа) порции данных.

Современная технология автоматической классификации характеризуется набором различных алгоритмов распределения объектов по кластерам, изза-чего проверка статистической значимости в действительности мало неприменима.

В данной работе описаны несколько первых шагов на пути превращения автоматической классификации из набора алгоритмов в статистический метод, который позволит не только получать практически полезный результат, но и оценивать статистическую значимость нулевой гипотезы (об отсутствии кластерной структуры, или, что эквивалентно, - об однокластерности статистической совокупности объектов).

Описываемый далее подход является развитием идей, развиваемых участниками проекта и их коллегами на протяжении многих лет. Ранее была описана общая постановка задачи автоматического определения оптимальной сложности разбиения для самых разных методов. В случае кластерного анализа сложность разбиения интерпретируется как количество кластеров. В качестве критерия оптимальности предлагалось использовать такие показатели качества разбиения, как значимость гипотезы однокластерности и устойчивость полученной кластерной структуры, измеряемая процентом оставшихся в своих кластерах объектов при генерации повторных выборок методом Boot-Strap.

В целом продолжая предложенные подходы, мы все же несколько сместили акценты. Если результаты, полученные в монографии, можно использовать для создания статистических таблиц значимости при кластеризации по стандартизованным данным, то здесь мы напрямую (в статистических экспериментах) измеряем значимость разбиений для определения оптимального количества кластеров. Такое смещение акцента связано с существенным ростом за последние 5 лет доступных рядовому пользователю вычислительных мощностей персональных компьютеров, что делает возможным проведение полномасштабных вычислительных экспериментов в реальном времени.

Освободив показатель устойчивости классификации от его основных обязанностей – служить критерием оптимальности разбиения, авторы нашли для него новое применение – составление "структурного портрета" полученного разбиения, который выявляет взаимопереходы кластеров, их взаимодействия через обмен объектами в эспериментах с имитацией повторного сбора данных. Такие "структурные портреты" дают дополнительную информацию о кластерах, позволяя преодолеть недостатки выбранного метода кластеризации (k-средних), который является оптимальным по скорости, но накладывает существенные ограничения на форму выделяемых кластеров в виде сферических сгущений точек (объектов). Большая частота перетекания объектов между двумя соседними кластерами (межкластерная неустойчивость) дает основания выдвинуть гипотезу о единстве этих кластеров и в дальнейшем интерпретировать их как один кластер несферической формы.

Перед тем, как приступить к описанию способов определения значимости, рассмотрим кратко, что представляет из себя критерий качества разбиения и из каких шагов складывается алгоритм кластеризации. Из соображений простоты реализации и скорости выполнения нами были выбраны Евклидова метрика пространства признаков и простейший алгоритм кластеризации (k-средних), хотя способ измерения значимости не накладывает особых ограничений ни на метрику, ни на сам алгоритм. Но все же необходимо отметить, что к поведению алгоритма предъявляются повышенные требования, поэтому мы были вынуждены внести в него некоторые изменения, которые позволили улучшить качество разбиения и, как побочный эффект, сократить время вычислений (за счет уменьшения количества итераций).

Критерий качества разбиения


Результатом кластерного анализа является разбиение имеющихся в исходной выборке объектов на некоторое количество кластеров. При этом каждый кластер включает в свой состав один или более объектов. Мы будем описывать кластер не просто как множество объектов, а как некий идеальный объект, имеющий свои координаты в пространстве признаков. Принимаем, далее, что эти координаты являются арифметическим средним координат реальных объектов, входящих в состав кластера, то есть координаты кластера совпадают с координатами его центра.

Теперь зададимся вопросом, что будет, если мы, вместо реальных координат объекта, будем использовать координаты кластера, к которому он отнесен? Очевидно, при этом мы теряем часть информации об объекте, поскольку внутри кластеров объекты не идентичны. Но, чем лучше кластерная структура описывает реальные скопления объектов в признаковом пространстве, тем меньшая часть информации будет потеряна и тем большую ее часть будет нести в себе кластер, как представитель всех принадлежащих ему объектов.

Исходя из этих соображений, логично выбрать критерием качества кластеризации какую-либо характеристику потерь информации при описании объектов кластерами. Наиболее простой оценкой таких потерь является остаточная дисперсия, представляющая собой сумму квадратов отклонений объектов от центров их кластеров. Если же мы хотим иметь дело с безразмерной величиной, то наиболее удобным будет нормировать эту величину на остаточную дисперсию однокластерной структуры. Полученная таким образом доля остаточной дисперсии принимает значения в диапазоне от нуля до единицы. Чем лучше качество разбиения, тем ближе она к нулю, и наилучшему разбиению на кластеры будет соответствовать минимум доли остаточной дисперсии. А сама эта величина напрямую показывает, какую часть информации мы потеряем при замене объектов на кластеры.


следующая страница >>
Смотрите также:
3. Разработка новых математических и статистических методов и технологий обработки археологических данных для палеолитических объектов
1101.13kb.
5 стр.
Дисциплины «Методы математической обработки медико-биологических данных»
20.75kb.
1 стр.
Тема: «Разработка теории обоснования параметров, методов моделирования и исследования элементов, объектов и систем возобновляемой энергетики с использованием инновационных технологий»
133.94kb.
1 стр.
Учебное пособие по дисциплине «Структуры и алгоритмы обработки данных» для специальностей «Программное обеспечение информационных технологий»
1959.7kb.
12 стр.
Технологии обработки информации при интерферометрическом приёме сигналов искусственных космических объектов
10.47kb.
1 стр.
План испытания новых и усовершенствованных методов (технологий) гидрометеорологических и гелиогеофизических прогнозов Росгидромета на 2006 г. Часть Методы, представляемые для рассмотрения на цмкп
352.95kb.
1 стр.
Порядок организации обработки первичных статистических данных по формам федерального статистического наблюдения, поступивших от респондентов в электронном виде по телекоммуникационным каналам связи москва
120.26kb.
1 стр.
2. Разновидности графовых моделей сложных объектов
275.56kb.
1 стр.
План испытания и внедрения новых и усовершенствованных методов (технологий) гидрометеорологических и гелиогеофизических прогнозов Росгидромета на 2007 г. Часть Методы, представляемые для рассмотрения на цмкп
318.29kb.
1 стр.
«разработка методик обработки многозональных снимков и данных гис для обновления карт использования земель вьетнама» 25. 00. 34 Аэрокосмические исследования Земли, фотограмметрия
226.5kb.
1 стр.
«разработка методик обработки многозональных снимков и данных гис для обновления карт использования земель вьетнама» 25. 00. 34 Аэрокосмические исследования Земли, фотограмметрия
223.14kb.
1 стр.
-
174.25kb.
1 стр.