Кластерный анализ это кратко

Кластерный анализ

Термин кластерный анализ (впервые ввел Tryon, 1939) в действительности включает в себя набор различных алгоритмов классификации. Общий вопрос, задаваемый исследователями во многих областях, состоит в том, как организовать наблюдаемые данные в наглядные структуры, т.е. развернуть таксономии. Например, биологи ставят цель разбить животных на различные виды, чтобы содержательно описать различия между ними. В соответствии с современной системой, принятой в биологии, человек принадлежит к приматам, млекопитающим, амниотам, позвоночным и животным. Заметьте, что в этой классификации, чем выше уровень агрегации, тем меньше сходства между членами в соответствующем классе. Человек имеет больше сходства с другими приматами (т.е. с обезьянами), чем с "отдаленными" членами семейства млекопитающих (например, собаками) и т.д. В последующих разделах будут рассмотрены общие методы кластерного анализа, см. Объединение (древовидная кластеризация), Двувходовое объединение и Метод K средних.

Проверка статистической значимости

Заметим, что предыдущие рассуждения ссылаются на алгоритмы кластеризации, но ничего не упоминают о проверке статистической значимости. Фактически, кластерный анализ является не столько обычным статистическим методом, сколько "набором" различных алгоритмов "распределения объектов по кластерам". Существует точка зрения, что в отличие от многих других статистических процедур, методы кластерного анализа используются в большинстве случаев тогда, когда вы не имеете каких-либо априорных гипотез относительно классов, но все еще находитесь в описательной стадии исследования. Следует понимать, что кластерный анализ определяет "наиболее возможно значимое решение". Поэтому проверка статистической значимости в действительности здесь неприменима, даже в случаях, когда известны p-уровни (как, например, в методе K средних).

Техника кластеризации применяется в самых разнообразных областях. Хартиган (Hartigan, 1975) дал прекрасный обзор многих опубликованных исследований, содержащих результаты, полученные методами кластерного анализа. Например, в области медицины кластеризация заболеваний, лечения заболеваний или симптомов заболеваний приводит к широко используемым таксономиям. В области психиатрии правильная диагностика кластеров симптомов, таких как паранойя, шизофрения и т.д., является решающей для успешной терапии. В археологии с помощью кластерного анализа исследователи пытаются установить таксономии каменных орудий, похоронных объектов и т.д. Известны широкие применения кластерного анализа в маркетинговых исследованиях. В общем, всякий раз, когда необходимо классифицировать "горы" информации к пригодным для дальнейшей обработки группам, кластерный анализ оказывается весьма полезным и эффективным.

Приведенный в разделе Основная цель пример поясняет цель алгоритма объединения (древовидной кластеризации). Назначение этого алгоритма состоит в объединении объектов (например, животных) в достаточно большие кластеры, используя некоторую меру сходства или расстояние между объектами. Типичным результатом такой кластеризации является иерархическое дерево.

Рассмотрим горизонтальную древовидную диаграмму. Диаграмма начинается с каждого объекта в классе (в левой части диаграммы). Теперь представим себе, что постепенно (очень малыми шагами) вы "ослабляете" ваш критерий о том, какие объекты являются уникальными, а какие нет. Другими словами, вы понижаете порог, относящийся к решению об объединении двух или более объектов в один кластер.

В результате, вы связываете вместе всё большее и большее число объектов и агрегируете (объединяете) все больше и больше кластеров, состоящих из все сильнее различающихся элементов. Окончательно, на последнем шаге все объекты объединяются вместе. На этих диаграммах горизонтальные оси представляют расстояние объединения (в вертикальных древовидных диаграммах вертикальные оси представляют расстояние объединения). Так, для каждого узла в графе (там, где формируется новый кластер) вы можете видеть величину расстояния, для которого соответствующие элементы связываются в новый единственный кластер. Когда данные имеют ясную "структуру" в терминах кластеров объектов, сходных между собой, тогда эта структура, скорее всего, должна быть отражена в иерархическом дереве различными ветвями. В результате успешного анализа методом объединения появляется возможность обнаружить кластеры (ветви) и интерпретировать их.

Объединение или метод древовидной кластеризации используется при формировании кластеров несходства или расстояния между объектами. Эти расстояния могут определяться в одномерном или многомерном пространстве. Например, если вы должны кластеризовать типы еды в кафе, то можете принять во внимание количество содержащихся в ней калорий, цену, субъективную оценку вкуса и т.д. Наиболее прямой путь вычисления расстояний между объектами в многомерном пространстве состоит в вычислении евклидовых расстояний. Если вы имеете двух- или трёхмерное пространство, то эта мера является реальным геометрическим расстоянием между объектами в пространстве (как будто расстояния между объектами измерены рулеткой). Однако алгоритм объединения не "заботится" о том, являются ли "предоставленные" для этого расстояния настоящими или некоторыми другими производными мерами расстояния, что более значимо для исследователя; и задачей исследователей является подобрать правильный метод для специфических применений.

Евклидово расстояние. Это, по-видимому, наиболее общий тип расстояния. Оно попросту является геометрическим расстоянием в многомерном пространстве и вычисляется следующим образом:

Заметим, что евклидово расстояние (и его квадрат) вычисляется по исходным, а не по стандартизованным данным. Это обычный способ его вычисления, который имеет определенные преимущества (например, расстояние между двумя объектами не изменяется при введении в анализ нового объекта, который может оказаться выбросом). Тем не менее, на расстояния могут сильно влиять различия между осями, по координатам которых вычисляются эти расстояния. К примеру, если одна из осей измерена в сантиметрах, а вы потом переведете ее в миллиметры (умножая значения на 10), то окончательное евклидово расстояние (или квадрат евклидова расстояния), вычисляемое по координатам, сильно изменится, и, как следствие, результаты кластерного анализа могут сильно отличаться от предыдущих.

Квадрат евклидова расстояния. Иногда может возникнуть желание возвести в квадрат стандартное евклидово расстояние, чтобы придать большие веса более отдаленным друг от друга объектам. Это расстояние вычисляется следующим образом (см. также замечания в предыдущем пункте):

Расстояние городских кварталов (манхэттенское расстояние). Это расстояние является просто средним разностей по координатам. В большинстве случаев эта мера расстояния приводит к таким же результатам, как и для обычного расстояния Евклида. Однако отметим, что для этой меры влияние отдельных больших разностей (выбросов) уменьшается (так как они не возводятся в квадрат). Манхэттенское расстояние вычисляется по формуле:

Расстояние Чебышева. Это расстояние может оказаться полезным, когда желают определить два объекта как "различные", если они различаются по какой-либо одной координате (каким-либо одним измерением). Расстояние Чебышева вычисляется по формуле:

Степенное расстояние. Иногда желают прогрессивно увеличить или уменьшить вес, относящийся к размерности, для которой соответствующие объекты сильно отличаются. Это может быть достигнуто с использованием степенного расстояния. Степенное расстояние вычисляется по формуле:

где r и p — параметры, определяемые пользователем. Несколько примеров вычислений могут показать, как "работает" эта мера. Параметр p ответственен за постепенное взвешивание разностей по отдельным координатам, параметр r ответственен за прогрессивное взвешивание больших расстояний между объектами. Если оба параметра — r и p , равны двум, то это расстояние совпадает с расстоянием Евклида.

Процент несогласия. Эта мера используется в тех случаях, когда данные являются категориальными. Это расстояние вычисляется по формуле:

расстояние(x,y) = (Количество xi yi)/ i

Правила объединения или связи

На первом шаге, когда каждый объект представляет собой отдельный кластер, расстояния между этими объектами определяются выбранной мерой. Однако когда связываются вместе несколько объектов, возникает вопрос, как следует определить расстояния между кластерами? Другими словами, необходимо правило объединения или связи для двух кластеров. Здесь имеются различные возможности: например, вы можете связать два кластера вместе, когда любые два объекта в двух кластерах ближе друг к другу, чем соответствующее расстояние связи. Другими словами, вы используете "правило ближайшего соседа" для определения расстояния между кластерами; этот метод называется методом одиночной связи. Это правило строит "волокнистые" кластеры, т.е. кластеры, "сцепленные вместе" только отдельными элементами, случайно оказавшимися ближе остальных друг к другу. Как альтернативу вы можете использовать соседей в кластерах, которые находятся дальше всех остальных пар объектов друг от друга. Этот метод называется метод полной связи. Существует также множество других методов объединения кластеров, подобных тем, что были рассмотрены.

Читайте также:  Анализ и планирование прибыли аптеки

Одиночная связь (метод ближайшего соседа). Как было описано выше, в этом методе расстояние между двумя кластерами определяется расстоянием между двумя наиболее близкими объектами (ближайшими соседями) в различных кластерах. Это правило должно, в известном смысле, нанизывать объекты вместе для формирования кластеров, и результирующие кластеры имеют тенденцию быть представленными длинными "цепочками".

Полная связь (метод наиболее удаленных соседей). В этом методе расстояния между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах (т.е. "наиболее удаленными соседями"). Этот метод обычно работает очень хорошо, когда объекты происходят на самом деле из реально различных "рощ". Если же кластеры имеют в некотором роде удлиненную форму или их естественный тип является "цепочечным", то этот метод непригоден.

Невзвешенное попарное среднее. В этом методе расстояние между двумя различными кластерами вычисляется как среднее расстояние между всеми парами объектов в них. Метод эффективен, когда объекты в действительности формируют различные "рощи", однако он работает одинаково хорошо и в случаях протяженных ("цепочного" типа) кластеров. Отметим, что в своей книге Снит и Сокэл (Sneath, Sokal, 1973) вводят аббревиатуру UPGMA для ссылки на этот метод, как на метод невзвешенного попарного арифметического среднегоunweighted pair-group method using arithmetic averages.

Взвешенное попарное среднее. Метод идентичен методу невзвешенного попарного среднего, за исключением того, что при вычислениях размер соответствующих кластеров (т.е. число объектов, содержащихся в них) используется в качестве весового коэффициента. Поэтому предлагаемый метод должен быть использован (скорее даже, чем предыдущий), когда предполагаются неравные размеры кластеров. В книге Снита и Сокэла (Sneath, Sokal, 1973) вводится аббревиатура WPGMA для ссылки на этот метод, как на метод взвешенного попарного арифметического среднего — weighted pair-group method using arithmetic averages.

Невзвешенный центроидный метод. В этом методе расстояние между двумя кластерами определяется как расстояние между их центрами тяжести. Снит и Сокэл (Sneath and Sokal (1973)) используют аббревиатуру UPGMC для ссылки на этот метод, как на метод невзвешенного попарного центроидного усредненияunweighted pair-group method using the centroid average.

Взвешенный центроидный метод (медиана). тот метод идентичен предыдущему, за исключением того, что при вычислениях используются веса для учёта разницы между размерами кластеров (т.е. числами объектов в них). Поэтому, если имеются (или подозреваются) значительные отличия в размерах кластеров, этот метод оказывается предпочтительнее предыдущего. Снит и Сокэл (Sneath, Sokal 1973) использовали аббревиатуру WPGMC для ссылок на него, как на метод невзвешенного попарного центроидного усредненияweighted pair-group method using the centroid average.

Метод Варда. Этот метод отличается от всех других методов, поскольку он использует методы дисперсионного анализа для оценки расстояний между кластерами. Метод минимизирует сумму квадратов (SS) для любых двух (гипотетических) кластеров, которые могут быть сформированы на каждом шаге. Подробности можно найти в работе Варда (Ward, 1963). В целом метод представляется очень эффективным, однако он стремится создавать кластеры малого размера.

Для обзора других методов кластеризации, см. Двухвходовое объединение и Метод K средних.

Ранее этот метод обсуждался в терминах "объектов", которые должны быть кластеризованы (см. Объединение (древовидная кластеризация)). Во всех других видах анализа интересующий исследователя вопрос обычно выражается в терминах наблюдений или переменных. Оказывается, что кластеризация, как по наблюдениям, так и по переменным может привести к достаточно интересным результатам. Например, представьте, что медицинский исследователь собирает данные о различных характеристиках (переменные) состояний пациентов (наблюдений), страдающих сердечными заболеваниями. Исследователь может захотеть кластеризовать наблюдения (пациентов) для определения кластеров пациентов со сходными симптомами. В то же самое время исследователь может захотеть кластеризовать переменные для определения кластеров переменных, которые связаны со сходным физическим состоянием.

После этого обсуждения, относящегося к тому, кластеризовать наблюдения или переменные, можно задать вопрос, а почему бы не проводить кластеризацию в обоих направлениях? Модуль Кластерный анализ содержит эффективную двувходовую процедуру объединения, позволяющую сделать именно это. Однако двувходовое объединение используется (относительно редко) в обстоятельствах, когда ожидается, что и наблюдения и переменные одновременно вносят вклад в обнаружение осмысленных кластеров.

Так, возвращаясь к предыдущему примеру, можно предположить, что медицинскому исследователю требуется выделить кластеры пациентов, сходных по отношению к определенным кластерам характеристик физического состояния. Трудность с интерпретацией полученных результатов возникает вследствие того, что сходства между различными кластерами могут происходить из (или быть причиной) некоторого различия подмножеств переменных. Поэтому получающиеся кластеры являются по своей природе неоднородными. Возможно это кажется вначале немного туманным; в самом деле, в сравнении с другими описанными методами кластерного анализа (см. Объединение (древовидная кластеризация) и Метод K средних), двувходовое объединение является, вероятно, наименее часто используемым методом. Однако некоторые исследователи полагают, что он предлагает мощное средство разведочного анализа данных (за более подробной информацией вы можете обратиться к описанию этого метода у Хартигана (Hartigan, 1975)).

Этот метод кластеризации существенно отличается от таких агломеративных методов, как Объединение (древовидная кластеризация) и Двувходовое объединение. Предположим, вы уже имеете гипотезы относительно числа кластеров (по наблюдениям или по переменным). Вы можете указать системе образовать ровно три кластера так, чтобы они были настолько различны, насколько это возможно. Это именно тот тип задач, которые решает алгоритм метода K средних. В общем случае метод K средних строит ровно K различных кластеров, расположенных на возможно больших расстояниях друг от друга.

В примере с физическим состоянием (см. Двувходовое объединение), медицинский исследователь может иметь "подозрение" из своего клинического опыта, что его пациенты в основном попадают в три различные категории. Далее он может захотеть узнать, может ли его интуиция быть подтверждена численно, то есть, в самом ли деле кластерный анализ K средних даст три кластера пациентов, как ожидалось? Если это так, то средние различных мер физических параметров для каждого кластера будут давать количественный способ представления гипотез исследователя (например, пациенты в кластере 1 имеют высокий параметр 1, меньший параметр 2 и т.д.).

С вычислительной точки зрения вы можете рассматривать этот метод, как дисперсионный анализ (см. Дисперсионный анализ) "наоборот". Программа начинает с K случайно выбранных кластеров, а затем изменяет принадлежность объектов к ним, чтобы: (1) — минимизировать изменчивость внутри кластеров, и (2) — максимизировать изменчивость между кластерами. Данный способ аналогичен методу "дисперсионный анализ (ANOVA) наоборот" в том смысле, что критерий значимости в дисперсионном анализе сравнивает межгрупповую изменчивость с внутригрупповой при проверке гипотезы о том, что средние в группах отличаются друг от друга. В кластеризации методом K средних программа перемещает объекты (т.е. наблюдения) из одних групп (кластеров) в другие для того, чтобы получить наиболее значимый результат при проведении дисперсионного анализа (ANOVA).

Обычно, когда результаты кластерного анализа методом K средних получены, можно рассчитать средние для каждого кластера по каждому измерению, чтобы оценить, насколько кластеры различаются друг от друга. В идеале вы должны получить сильно различающиеся средние для большинства, если не для всех измерений, используемых в анализе. Значения F-статистики, полученные для каждого измерения, являются другим индикатором того, насколько хорошо соответствующее измерение дискриминирует кластеры.

Все права на материалы электронного учебника принадлежат компании StatSoft

Источник



Что такое кластеризация или кластерный анализ

Если у вас есть большой массив данных, то наиболее эффективный способ понять, что с ними делать — рассортировать их в группы для первичного анализа. Группировать можно при помощи — сегментации (вы сами задаете критерии, например, возрастные и ценовые группы) или кластеризации (математический алгоритм сам выявляет “связующий” критерий или признак, который объединяет данные). Ценность data-driven подхода и основное отличие кластеризации заключается в том, что алгоритмы выявляют и объединяют параметры с похожими чертами из первичного массива данных.

Читайте также:  Анализ крови при вич ошибки

Маркетинг и продажи — одно из направлений применения кластерного анализа. В частности для прогнозирования будущего поведения покупателя — персонализации и таргетирования. Кластерный анализ использует математические модели для обнаружения групп схожих клиентов, основываясь на наименьших различиях среди покупателей в каждой группе.

Кластерный анализ (англ. cluster analysis) — многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы.

Боль: кампании, как маркетинговая инвестиция, должны быть направлены на конкретную целевую группу.

Стандартный пул данных в датасете:

  • Основная информация о клиенте — профиль / идентификатор клиента, местоположение и цена покупок
  • Информация о продукте — сегмент, бренд, иерархия продуктов, размер, и тд.
  • Информация о транзакции — проданный объем, детали счета, дата, время и идентификатор продукта

Более глубокое понимание клиентских сегментов достигается путем разработки 3D-модели кластеров на основе ключевых бизнес-показателей, таких как размещенные заказы (покупки), частота заказов, заказанные товары или изменение цен. Актуальность результатов кластеризации для бизнеса позволяет лицам, принимающим решения, выявлять проблемные кластеры, которые вынуждают продавца использовать больше ресурсов для достижения целевого результата. Затем можно сосредоточить свои маркетинговые и операционные усилия на правильных кластерах, чтобы обеспечить оптимальное использование ресурсов, включая:

  • Анализ цен: кластеризация является отправной точкой для более глубокого анализа цен, чтобы получить инсайты и улучшить объемы продаж на основе прогнозируемых изменений в структуре (паттерне) закупок по отношению к изменениям цен внутри каждого идентифицированного кластера.
  • Анализ аномалий: можно выявить неочевидные закономерности и аномалии в поведении покупателей.
  • Анализ частоты покупок: позволяет сформировать кластеры покупателей, которые стали покупать реже или наоборот чаще в конкретном промежутке времени.
  • Анализ времени покупок: кластеризация времени покупок в течении дня на протяжении недели и в разные сезоны может выявить периоды максимальной и минимальной загрузки для оптимизации логистики и перераспределения трафика.
  • Аналитика дистрибуции: дистрибьюторы также могут извлечь выгоду из кластеризации продуктов, поскольку это помогает им идентифицировать товары, которые можно связать вместе, чтобы избежать многократных поездок и оптимизировать транспортные ресурсы.
  • Прогнозируемые инсайты: кластеризация продуктов может предоставить ритейлерам возможности прогнозирования, позволяя им сопоставить нового клиента с уже существующими кластерами продуктов на основе определенных атрибутов клиента, таких как бизнес-категория, местоположение и предлагаемые услуги.
  • Анализ продвижения: группировка похожих продуктов на основе кластеризации товаров может помочь розничным продавцам идентифицировать наборы продуктов, чтобы повысить продажи и увеличить количество товаров, заказанных конкретным покупателем, на основе выявленных сходств в выборе.

Хотя возможности прогнозирования, предлагаемые кластеризацией, могут трансформировать результаты целевого маркетинга, кластеризация наиболее эффективна при использовании вместе с другими решениями для розничной аналитики. Ценность кластеризации продуктов особенно видна в очень разреженном датасете (наборе данных). В дополнение к повышению рентабельности маркетинговых инвестиций (ROMI) с точки зрения прибыльности клиентов, кластеризация продуктов может помочь ритейлерам таргетировать и активизировать клиентов из категории с невысокой платежеспособностью.

  • обеспечить интерактивное взаимодействие между пользователем и системой — разбиение массива на группы происходит в течение нескольких секунд;
  • добиться воспроизводимых результатов. Известно, что недостатком алгоритма k-среднего является нестабильность распределения — при нескольких запусках один и тот же элемент может оказаться в разных кластерах. В Polymatica этот недостаток устранен.

Подробнее о функционале модуля “Кластеризация” смотрите в обучающем видео.

Источник

Кластерный анализ

В статье более детально рассмотрено значение кластерного анализа, который является основой для многих научных исследований.

Кластерный анализ — это совокупность методов, позволяющих классифицировать многомерные наблюдения. Он не накладывает ограничения на представление исследуемых объектов, позволяет анализировать показатели различных типов данных (интервальным данным, частотам, бинарным данным). Большое достоинство кластерного анализа в том, что он позволяет производить разбиение объектов не по одному параметру, а по целому набору признаков. Кроме того, кластерный анализ в отличие от большинства математико-статистических методов не накладывает никаких ограничений на вид рассматриваемых объектов, и позволяет рассматривать множество исходных данных практически произвольной природы. При этом необходимо помнить, что переменные должны измеряться в сравнимых шкалах. Кластерный анализ позволяет рассматривать достаточно большой объем информации и резко сокращать, сжимать большие массивы социально-экономической информации, делать их компактными и наглядными.

Кластерный анализ представляет собой класс методов, используемых для классификации объектов или событий в относительно однородные группы, которые называются кластерами. Объекты в каждом кластере должны быть похожи между собой и отличаться от других объектов в других кластерах. Его также называют классификационным. В случае если кластерный анализ использовать именно таким образом, то он становится частью факторного анализа, так как уменьшают число объектов, а не число переменных, сгруппировывая их в меньшее число кластеров.

Цель кластеризации группирование схожих объектов, в связи с этим для того, чтобы оценить, насколько они похожи или не похожи, крайне важно использовать некую измерительную единицу. Наиболее распространенный метод состоит, по сути, в том, что в качестве такой меры используют расстояние между объектами. Объекты с меньшими расстояниями между собой более похожи, чем объекты с большими расстояниями.

Существует несколько способов вычисления расстояния между объектами. Наиболее часто используют меру сходства – Евклидово расстояние или его квадрат.

Евклидово расстояние – квадратный корень из суммы квадратов разностей в значениях для каждой переменной.

Процесс кластеризации начинается с вычисления матрицы различий между группами объектов – матрицы Евклидовых расстояний, элементы которой вычисляется, исходя из матрицы Х.

Этапы выполнения кластерного анализа:

  1. формулировка проблемы
  2. выбор меры расстояния
  3. выбор метода кластеризации
  4. принятие решения о количестве кластеров
  5. интерпретация и профилирование кластеров
  6. оценка достоверности кластеризации

Самая важная часть формулирования проблемы кластеризации — это выбор переменных, на основе которых проводят кластеризацию.

Кластерный анализ применяется для решения широкого спектра задач. В отличие от большинства других методов многомерного анализа, кластерный анализ параллельно развивался в 52 нескольких дисциплинах (психология, биология, экономика и др.), поэтому у большинства методов существует по 2 и более названий, что существенно затрудняет взаимопонимание исследователей, в особенности, если речь идет о разных отраслях знания.

Другая проблема связана с обилием вариантов при выборе метрики и метода кластеризации, а также согласования между ними.

Выделяют две группы методов кластерного анализа: иерархические и неиерархические.

Иерархические методы могут быть агломеративными и дивизивными. Агломеративная кластеризация начинается с каждого объекта в отдельном кластере. Кластеры объединяют, группируя объекты каждый раз во все более и более крупные кластеры. Этот процесс продолжают до тех пор, пока все объекты не станут членами одного единственного кластера. Разделяющая, или дивизивная, кластеризация начинается со всех объектов, сгруппированных в единственном кластере. Кластеры делят до тех пор, пока каждый объект не окажется в отдельном кластере.

Основными методами иерархического кластерного анализа являются метод ближнего соседа, метод полной связи, метод средней связи и метод Варда. Существуют также центроидные методы и методы, использующие медиану, но их применение может привести к некоторым весьма нежелательным последствиям.

Методы связи — агломеративные методы иерархической кластеризации, которые объединяют объекты в кластер, исходя из вычисленного расстояния между ними. В основе полного метода лежит максимальное расстояние между объектами, или правило дальнего соседа. В этом методе расстояние между двумя кластерами вычисляют как расстояние между двумя их самыми удаленными точками.

В методе средней связи расстояние между двумя кластерами определяют как среднее значение всех расстояний, измеренных между объектами двух кластеров, при этом в каждую пару входят объекты из разных кластеров. Метод средней связи использует информацию обо всех расстояния между парами, а не только минимальное или максимальное расстояние. По этой причин обычно предпочитают использовать именно этот метод.

Читайте также:  Анализ крови соэ сдают натощак

В центроидных методах расстояние между двумя кластерами представляет собой расстояние между их центроидами. Центроидный метод — дисперсионный метод иерархической кластеризации.

Каждый раз объекты группируют и вычисляют новый центроид. Изо всех иерархических методов методы средней связи и Варда показывают наилучшие результаты по сравнению с другими методами.

Неиерархических методов больше, хотя работают они на одних и тех же принципах. По сути, они представляют собой итеративные методы дробления исходной совокупности. В процессе деления формируются новые кластеры, и так до тех пор, пока не будет выполнено правило остановки. Между собой методы различаются выбором начальной точки, правилом формирования новых кластеров и правилом остановки. Чаще всего используется алгоритм К- средних. Он подразумевает, что аналитик заранее фиксирует количество кластеров в результирующем разбиении.

Метод К- средних — метод, который вначале определяет центр кластера, а затем группирует все объекты в пределах заданного от центра порогового значения. Эти методы включают последовательный пороговый метод, параллельный пороговый метод и оптимизирующее распределение.

Однако, во многих задачах даже после того, как правило, остановки рекомендовало нам прекратить дальнейшие вычисления, нет оснований считать, что полученное решение является адекватным. Результаты процедуры кластерного анализа обязательно требуют проверки с помощью формальных и неформальных тестов. Говоря о формальных статистиках, следует рекомендовать рассчитать значение статистики «С». Неформальная проверка результатов кластерного анализа включает в себя такие процедуры, как анализ результатов, полученных на подвыборках, кросс-проверка на «внешних» данных, вменение порядка наблюдений, удаление небольшого количества наблюдений и повторение кластерного анализа на коротких выборках и т.д.

Источник

Что такое кластерный анализ рынка

Известный трейдер Джозеф Гранвил сказал: «Объем — это тот пар, на котором едет паровоз». И был действительно прав! Современные трейдеры достаточно много внимания уделяют интерпретации объема торгов для определения наиболее вероятного ценового движения. Причем объемы важны как для краткосрочных, так и для долгосрочных трейдеров. Достаточно популярным и одновременно эффективным методом анализа рынка стал так называемый кластерный анализ, который базируется именно на объемах торгов. В этой статье мы разберем, что представляет из себя данное направление технического исследования и что оно способно дать трейдеру.

Определение и логика кластерного анализа в трейдинге

Рассмотрим, что такое кластер. Это объединение нескольких однородных элементов, которое может рассматриваться как самостоятельная единица, обладающая определёнными свойствами. В процессе торгов, в рамках какого-либо временного периода (таймфрейма), на определенных ценах совершаются однородные элементы — сделки (купля/продажа актива), суммарно образуя кластеры — общие объемы покупок и продаж, прошедшие по определенной цене на рассматриваемом промежутке времени. Таким образом, кластерный анализ рынка как раз изучает сделки и их объемы, которые проходят на ценовых уровнях, тем самым давая трейдеру более детальное понимание того, куда с большой долей вероятности двинется торгуемый актив. Для удобства визуализации кластеров был изобретен кластерный график, в рамках которого на ценовую свечу (бар) наносятся объемы сделок на каждом ценовом уровне.

Чтобы лучше понимать, откуда берутся эти наносимые на ценовые уровни объемы, вспомним, что в торговом терминале QUIK существует обезличенная таблица всех сделок (ее можно выводить для любого торгуемого инструмента), в которой отображаются все активные сделки с указанием их объемов. Для понимания того, что такое активная сделка, вспомним, что в стакане всегда существует спрэд между лучшей ценой на продажу и на покупку (то есть цены на покупку всегда ниже цены на продажу). Чтобы произошла сделка либо покупатель, либо продавец должен согласиться на цену контрагента. Именно эти сделки, с указанием их направления (покупка или продажа), и записываются в обезличенную таблицу всех сделок (или просто «ленту»). Однако следует помнить, если сделка произошла, то помимо ее инициатора, активной стороны, был еще и контрагент, предоставивший соответствующий объем. Именно эти сделки купли и продажи наносятся на ценовые уровни кластерного графика, давая трейдеру более детальное представление о том, что происходит в процессе образования свечи.

Действительно, что же там происходит? Дело в том, что все заявки (помимо покупки и продажи) можно условно разделить на две категории:

  • заявки профессионалов — обычно входят на более крупные суммы;
  • заявки мелких торговцев — объемы гораздо меньше.

Как раз на кластерах очень хорошо видно, что делают крупные игроки: покупают или продают, какими объемами и по каким ценам — все их сделки сразу записываются в соответствующий кластер. Мало того, если сделки происходят по одной и той же цене в рамках одной свечи, то их объемы суммируются, что позволяет трейдеру получать всегда свежую и актуальную информацию.

В любой дисциплине есть ключевые понятия, значение которых необходимо знать. В кластерном анализе это — маркет-дельта (или просто «дельта») и маркет-профиль.

Маркет-дельта

Дельта — это разница между активными покупками и продажами в рамках рассматриваемого таймфрейма. Если дельта положительная — значит, в свече (баре) преобладали покупки на указанную величину, а если отрицательная — продажи на указанную величину. Известно, что если покупки преобладают, то цена обычно растет, а если доминирование за продажами — цена, как правило, снижается. То есть, отслеживая наносимые на свечку объемы покупок и продаж, можно вычислить разницу этих сделок. Таким образом можно понять, каким именно было доминирование какой-либо из групп участников в данной свече (баре).Естественно, эту разность, выражаемую дельтой, нужно понимать в общем контексте дельт остальных свечей. На основании всего этого можно сделать вывод: если было явное доминирование покупок, то цена, скорее всего, вырастет, а если продаж — упадет.

Маркет-профиль

Так называют объемы сделок по каждой цене в рамках дня (для дэйтрейдеров) или суммарно за рассматриваемый период. Получается, что маркет-профиль — объем, записанный в вертикальной форме. Маркет-профиль достаточно хорошо показывает уровни, на которых заходил максимальный объем в рамках периода. Следовательно, это та ценовая зона, пробитие которой в противоположную объемам сторону может повлечь срыв стопов и, соответственно, появление импульса. Ключевые уровни (наиболее значимые с точки зрения пробития) очень хорошо отслеживать по профилю рынка в качестве зоны с максимальным объемом сделок. Причем профиль даже говорит о том, какие объемы продаж и покупок были на данных уровнях.

Программы для построения кластерных графиков

Откуда берутся элементы визуализации кластерного анализа? К сожалению, в торговом терминале QUIK кластерный анализ не представлен. Но это не значит, что нельзя, анализируя ленту, объем и сами свечи (бары), составить представление, где и куда заходят умные деньги, и что это значит для рынка. Однако отсутствие непосредственной кластерной визуализации в форме кластерных графиков — это минус. Но в торговом терминале MetaTrader 5 есть индикаторы YuClusters (платный) и YuClusters Demo (бесплатный), которые формируют кластерные графики. Так же есть множество программ — с большим или меньшим функционалом — представляющих кластерные графики. К примеру, можно использовать для кластерного анализа рынка программы Volfix и ATAS. Элементы кластерного анализа бывают представлены и в скальперских приводах (например, в QScalp), но это не значит, что кластеры полезны только при внутридневной торговле. Кластеры помогают разобраться, как именно входит объем, который служит паром для рыночного паровоза на любом фрейме!

Кластерный анализ рынка — современный и высокоточный метод ценового прогнозирования, основанный на детализации входящих в актив объемов.

С теорией всё более-менее понятно, а что насчёт практики? Откройте брокерский счёт онлайн в «Открытие Брокер» и начинайте торговать прямо сейчас! А мы поможем советами и рекомендациями — всё самое полезное каждую неделю будет приходить прямо на ваш email, если подпишетесь на рассылку.

Источник