Факторный анализ собственные значения это

Факторный анализ собственные значения это

Факторный анализ — многомерный метод, применяемый для изучения взаимосвязей между значениями переменных. Предполагается, что известные переменные зависят от меньшего количества неизвестных переменных и случайной ошибки.

Содержание

Краткая история

Факторный анализ впервые возник в психометрике и в настоящее время широко используется не только в психологии, но и в нейрофизиологии, социологии, политологии, в экономике, статистике и других науках. Основные идеи факторного анализа были заложены английским психологом и антропологом, основателем евгеники Гальтоном Ф. (1822—1911), внесшим также большой вклад в исследование индивидуальных различий. Но в разработку Факторного анализа внесли вклад многие ученые. Разработкой и внедрением факторного анализа в психологию занимались такие ученые как Спирмен Ч. (1904, 1927, 1946), Терстоун Л. (1935, 1947, 1951) и Кеттел Р. (1946, 1947, 1951). Также нельзя не упомянуть английского математика и философа Пирсона К., в значительной степени развившего идеи Ф. Гальтона, американского математика Хотеллинга Г., разработавшего современный вариант метода главных компонент. Внимания заслуживает и английский психолог Айзенк Г., широко использовавший Факторный анализ для разработки психологической теории личности. Математически факторный анализ разрабатывался Хотеллингом, Харманом, Кайзером, Терстоуном, Такером и др. Сегодня факторный анализ включён во все пакеты статистической обработки данных — R, SAS, SPSS, Statistica и т. д.

Задачи и возможности факторного анализа

Факторный анализ позволяет решить две важные проблемы исследователя: описать объект измерения всесторонне и в то же время компактно. С помощью факторного анализа возможно выявление скрытых переменных факторов, отвечающих за наличие линейных статистических связей корреляций между наблюдаемыми переменными.

Таким образом можно выделить 2 цели Факторного анализа:

  • определение взаимосвязей между переменными, (классификация переменных), т. е. «объективная R-классификация» [1][2] ;
  • сокращение числа переменных необходимых для описания данных.

При анализе в один фактор объединяются сильно коррелирующие между собой переменные, как следствие происходит перераспределение дисперсии между компонентами и получается максимально простая и наглядная структура факторов. После объединения коррелированность компонент внутри каждого фактора между собой будет выше, чем их коррелированность с компонентами из других факторов. Эта процедура также позволяет выделить латентные переменные, что бывает особенно важно при анализе социальных представлений и ценностей. Например, анализируя оценки, полученные по нескольким шкалам, исследователь замечает, что они сходны между собой и имеют высокий коэффициент корреляции, он может предположить, что существует некоторая латентная переменная, с помощью которой можно объяснить наблюдаемое сходство полученных оценок. Такую латентную переменную называют фактором. Данный фактор влияет на многочисленные показатели других переменных, что приводит нас к возможности и необходимости выделить его как наиболее общий, более высокого порядка. Для выявления наиболее значимых факторов и, как следствие, факторной структуры, наиболее оправданно применять метод главных компонентов (МГК). Суть данного метода состоит в замене коррелированных компонентов некоррелированными факторами. Другой важной характеристикой метода является возможность ограничиться наиболее информативными главными компонентами и исключить остальные из анализа, что упрощает интерпретацию результатов. Достоинство МГК также в том, что он — единственный математически обоснованный метод факторного анализа [1] [3] .

Факторный анализ может быть:

  • разведочным — он осуществляется при исследовании скрытой факторной структуры без предположения о числе факторов и их нагрузках;
  • конфирматорным, предназначенным для проверки гипотез о числе факторов и их нагрузках (примечание 2).

Условия применения факторного анализа

Практическое выполнение факторного анализа начинается с проверки его условий. В обязательные условия факторного анализа входят:

  • Все признаки должны быть количественными.
  • Число наблюдений должно быть в два раза больше числа переменных.
  • Выборка должна быть однородна.
  • Исходные переменные должны быть распределены симметрично.
  • Факторный анализ осуществляется по коррелирующим переменным [3] .

Основные понятия факторного анализа

  • Фактор — скрытая переменная
  • Нагрузка — корреляция между исходной переменной и фактором

Процедура вращения. Выделение и интерпретация факторов

Сущностью факторного анализа является процедура вращения факторов, то есть перераспределения дисперсии по определённому методу. Цель ортогональных вращений — определение простой структуры факторных нагрузок, целью большинства косоугольных вращений является определение простой структуры вторичных факторов, то есть косоугольное вращение следует использовать в частных случаях. Поэтому ортогональное вращение предпочтительнее. Согласно определению Мюльека простая структура соответствует требованиям:

  • в каждой строке матрицы вторичной структуры V должен быть хотя бы один нулевой элемент;
  • Для каждого столбца k матрицы вторичной структуры V должно существовать подмножество из r линейно-независимых наблюдаемых переменных, корреляции которых с k-м вторичным фактором — нулевые. Данный критерий сводится к тому, что каждый столбец матрицы должен содержать не менее r нулей.
  • У одного из столбцов каждой пары столбцов матрицы V должно быть несколько нулевых коэффициентов (нагрузок) в тех позициях, где для другого столбца они ненулевые. Это предположение гарантирует различимость вторичных осей и соответствующих им подпространств размерности r—1 в пространстве общих факторов.
  • При числе общих факторов больше четырех в каждой паре столбцов должно быть некоторое количество нулевых нагрузок в одних и тех же строках. Данное предположение дает возможность разделить наблюдаемые переменные на отдельные скопления.
  • Для каждой пары столбцов матрицы V должно быть как можно меньше значительных по величине нагрузок, соответствующих одним и тем же строкам. Это требование обеспечивает минимизацию сложности переменных.

(В определении Мьюлейка через r обозначено число общих факторов, а V — матрица вторичной структуры, образованная координатами (нагрузками) вторичных факторов, получаемых в результате вращения.) Вращение бывает:

  • ортогональным
  • косоугольным.

При первом виде вращения каждый последующий фактор определяется так, чтобы максимизировать изменчивость, оставшуюся от предыдущих, поэтому факторы оказываются независимыми, некоррелированными друг от друга (к этому типу относится МГК). Второй вид — это преобразование, при котором факторы коррелируют друг с другом. Преимущество косоугольного вращения состоит в следующем: когда в результате его выполнения получаются ортогональные факторы, можно быть уверенным, что эта ортогональность действительно им свойственна, а не привнесена искусственно. Существует около 13 методов вращения в обоих видах, в статистической программе SPSS 10 доступны пять: три ортогональных, один косоугольный и один комбинированный, однако из всех наиболее употребителен ортогональный метод «варимакс». Метод «варимакс» максимизирует разброс квадратов нагрузок для каждого фактора, что приводит к увеличению больших и уменьшению малых значений факторных нагрузок. В результате простая структура получается для каждого фактора в отдельности [1] [3] [2] .

Главной проблемой факторного анализа является выделение и интерпретация главных факторов. При отборе компонент исследователь обычно сталкивается с существенными трудностями, так как не существует однозначного критерия выделения факторов, и потому здесь неизбежен субъективизм интерпретаций результатов. Существует несколько часто употребляемых критериев определения числа факторов. Некоторые из них являются альтернативными по отношению к другим, а часть этих критериев можно использовать вместе, чтобы один дополнял другой:

  • Критерий Кайзера или критерий собственных чисел. Этот критерий предложен Кайзером, и является, вероятно, наиболее широко используемым. Отбираются только факторы с собственными значениями равными или большими 1. Это означает, что если фактор не выделяет дисперсию, эквивалентную, по крайней мере, дисперсии одной переменной, то он опускается [1] .
  • Критерий каменистой осыпи или критерий отсеивания. Он является графическим методом, впервые предложенным психологом Кэттелом. Собственные значения возможно изобразить в виде простого графика. Кэттел предложил найти такое место на графике, где убывание собственных значений слева направо максимально замедляется. Предполагается, что справа от этой точки находится только «факториальная осыпь» — «осыпь» является геологическим термином, обозначающим обломки горных пород, скапливающиеся в нижней части скалистого склона [1] . Однако этот критерий отличается высокой субъективностью и, в отличие от предыдущего критерия, статистически необоснован. Недостатки обоих критериев заключаются в том, что первый иногда сохраняет слишком много факторов, в то время как второй, напротив, может сохранить слишком мало факторов; однако оба критерия вполне хороши при нормальных условиях, когда имеется относительно небольшое число факторов и много переменных. На практике возникает важный вопрос: когда полученное решение может быть содержательно интерпретировано. В этой связи предлагается использовать ещё несколько критериев.
  • Критерий значимости. Он особенно эффективен, когда модель генеральной совокупности известна и отсутствуют второстепенные факторы. Но критерий непригоден для поиска изменений в модели и реализуем только в факторном анализе по методу наименьших квадратов или максимального правдоподобия [1] .
  • Критерий доли воспроизводимой дисперсии. Факторы ранжируются по доле детерминируемой дисперсии, когда процент дисперсии оказывается несущественным, выделение следует остановить [1] . Желательно, чтобы выделенные факторы объясняли более 80 % разброса. Недостатки критерия: во-первых, субъективность выделения, во-вторых, специфика данных может быть такова, что все главные факторы не смогут совокупно объяснить желательного процента разброса. Поэтому главные факторы должны вместе объяснять не меньше 50,1 % дисперсии.
  • Критерий интерпретируемости и инвариантности. Данный критерий сочетает статистическую точность с субъективными интересами. Согласно ему, главные факторы можно выделять до тех пор, пока будет возможна их ясная интерпретация. Она, в свою очередь, зависит от величины факторных нагрузок, то есть если в факторе есть хотя бы одна сильная нагрузка, он может быть интерпретирован. Возможен и обратный вариант — если сильные нагрузки имеются, однако интерпретация затруднительна, от этой компоненты предпочтительно отказаться [1][3] .

Практика показывает, что если вращение не произвело существенных изменений в структуре факторного пространства, это свидетельствует о его устойчивости и стабильности данных. Возможны ещё два варианта: 1). сильное перераспределение дисперсии — результат выявления латентного фактора; 2). очень незначительное изменение (десятые, сотые или тысячные доли нагрузки) или его отсутствие вообще, при этом сильные корреляции может иметь только один фактор, — однофакторное распределение. Последнее возможно, например, когда на предмет наличия определённого свойства проверяются несколько социальных групп, однако искомое свойство есть только у одной из них.

Факторы имеют две характеристики: объём объясняемой дисперсии и нагрузки. Если рассматривать их с точки зрения геометрической аналогии, то касательно первой отметим, что фактор, лежащий вдоль оси ОХ, может максимально объяснять 70 % дисперсии (первый главный фактор), фактор, лежащий вдоль оси ОУ, способен детерминировать не более 30 % (второй главный фактор). То есть в идеальной ситуации вся дисперсия может быть объяснена двумя главными факторами с указанными долями [4] . В обычной ситуации может наблюдаться два или более главных факторов, а также остаётся часть неинтерпретируемой дисперсии (геометрические искажения), исключаемая из анализа по причине незначимости. Нагрузки, опять же с точки зрения геометрии, есть проекции от точек на оси ОХ и ОУ (при трёх- и более факторной структуре также на ось ОZ). Проекции — это коэффициенты корреляции, точки — наблюдения, таким образом, факторные нагрузки являются мерами связи. Так как сильной считается корреляция с коэффициентом Пирсона R ≥ 0,7, то в нагрузках нужно уделять внимание только сильным связям. Факторные нагрузки могут обладать свойством биполярности — наличием положительных и отрицательных показателей в одном факторе. Если биполярность присутствует, то показатели, входящие в состав фактора, дихотомичны и находятся в противоположных координатах [1] .

Методы факторного анализа:

Примечания

  1. 123456789 Ким Дж.-О., Мьюллер Ч. У. «Факторный анализ: статистические методы и практические вопросы» / сборник работ «Факторный, дискриминантный и кластерный анализ»: пер. с англ.; Под. ред. И. С. Енюкова. — М.: «Финансы и статистика», 1989. — 215 с.
  2. 12 Электронный учебник по статистике. Москва, StatSoft. WEB: www.statsoft.ru/home/textbook/default.htm.
  3. 1234 Шуметов В. Г. Шуметова Л. В. «Факторный анализ: подход с применением ЭВМ». ОрелГТУ, Орел, 1999. — 88 с.
  4. Пажес Ж.-П. «Конфликты и общественное мнение. Новая попытка объединить социологов и математиков» // «Социологические исследования», 1991, № 7. — с.107-115.
Читайте также:  Ариадна поэма цветаева анализ

Литература

  • Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ. — М .: Мир, 1982. — С. 488.
  • Колин Купер. Индивидуальные различия. — М.: Аспект Пресс, 2000. — 527 с.
  • Гусев А. Н., Измайлов Ч. А., Михалевская М. Б. Измерение в психологии. — М.: Смысл, 1997. — 287 с.
  • Митина О. В., Михайловская И. Б. Факторный анализ для психологов. — М.: Учебно-методический коллектор Психология, 2001. — 169 с.
  • Факторный, дискриминантный и кластерный анализ / сборник работ под ред. Енюкова И. С. — М.: Финансы и статистика, 1989. — 215 с.
  • Пациорковский В. В., Пациорковская В. В. SPSS для социологов.  — М.: Учебное пособие ИСЭПН РАН, 2005. — 433 с.
  • Бююль А., Цёфель П. SPSS: Искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. — СПб.: ООО «ДиаСофтЮП», 2002. — 603 с.
  • Факторный, дискриминантныи и кластерный анализ: Пер.

Ф18 с англ./Дж.-О. Ким, Ч. У. Мьюллер, У. Р. Клекка и др.; Под ред. И. С. Енюкова. — М.: Финансы и статистика, 1989.— 215 с:

Источник



10. Факторный анализ

Факторный анализ — представляет собой метод обобщения или сокращения большого количества переменных, объединение их в группы на основе характерных связей. В факторном анализе переменные не делятся на независимые и зависимые.

В практике маркетинговых исследований с факторный анализ применяется в следующих ситуациях

  • для сегментирования рынка и выявления переменных с целью группировки потребителей;
  • для определения характеристик торговой марки с целью выявления предпочтений потребителей;
  • при разработке рекламной стратегии с целью выявления особенностей восприятия потребителем рекламного продукта

Факторный анализ применяется для выделения из большого массива данных малое число групп, состоящих из переменных, объединенных общими факторами (Рисунок 10.1).

Рисунок 10.1 –Диалоговое окно факторного анализа

Рисунок 10.1 –Диалоговое окно факторного анализа

В один фактор объединяются переменные, плотно коррелирующие между собой и слабо коррелирующие с переменными, которые объединяются на основе других факторов. Факторный анализ проводится с целью сокращения числа переменных и упрощение процедуры анализа существующей базы данных.

В процессе проведения факторного анализа рассчитываются и анализируются следующие показатели:

  • Критерий сферичности Бартлетта — показатель, с помощью которого проверяют, отличаются ли корреляции от 0. Если г близко к нулю, то выбранная переменная не взаимосвязана с другими. Значимость меньше 0,05 указывает, на то что проведение факторного анализа приемлемо.
  • Корреляционная матрица — матрица, включающая в себя все возможные коэффициенты корреляций r между анализируемыми перемнными.
  • КМО — мера адекватности выборки Кайзера—Мейера—Олкина — величина, используемая для оценки применимости факторного анализа. Значения от 0,5 до 1 говорят об адекватности факторного анализа, значения до 0,5 указывают на то, что факторный анализ неприменим к выборке.

Графическое изображение критерия “каменистой осыпи” — график собственных значений факторов, расположенных в порядке убывания, используется для определения достаточного числа факторов.

Процедура факторного анализа включает следующие этапы:

  1. Формулировка проблемы.
  2. Проверка возможности проведения, вычисление корреляционной матрицы.
  3. Выбор метода факторного анализа.
  4. Извлечение факторов.
  5. Вращение факторов.
  6. Определение значений факторов.
  7. Проведение подгонки выбранной модели.

Пример. Проведем факторный анализ с целью сокращения массива данных, содержащих информацию о мотивах туристов, при выборе места отдыха за городом. Оптимизируем структуру данных, сократив число переменных.

  • оценить возможность проведения и адекватность факторного анализа для данной выборки;
  • вычислить корреляционную матрицу и выявить взаимосвязи между переменными базы данных;
  • выявить и извлечь необходимое количество факторов для создания упрощенной структуры;
  • разбить базу данных на группы факторов на основе значений совместной корреляции;
  • подобрать названия созданным переменным.

Мотивы туристов, при выборе места отдыха за городом:

  1. близость к городу
  2. приемлемые цены
  3. близость водоема, леса
  4. уровень комфорта
  5. тишина, уединение
  6. хорошее питание
  7. наличие развлечений
  8. комфорт отдыха с детьми
  9. возможность лечения, ухода за здоровьем

Пошаговая инструкция

ШАГ 1. Меню “Анализ — Сокращение размерности — Факторный анализ . ”. Открывается диалоговое окно “Факторный анализ”.

ШАГ 2. Из этого списка переменных выбрать необходимый массив, и перенести его в поле “Переменные”.

Если есть необходимость провести факторный анализ отдельно для двух переменных, например мужчин и женщин, то в поле “Переменная отбора наблюдений” вносится переменная “пол”. В данном случае нет необходимости проводить такое деление.

ШАГ 3. Диалоговое окно “Описательные статистики— выбрать “КМО и критерий сферичности Бартлетта” для проведения тестов “КМО” и “Бартлетт”, проверяющих пригодность данных для проведения факторного анализа.

ШАГ 4. Диалоговое окно “Описательные статистики— “Корреляционная матрица— “Коэффициенты— “Продолжить”.

ШАГ 5. Диалоговое окно “Извлечение— задать условия определения количества факторов. В диалоговом окне “Извлечение— выбрать метод “Главные компоненты. — “Матрица корреляций” (Рисунок 10.2).

Рисунок 10.2 — Матрица корреляций

Рисунок 10.2 — Матрица корреляций

ШАГ 6. Задать условие: собственное значение больше “1”. При данном условии программа определит факторы в количестве больше 1.

ШАГ 7. Вывести график собственных значений — “График собственных значений— “Продолжить”.

ШАГ 8. Выбор ротации матрицы коэффициентов: в главном диалоговом окне “Факторный анализ— диалоговое окно “Вращение— метод ротации “Варимакс— “Продолжить”.

ШАГ 9. Создание новых переменных: в диалоговом окне “Факторный анализ— диалоговое окно “Значения факторов— отметить команду “Сохранить как переменные— метод расчета значений новых переменных “Регрессионная модель”. В итоге создаются новые переменные, которые можно будет использовать в дальнейшем анализе.

ШАГ 10. “ОК”.

Интерпретация результатов

    Величина КМО показывает приемлемую адекватность выборки для факторного анализа КМО = 0,512>0,5. Критерий Бартлетта (p <0,05), что говорит о целесообразности факторного анализа в силу коррелированности факторов.
    Мера адекватности и критерий Бартлетта
    Мера выборочной адекватности Кайзера—Мейера—Олкина ,512
    Критерий сферичности Бартлетта Приблиз. хи—квадрат 262,3
    ст.св. 45
    Знч. ,000

Таблица 10.1 — Результаты теста КМО и Бартлетта

близость к городу приемлемые цены близость водоема, леса уровень комфорта тишина, уединение хорошее питание наличие развлечений комфорт отдыха с детьми возможность лечения, ухода за здоровьем организация детск. отдыха
Корреляция близость к городу 1,000 -,060 ,009 ,519 -,172 ,149 ,322 ,075 -,166 ,241
приемлемые цены -,060 1,000 -,064 -,341 ,270 -,247 -,121 ,232 ,273 -,407
близость водоема, леса ,009 -,064 1,000 -,056 ,017 -,083 ,107 ,114 ,027 ,030
уровень комфорта ,519 -,341 -,056 1,000 -,113 ,384 ,070 ,008 -,125 ,256
тишина, уединение -,172 ,270 ,017 -,113 1,000 ,084 -,167 -,060 ,989 -,129
хорошее питани ,149 -,247 -,083 ,384 ,084 1,000 -,422 ,191 ,036 ,237
наличие развлечений ,322 -,121 ,107 ,070 -,167 -,422 1,000 -,045 -,116 ,248
комфорт отдыха с детьми ,075 ,232 ,114 ,008 -,060 ,191 -,045 1,000 -,053 ,202
возможность лечения, ухода за здоровьем -,166 ,273 ,027 -,125 ,989 ,036 -,116 -,053 1,000 -,106
организация детск. отдыха ,241 -,407 ,030 ,256 -,129 ,237 ,248 ,202 -,106 1,000

Таблица 10.2 — Корреляционная матрица.

Коэффициенты корреляции характеризуют плотность связи между переменными исходного массива.

Метод выделения: Анализ главных компонент.

Начальные собственные значения должны быть больше 1.

Оптимальное число факторов — 5. Такая модель сохраняет 80,77% исходной информации, при этом число фактор сокращается в два раза.

Рисунок 10.1 — График собственных значений

Рисунок 10.1 — График собственных значений

График показывает соответствующие собственные значения в системе координат: с 5 по 6 факторы происходит перелом графика. Это подтверждает, что оптимальное количество факторов 5.

Таблица 10.5 — Матрица повернутых компонент

Метод выделения: Анализ методом главных компонент.
Метод вращения: Варимакс с нормализацией Кайзера.

Компонента 1 2 3 4 5
1 -,69 ,61 ,023 ,36 -,12
2 ,55 ,48 ,64 ,19 ,03
3 ,45 ,35 ,75 ,32 ,002
4 -,101 -,008 ,000 ,14 ,98
,51 -,130 -,83 ,123

Таблица 10.6 — Матрица преобразования компонент

Метод выделения: Анализ методом главных компонент.
Метод вращения: Варимакс с нормализацией Кайзера.

Выделяем следующие факторы:
Фактор 1 — тишина и уединение, уход за здоровьем
Фактор 2 — близость к городу, уровень комфорта
Фактор 3 — хорошее питание, наличие развлечений
Фактор 4 — организация детского отдыха, близость водоем
Фактор 5 — комфорт отдыха с детьми, приемлемые цен

Рисунок 10.2 — Фрагмент вкладки “Переменные”

Рисунок 10.2 — Фрагмент вкладки “Переменные”

Названия новых компонент необходимо занести в исходную базу данных в столбец “Метка” таблицы “Переменные”, компьютер автоматически вычисляет значения новых переменных.

Суть новых переменных сводится к следующему: наибольшее отрицательное значение говорит о большей значимости переменной, и наоборот, наибольшее положительное значение говорит о наименьшей значимости переменной.

Созданные переменные в дальнейшем могут использоваться для анализа, например для проведения кластерного анализа.

Источник

Конструирование психодиагностических тестов: традиционные математические модели и алгоритмы (продолжение)

2. Методы, основанные на критерии автоинформативности системы признаков

Формальные алгоритмы рассматриваемой группы методов непосредственно не оперируют обучающей информацией о требуемом значении диагностируемой переменной. В то же время эта информация в неявном виде всегда присутствует в экспериментальных данных. Она закладывается на самом первом этапе конструирования психодиагностического теста, когда экспериментатор формирует исходное множество признаков, каждый из которых, по его мнению, должен отражать определенные аспекты тестируемого свойства. При этом под отражением данного свойства отдельным признаком, как правило, понимается самый простой вид связи признака с диагностируемым показателем — корреляция xi с у. Если тестируемое свойство гомогенно, то имеются все основания полагать, что мерой информативности для окончательного отбора признаков может служить степень согласованного действия этих признаков в нужном направлении.

Внутренняя согласованность заданий теста является важной категорией методов, опирающихся на критерий автоинформативности системы признаков. Согласованность измеряемых реакций испытуемых на тестовые стимулы означает то, что они должны иметь статистическую направленность на выражение общей, главной тенденции теста. Геометрическая структура экспериментальных данных, сформированных под влиянием кумулятивного эффекта согласованного взаимодействия признаков, в несколько идеализированном варианте выглядит как облако точек в пространстве признаков, вписывающееся в гиперэллипсоид. Все пары признаков при такой структуре имеют статистически значимые корреляции, а уравнение главной оси гиперэллипсоида — есть линейная диагностическая модель тестируемого свойства.

На приведенных представлениях базируются практически все методы построения психодиагностических тестов, опирающиеся на критерий автоинформативности системы признаков и использующие категорию внутренней согласованности заданий теста. Ниже будут рассмотрены основные методы этой группы.

Метод главных компонент

Метод главных компонент (МГК) был предложен Пирсоном в 1901 году и затем вновь открыт и детально разработан Хоттелингом /1933/. Ему посвящено большое количество исследований, и он широко представлен в литературных источниках, обратившись к которым можно получить сведения о методе главных компонент с различной степенью детализации и математической строгости (например, Айвазян С. А. и др., 1974, 1983, 1989). В данном разделе не ставится цель добиться подробного изложения всех особенностей МГК. Сконцентрируем свое внимание на основных феноменах метода главных компонент.

Читайте также:  Выводы финансового анализа оао

Метод главных компонент осуществляет переход к новой системе координат y1. ур в исходном пространстве признаков x1. xp которая является системой ортнормированных линейных комбинаций

где mi — математическое ожидание признака xi. Линейные комбинации выбираются таким образом, что среди всех возможных линейных нормированных комбинаций исходных признаков первая главная компонента у1(х) обладает наибольшей дисперсией. Геометрически это выглядит как ориентация новой координатной оси у1 вдоль направления наибольшей вытянутости эллипсоида рассеивания объектов исследуемой выборки в пространстве признаков x1. xp. Вторая главная компонента имеет наибольшую дисперсию среди всех оставшихся линейных преобразований, некоррелированных с первой главной компонентой. Она интерпретируется как направление наибольшей вытянутости эллипсоида рассеивания, перпендикулярное первой главной компоненте. Следующие главные компоненты определяются по аналогичной схеме.

Вычисление коэффициентов главных компонент wij основано на том факте, что векторы wi= (w11. wpl)’, . , wp = (w1p, . ,wpp)’ являются собственными (характеристическими) векторами корреляционной матрицы S. В свою очередь, соответствующие собственные числа этой матрицы равны дисперсиям проекций множества объектов на оси главных компонент.

Алгоритмы, обеспечивающие выполнение метода главных компонент, входят практически во все пакеты статистических программ.

Факторный анализ

В описанном выше методе главных компонент под критерием автоинформативности пространства признаков подразумевается, что ценную для диагностики информацию можно отразить в линейной модели, которая соответствует новой координатной оси в данном пространстве с максимальной дисперсией распределения проекций исследуемых объектов. Такой подход является продуктивным, когда явное большинство заданий «чернового» варианта теста согласованно «работает» на проявление тестируемого свойства и подавляет влияние иррелевантных факторов на распределение объектов. Также положительный результат будет получен при сравнительно небольшом объеме группы связанных информативных признаков, но при несогласованном взаимодействии посторонних факторов, под влиянием которых не нарушается однородность эллипсоида рассеивания, а лишь уменьшается вытянутость распределения объектов вдоль направления диагностируемой тенденции. В отличие от метода главных компонент факторный анализ основан не на дисперсионном критерии автоинформативности системы признаков, а ориентирован на объяснение имеющихся между признаками корреляций. Поэтому факторный анализ применяется в более сложных случаях совместного проявления на структуре экспериментальных данных тестируемого и иррелевантного свойств объектов, сопоставимых по степени внутренней согласованности, а также для выделения группы диагностических показателей из общего исходного множества признаков.

Основная модель факторного анализа записывается следующей системой равенств /Налимов В. В., 1971/

То есть полагается, что значения каждого признака xi могут быть выражены взвешенной суммой латентных переменных (простых факторов) fi, количество которых меньше числа исходных признаков, и остаточным членом εi с дисперсией σ 2 (εi), действующей только на xi, который называют специфическим фактором. Коэффициенты lij называются нагрузкой i-й переменной на j-й фактор или нагрузкой j-го фактора на i-ю переменную. В самой простой модели факторного анализа считается, что факторы fj взаимно независимы и их дисперсии равны единице, а случайные величины εi тоже независимы друг от друга и от какого-либо фактора fj. Максимально возможное количество факторов m при заданном числе признаков р определяется неравенством

(р+m)<(р—m) 2 ,

которое должно выполняться, чтобы задача не вырождалась в тривиальную. Данное неравенство получается на основании подсчета степеней свободы, имеющихся в задаче /Лоули Д. и др., 1967/. Сумму квадратов нагрузок в формуле основной модели факторного анализа называют общностью соответствующего признака xi и чем больше это значение, тем лучше описывается признак xi выделенными факторами fj. Общность есть часть дисперсии признака, которую объясняют факторы. В свою очередь, ε 2 i показывает, какая часть дисперсии исходного признака остается необъясненной при используемом наборе факторов и данную величину называют специфичностью признака. Таким образом,

Основное соотношение факторного анализа показывает, что коэффициент корреляции любых двух признаков xi и хj можно выразить суммой произведения нагрузок некоррелированных факторов

Задачу факторного анализа нельзя решить однозначно. Равенства основной модели факторного анализа не поддаются непосредственной проверке, так как р исходных признаков задается через (р+m) других переменных — простых и специфических факторов. Поэтому представление корреляционной матрицы факторами, как говорят, ее факторизацию, можно произвести бесконечно большим числом способов. Если удалось произвести факторизацию корреляционной матрицы с помощью некоторой матрицы факторных нагрузок F, то любое линейное ортогональное преобразование F (ортогональное вращение) приведет к такой же факторизации /Налимов В. В., 1971/.

Существующие программы вычисления нагрузок начинают работать с m =1 (однофакторная модель) /Александров В. В. и др., 1990/. Затем проверяется, насколько корреляционная матрица, восстановленная по однофакторной модели в соответствии с основным соотношением факторного анализа, отличается от корреляционной матрицы исходных данных. Если однофакторная модель признается неудовлетворительной, то испытывается модель с m=2 и т. д. до тех пор, пока при некотором m не будет достигнута адекватность или число факторов в модели не превысит максимально допустимое. В последнем случае говорят, что адекватной модели факторного анализа не существует. Если факторная модель существует, то производится вращение полученной системы общих факторов, так как значения факторных нагрузок и нагрузок на факторы есть лишь одно из возможных решений основной модели. Вращение факторов может производиться разными способами. Наиболее часто это вращение осуществляется таким образом, чтобы как можно большее число факторных нагрузок стало нулями и каждый фактор по возможности описывал группу сильно коррелированных признаков. Также можно вращать факторы до тех пор, пока не получатся результаты, поддающиеся содержательной интерпретации. Можно, например, потребовать, чтобы один фактор был нагружен преимущественно признаками одного типа, а другой — признаками другого типа. Или, скажем, можно потребовать, чтобы исчезли какие-то трудно интерпретируемые нагрузки с отрицательными знаками. Нередко исследователи идут дальше и рассматривают прямоугольную систему факторов как частный случай косоугольной, то есть ради содержания жертвуют условием некоррелированности факторов.

В завершение всей процедуры факторного анализа с помощью математических преобразований выражают факторы fj через исходные признаки, то есть получают в явном виде параметры линейной диагностической модели.

Известно большое количество методов факторного анализа (ротаций, максимального правдоподобия и др.). Нередко в одном и том же пакете программ анализа данных реализовано сразу несколько версий таких методов и у исследователей возникает правомерный вопрос о том, какой из них лучше. В этом вопросе наше мнение совпадает с /Александров В. В. и др., 1990/, где утверждается, что практически все методы дают весьма близкие результаты. Там же приводятся слова одного из основоположников современного факторного анализа Г. Хармана: «Ни в одной из работ не было показано, что какой-либо один метод приближается к «истинным» значениям общностей лучше, чем другие методы. Выбор среди группы методов «наилучшего» производится в основном с точки зрения вычислительных удобств, а также склонностей и привязанностей исследователя, которому тот или иной метод казался более адекватным его представлениям об общности» /Харман Г., 1972, с. 97/.

У факторного анализа есть много сторонников и много оппонентов. Но, как справедливо заметил В. В. Налимов: «. У психологов и социологов не оставалось других путей, и они изучили эти два приема (факторный анализ и метод главных компонент, — В. Д.) со всей обстоятельностью» /Налимов В. В., 1971, с. 100/. Для более подробного ознакомления с факторным анализом и его методами может быть рекомендована литература /Лоули Д., и др., 1967; Харман Г., 1972; Айвазян С. А. и др., 1974; Иберла К., 1980/.

Метод контрастных групп

Исходной информацией при использовании метода контрастных групп, помимо таблицы экспериментальных данных с результатами обследования испытуемых «черновым» вариантом психодиагностического теста, является также «черновая» версия линейного правила вычисления тестируемого показателя. Эта «черновая» версия может быть составлена экспериментатором, исходя из его теоретических представлений о том, какие признаки и с какими весами должны быть включены в линейную диагностическую модель. Кроме того, «черновая» версия может быть почерпнута из литературных источников, когда у экспериментатора возникает потребность адаптировать опубликованный психодиагностический тест к новым условиям. Метод контрастных групп применяется также в составе процедуры повышения внутренней согласованности заданий ранее отработанного теста.

В основе метода контрастных групп лежит гипотеза о том, что значительная часть «черновой» версии диагностической модели подобрана или угадана правильно. То есть в правую часть уравнения уч = уч(х) вошло достаточно много признаков, согласованно отражающих тестируемое свойство. В то же время в «черновой» версии уч(х) определенная доля признаков приходится на ненужный или даже вредный балласт, от которого нужно избавиться. Как и во всех других методах, опирающихся на категорию внутренней согласованности, это означает, что в пространстве признаков, включенных в исходную диагностическую модель, распределение объектов вписывается в эллипсоид рассеивания, вытянутый вдоль направления диагностируемой тенденции. В свою очередь, влияние информационного балласта выражается в уменьшении такой вытянутости эллипсоида рассеивания, так как «шумящие» признаки увеличивают разброс исследуемых объектов по всем другим направлениям. При этом «зашумление» основной тенденции будет тем сильнее, чем ближе к центру распределения располагаются диагностируемые объекты, и тем слабее, чем ближе к полюсам главной оси эллипсоида рассеивания находятся рассматриваемые объекты. Это связано с тем, что попадание объектов в крайние области объясняется, главным образом, кумулятивным эффектом согласованного взаимодействия информативных признаков. Описанные представления о структуре экспериментальных данных лежат в основе следующей процедуры, которая будет рассмотрена на примере анализа пунктов при конструировании тест-опросников /Шмелев А. Г., Похилько В. И., 1985/.

Сначала назначаются исходные шкальные ключи (веса) w˚j для пунктов теста (дихотомических признаков) хj. Для каждого i-го испытуемого подсчитывается суммарный тестовый балл

Источник

Факторный анализ

Факторный анализ — многомерный метод, применяемый для изучения взаимосвязей между значениями переменных. Предполагается, что известные переменные зависят от меньшего количества неизвестных переменных и случайной ошибки.

Содержание

Краткая история

Факторный анализ впервые возник в психометрике и в настоящее время широко используется не только в психологии, но и в нейрофизиологии, социологии, политологии, в экономике, статистике и других науках. Основные идеи факторного анализа были заложены английским психологом и антропологом, основателем евгеники Гальтоном Ф. (1822—1911), внесшим также большой вклад в исследование индивидуальных различий. Но в разработку Факторного анализа внесли вклад многие ученые. Разработкой и внедрением факторного анализа в психологию занимались такие ученые как Спирмен Ч. (1904, 1927, 1946), Терстоун Л. (1935, 1947, 1951) и Кеттел Р. (1946, 1947, 1951). Также нельзя не упомянуть английского математика и философа Пирсона К., в значительной степени развившего идеи Ф. Гальтона, американского математика Хотеллинга Г., разработавшего современный вариант метода главных компонент. Внимания заслуживает и английский психолог Айзенк Г., широко использовавший Факторный анализ для разработки психологической теории личности. Математически факторный анализ разрабатывался Хотеллингом, Харманом, Кайзером, Терстоуном, Такером и др. Сегодня факторный анализ включён во все пакеты статистической обработки данных — R, SAS, SPSS, Statistica и т. д.

Задачи и возможности факторного анализа

Факторный анализ позволяет решить две важные проблемы исследователя: описать объект измерения всесторонне и в то же время компактно. С помощью факторного анализа возможно выявление скрытых переменных факторов, отвечающих за наличие линейных статистических связей корреляций между наблюдаемыми переменными.

Читайте также:  Густая и темная кровь анализ

Таким образом можно выделить 2 цели Факторного анализа:

  • определение взаимосвязей между переменными, (классификация переменных), т. е. «объективная R-классификация» [1][2] ;
  • сокращение числа переменных необходимых для описания данных.

При анализе в один фактор объединяются сильно коррелирующие между собой переменные, как следствие происходит перераспределение дисперсии между компонентами и получается максимально простая и наглядная структура факторов. После объединения коррелированность компонент внутри каждого фактора между собой будет выше, чем их коррелированность с компонентами из других факторов. Эта процедура также позволяет выделить латентные переменные, что бывает особенно важно при анализе социальных представлений и ценностей. Например, анализируя оценки, полученные по нескольким шкалам, исследователь замечает, что они сходны между собой и имеют высокий коэффициент корреляции, он может предположить, что существует некоторая латентная переменная, с помощью которой можно объяснить наблюдаемое сходство полученных оценок. Такую латентную переменную называют фактором. Данный фактор влияет на многочисленные показатели других переменных, что приводит нас к возможности и необходимости выделить его как наиболее общий, более высокого порядка. Для выявления наиболее значимых факторов и, как следствие, факторной структуры, наиболее оправданно применять метод главных компонентов (МГК). Суть данного метода состоит в замене коррелированных компонентов некоррелированными факторами. Другой важной характеристикой метода является возможность ограничиться наиболее информативными главными компонентами и исключить остальные из анализа, что упрощает интерпретацию результатов. Достоинство МГК также в том, что он — единственный математически обоснованный метод факторного анализа [1] [3] .

Факторный анализ может быть:

  • разведочным — он осуществляется при исследовании скрытой факторной структуры без предположения о числе факторов и их нагрузках;
  • конфирматорным, предназначенным для проверки гипотез о числе факторов и их нагрузках (примечание 2).

Условия применения факторного анализа

Практическое выполнение факторного анализа начинается с проверки его условий. В обязательные условия факторного анализа входят:

  • Все признаки должны быть количественными.
  • Число наблюдений должно быть в два раза больше числа переменных.
  • Выборка должна быть однородна.
  • Исходные переменные должны быть распределены симметрично.
  • Факторный анализ осуществляется по коррелирующим переменным [3] .

Основные понятия факторного анализа

  • Фактор — скрытая переменная
  • Нагрузка — корреляция между исходной переменной и фактором

Процедура вращения. Выделение и интерпретация факторов

Сущностью факторного анализа является процедура вращения факторов, то есть перераспределения дисперсии по определённому методу. Цель ортогональных вращений — определение простой структуры факторных нагрузок, целью большинства косоугольных вращений является определение простой структуры вторичных факторов, то есть косоугольное вращение следует использовать в частных случаях. Поэтому ортогональное вращение предпочтительнее. Согласно определению Мюльека простая структура соответствует требованиям:

  • в каждой строке матрицы вторичной структуры V должен быть хотя бы один нулевой элемент;
  • Для каждого столбца k матрицы вторичной структуры V должно существовать подмножество из r линейно-независимых наблюдаемых переменных, корреляции которых с k-м вторичным фактором — нулевые. Данный критерий сводится к тому, что каждый столбец матрицы должен содержать не менее r нулей.
  • У одного из столбцов каждой пары столбцов матрицы V должно быть несколько нулевых коэффициентов (нагрузок) в тех позициях, где для другого столбца они ненулевые. Это предположение гарантирует различимость вторичных осей и соответствующих им подпространств размерности r—1 в пространстве общих факторов.
  • При числе общих факторов больше четырех в каждой паре столбцов должно быть некоторое количество нулевых нагрузок в одних и тех же строках. Данное предположение дает возможность разделить наблюдаемые переменные на отдельные скопления.
  • Для каждой пары столбцов матрицы V должно быть как можно меньше значительных по величине нагрузок, соответствующих одним и тем же строкам. Это требование обеспечивает минимизацию сложности переменных.

(В определении Мьюлейка через r обозначено число общих факторов, а V — матрица вторичной структуры, образованная координатами (нагрузками) вторичных факторов, получаемых в результате вращения.) Вращение бывает:

  • ортогональным
  • косоугольным.

При первом виде вращения каждый последующий фактор определяется так, чтобы максимизировать изменчивость, оставшуюся от предыдущих, поэтому факторы оказываются независимыми, некоррелированными друг от друга (к этому типу относится МГК). Второй вид — это преобразование, при котором факторы коррелируют друг с другом. Преимущество косоугольного вращения состоит в следующем: когда в результате его выполнения получаются ортогональные факторы, можно быть уверенным, что эта ортогональность действительно им свойственна, а не привнесена искусственно. Существует около 13 методов вращения в обоих видах, в статистической программе SPSS 10 доступны пять: три ортогональных, один косоугольный и один комбинированный, однако из всех наиболее употребителен ортогональный метод «варимакс». Метод «варимакс» максимизирует разброс квадратов нагрузок для каждого фактора, что приводит к увеличению больших и уменьшению малых значений факторных нагрузок. В результате простая структура получается для каждого фактора в отдельности [1] [3] [2] .

Главной проблемой факторного анализа является выделение и интерпретация главных факторов. При отборе компонент исследователь обычно сталкивается с существенными трудностями, так как не существует однозначного критерия выделения факторов, и потому здесь неизбежен субъективизм интерпретаций результатов. Существует несколько часто употребляемых критериев определения числа факторов. Некоторые из них являются альтернативными по отношению к другим, а часть этих критериев можно использовать вместе, чтобы один дополнял другой:

  • Критерий Кайзера или критерий собственных чисел. Этот критерий предложен Кайзером, и является, вероятно, наиболее широко используемым. Отбираются только факторы с собственными значениями равными или большими 1. Это означает, что если фактор не выделяет дисперсию, эквивалентную, по крайней мере, дисперсии одной переменной, то он опускается [1] .
  • Критерий каменистой осыпи или критерий отсеивания. Он является графическим методом, впервые предложенным психологом Кэттелом. Собственные значения возможно изобразить в виде простого графика. Кэттел предложил найти такое место на графике, где убывание собственных значений слева направо максимально замедляется. Предполагается, что справа от этой точки находится только «факториальная осыпь» — «осыпь» является геологическим термином, обозначающим обломки горных пород, скапливающиеся в нижней части скалистого склона [1] . Однако этот критерий отличается высокой субъективностью и, в отличие от предыдущего критерия, статистически необоснован. Недостатки обоих критериев заключаются в том, что первый иногда сохраняет слишком много факторов, в то время как второй, напротив, может сохранить слишком мало факторов; однако оба критерия вполне хороши при нормальных условиях, когда имеется относительно небольшое число факторов и много переменных. На практике возникает важный вопрос: когда полученное решение может быть содержательно интерпретировано. В этой связи предлагается использовать ещё несколько критериев.
  • Критерий значимости. Он особенно эффективен, когда модель генеральной совокупности известна и отсутствуют второстепенные факторы. Но критерий непригоден для поиска изменений в модели и реализуем только в факторном анализе по методу наименьших квадратов или максимального правдоподобия [1] .
  • Критерий доли воспроизводимой дисперсии. Факторы ранжируются по доле детерминируемой дисперсии, когда процент дисперсии оказывается несущественным, выделение следует остановить [1] . Желательно, чтобы выделенные факторы объясняли более 80 % разброса. Недостатки критерия: во-первых, субъективность выделения, во-вторых, специфика данных может быть такова, что все главные факторы не смогут совокупно объяснить желательного процента разброса. Поэтому главные факторы должны вместе объяснять не меньше 50,1 % дисперсии.
  • Критерий интерпретируемости и инвариантности. Данный критерий сочетает статистическую точность с субъективными интересами. Согласно ему, главные факторы можно выделять до тех пор, пока будет возможна их ясная интерпретация. Она, в свою очередь, зависит от величины факторных нагрузок, то есть если в факторе есть хотя бы одна сильная нагрузка, он может быть интерпретирован. Возможен и обратный вариант — если сильные нагрузки имеются, однако интерпретация затруднительна, от этой компоненты предпочтительно отказаться [1][3] .

Практика показывает, что если вращение не произвело существенных изменений в структуре факторного пространства, это свидетельствует о его устойчивости и стабильности данных. Возможны ещё два варианта: 1). сильное перераспределение дисперсии — результат выявления латентного фактора; 2). очень незначительное изменение (десятые, сотые или тысячные доли нагрузки) или его отсутствие вообще, при этом сильные корреляции может иметь только один фактор, — однофакторное распределение. Последнее возможно, например, когда на предмет наличия определённого свойства проверяются несколько социальных групп, однако искомое свойство есть только у одной из них.

Факторы имеют две характеристики: объём объясняемой дисперсии и нагрузки. Если рассматривать их с точки зрения геометрической аналогии, то касательно первой отметим, что фактор, лежащий вдоль оси ОХ, может максимально объяснять 70 % дисперсии (первый главный фактор), фактор, лежащий вдоль оси ОУ, способен детерминировать не более 30 % (второй главный фактор). То есть в идеальной ситуации вся дисперсия может быть объяснена двумя главными факторами с указанными долями [4] . В обычной ситуации может наблюдаться два или более главных факторов, а также остаётся часть неинтерпретируемой дисперсии (геометрические искажения), исключаемая из анализа по причине незначимости. Нагрузки, опять же с точки зрения геометрии, есть проекции от точек на оси ОХ и ОУ (при трёх- и более факторной структуре также на ось ОZ). Проекции — это коэффициенты корреляции, точки — наблюдения, таким образом, факторные нагрузки являются мерами связи. Так как сильной считается корреляция с коэффициентом Пирсона R ≥ 0,7, то в нагрузках нужно уделять внимание только сильным связям. Факторные нагрузки могут обладать свойством биполярности — наличием положительных и отрицательных показателей в одном факторе. Если биполярность присутствует, то показатели, входящие в состав фактора, дихотомичны и находятся в противоположных координатах [1] .

Методы факторного анализа:

Примечания

  1. 123456789 Ким Дж.-О., Мьюллер Ч. У. «Факторный анализ: статистические методы и практические вопросы» / сборник работ «Факторный, дискриминантный и кластерный анализ»: пер. с англ.; Под. ред. И. С. Енюкова. — М.: «Финансы и статистика», 1989. — 215 с.
  2. 12 Электронный учебник по статистике. Москва, StatSoft. WEB: www.statsoft.ru/home/textbook/default.htm.
  3. 1234 Шуметов В. Г. Шуметова Л. В. «Факторный анализ: подход с применением ЭВМ». ОрелГТУ, Орел, 1999. — 88 с.
  4. Пажес Ж.-П. «Конфликты и общественное мнение. Новая попытка объединить социологов и математиков» // «Социологические исследования», 1991, № 7. — с.107-115.

Литература

  • Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ. — М .: Мир, 1982. — С. 488.
  • Колин Купер. Индивидуальные различия. — М.: Аспект Пресс, 2000. — 527 с.
  • Гусев А. Н., Измайлов Ч. А., Михалевская М. Б. Измерение в психологии. — М.: Смысл, 1997. — 287 с.
  • Митина О. В., Михайловская И. Б. Факторный анализ для психологов. — М.: Учебно-методический коллектор Психология, 2001. — 169 с.
  • Факторный, дискриминантный и кластерный анализ / сборник работ под ред. Енюкова И. С. — М.: Финансы и статистика, 1989. — 215 с.
  • Пациорковский В. В., Пациорковская В. В. SPSS для социологов.  — М.: Учебное пособие ИСЭПН РАН, 2005. — 433 с.
  • Бююль А., Цёфель П. SPSS: Искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. — СПб.: ООО «ДиаСофтЮП», 2002. — 603 с.
  • Факторный, дискриминантныи и кластерный анализ: Пер.

Ф18 с англ./Дж.-О. Ким, Ч. У. Мьюллер, У. Р. Клекка и др.; Под ред. И. С. Енюкова. — М.: Финансы и статистика, 1989.— 215 с:

Источник