Регрессионный анализ программе statistica
Название работы: Выполнение многомерного регрессионного анализа в пакете STATISTICA
Предметная область: Математика и математический анализ
Описание: Выполнение многомерного регрессионного анализа в пакете STATISTICA Рассмотрим пример построения регрессионной модели в пакете Statistica 6.0. Для этих целей обычно используется модуль Multiple Regressions Множественная регрессия который позволяет предсказать зависимую переменную по н.
Дата добавления: 2013-04-03
Размер файла: 198.06 KB
Работу скачали: 114 чел.
Выполнение многомерного регрессионного анализа в пакете STATISTICA
Рассмотрим пример построения регрессионной модели в пакете Statistica 6.0. Для этих целей обычно используется модуль M ultiple R egression s (Множественная регрессия), который позволяет предсказать зависимую переменную по нескольким независимым переменным.
В стартовом диалоговом окне этого модуля (рис.1) при помощи кнопки Variables указываются зависимая (dependent) и независимые(ая) (independent) переменные. В поле Input file указывается тип файла с данными:
- Raw Dat a — данные в виде строчной таблицы;
- Correlation Matrix — данные в виде корреляционной матрицы.
Рис.1. Модуль Multiple Regression
В поле MD deletion указывается способ исключения из обработки недостающих данных:
- Casewise — игнорируется вся строка, в которой есть хотя бы одно пропущенное значение;
- M ean Substitution — взамен пропущенных данных подставляются средние значения переменной;
- Pairwise — попарное исключение данных с пропусками из тех переменных, корреляция которых вычисляется.
Рассмотрим проведение регрессионного анализа на конкретном примере. Имеются результаты измерения физических данных 25 людей (мужчин и женщин). В файле данных (рис.2) 4 переменные:
Пол обследуемого(ж женщина; м мужчина)
Возраст обследуемого, лет
Рост обследуемого, см
Вес обследуемого, кг
Рис. 2. Окно файла данных
Так как в файле данных содержится информация о мужчинах и женщинах, а мы хотим провести исследования только для мужчин, то воспользовавшись кнопкой Select cases (рис. 1) можно в анализ включить только те случаи, для которых первая переменная ( pol ) равна «м».
Рис. 3. Окно включения (исключения) данных в анализ
На первом этапе исследований учтем, что при наличии одной зависимой переменной ( rost ) и двух независимых переменных ( vozrast и rost ) можно предложить различные модели линейной регрессии:
О качестве предложенной модели регрессии будем судить по величине коэффициента детерминации .
Модель №1 описывает 69% данных, модель №2 только 41% данных, а третья модель 73% данных.
Если в качестве критерия оптимизации выбрать простоту модели (одномерная) выберем модель №1 или №2, но если добавить ещё один критерий максимальный % описания данных, то из этих двух моделей выбираем модель №1. Теперь в качестве главного критерия оптимизации выбираем максимальный процент описания данных и сравниваем модели №1 и №3. Нужно сказать, что модель №3 многомерная, а модель №1 одномерная. Таким образом, на первом этапе можно сказать, что многомерная модель №3 более адекватна и лучше описывает исходные данные. Естественно предположить, что и предсказания по модели №3 будут более надежными (точными).
Теперь более подробно рассмотрим последовательность действий создания модели и анализ полученных результатов.
После выбора всех опций стартового диалогового окна регрессионного анализа и нажатия кнопки ОК появляется окно результатов регрессионного анализа Multiple Regressions Results (см. рис. 4). Детально проанализируем полученные результаты регрессионной модели.
В верхней части окна приведены наиболее важные параметры полученной регрессионной модели:
- Multiple R — коэффициент множественной корреляции, который характеризует тесноту линейной связи между зависимой и всеми независимыми переменными. Может принимать значения от 0 до 1.
- — коэффициент детерминации. Численно выражает долю вариации зависимой переменной, объясненную с помощью регрессионного уравнения. Чем больше , тем большую долю вариации объясняют переменные, включенные в модель.
- adjusted R — скорректированный коэффициент множественной корреляции. Включение новой переменной в регрессионное уравнение увеличивает не всегда, а только в том случае, когда частный F -критерий при проверке гипотезы о значимости включаемой переменной больше или равен 1. В противном случае включение новой переменной уменьшает значение и adjusted R .
Рис. 4. Результаты регрессионного анализа
- F — F-критерий используется для проверки значимости регрессии. В данном случае в качестве нулевой гипотезы проверяется гипотеза: между зависимой и независимыми переменными нет линейной зависимости;
- df — числа степеней свободы для F-критерия;
- p — вероятность нулевой гипотезы для F-критерия;
- Standard error of estimate — стандартная ошибка оценки (уравнения); Эта оценка является мерой рассеяния наблюденных значений относительно регрессионной прямой;
- Intercept оценка свободного члена уравнения;
- Std.Error — стандартная ошибка оценки свободного члена уравнения;
- t — t-критерий для оценки свободного члена уравнения;
- p — вероятность нулевой гипотезы для свободного члена уравнения.
- Beta — β-коэффициенты уравнения. Это стандартизированные регрессионные коэффициенты, рассчитанные по стандартизированным значениям переменных. По их величине можно оценить значимость зависимых переменных. Коэффициент показывает, на сколько единиц стандартного отклонения изменится зависимая переменная при изменении на одно стандартное отклонение независимой переменной, при условии постоянства остальных независимых переменных. Свободный член в таком уравнении равен 0.
Нажатие кнопки — в окне результатов (см рис. 4) позволяет получить основные результаты регрессионной модели (рис. 5), часть из которых уже была описана: В — коэффициенты уравнения регрессии; St. Err. of B — стандартные ошибки коэффициентов уравнения регрессии;
t (11) — t-критерий для коэффициентов уравнения регрессии; р-level — вероятность нулевой гипотезы для коэффициентов уравнения регрессии.
Рис. 5. Параметры уравнения регрессии
В результате проведенного анализа было получено следующее уравнение:
rost = 150,4397 + 0,605* vozrast + 0,2081* ves .
Это уравнение объясняет 73,3% () вариации зависимой переменной. Полученные результаты свидетельствуют о том что коэффициент при переменной ves незначимо отличается от нуля, однако включение этой переменной в регрессионную модель увеличивает на 4 % процент исходных данных, корректно описанных регрессионным уравнением.
Проверка качества уравнения регрессии осуществлялась с помощью статистики . По статистическим таблицам Фишера Снедекора с данными степенями свободы гипотезу (линейная зависимость отсутствует) можно принять с вероятностью ; при уровне значимости α = 0.05 принимаем альтернативную гипотезу линейная зависимость значима.
Одновременно проверялась статистическая значимость коэффициентов множественной регрессии (критерий Стьюдента). Видно (см. рис. 5), что коэффициенты и значимо отличаются от нуля, коэффициент незначимо отличается от нуля.
Для расчета по полученному регрессионному уравнению значений зависимой переменной по значениям независимых переменных воспользуемся кнопкой (раздел Residuals/assumptions/prediction) (рис.6).
Зададим значения возраста ( vozrast = 23) и веса ( ves = 65). Учтем, что в пакете Statistica приводится как точечная, так и интервальная оценка (рис. 7).
Рис. 6. Окно задание значений независимых переменных
Рис. 7. Предсказанные точечные и интервальные значения
О полученных результатах можно сказать следующее: rost = 177,8851 это точечная оценка. 95% доверительный интервал равен (171.4; 184,4).
При нажатии на кнопку можно оценить величины остатков и специальных критериев (см. рис. 8).
В таблицу включены все случаи (м), приведены исходные данные ( Observed ), данные модели ( Predicted ) и остатки ( Residual ). Остатки это разность исходных и предсказанных данных.
Рис. 8. Таблица остатков
Для выделения имеющихся в регрессионных остатках выбросов предложен ряд дополнительных показателей:
- Расстояние Кука (Cook’s Distance) — принимает только положительное значение и показывает расстояние между коэффициентами уравнения регрессии после исключения из обработки i-ой точки данных. Большое значение показателя Кука указывает на сильно влияющий случай (выброс).
В нашем случае Case № 5, 16 и 20 смещают оценки коэффициентов регрессии.
- Расстояние Махаланобиса (Mahalns. Distance) — показывает насколько каждый случай или точка в р-мерном пространстве независимых переменных отклоняется от центра статистической совокупности.
Кнопка (раздел Advanced) предназначена для поиска выбросов. Выбросы это остатки, которые значительно превосходят по абсолютной величине остальные. Выбросы показывают опытные данные, которые являются не типичными по отношению к остальным данным, и требует выяснения причин их возникновения. Выбросы должны исключаться из обработки, если они вызваны ошибками регистрации, измерения и т.п.
Источник
Реализация регрессионного анализа в различных компьютерных программах
Регрессионный анализ нашел широкое применение для выявления вида зависимостей в различных процессах и яалениях. В работе рассмотрены компьютерные программы, которые позволяют провести регрессионный анализ: Microsoft Office Excel, Stadia, Statistica. Рассмотрены способы проведения регрессионного анализа в данных программах.
Статистический анализ данных нашёл широкое применение при анализе практически всех процессов и явлений. Если речь идёт о выявлении статистической зависимости, то в большинстве случаев используется регрессионный анализ. Регрессионный анализ — статистический метод исследования влияния одной или нескольких независимых переменных на зависимую переменную. Результатом применение регрессионного анализа является построение уравнения регрессии, которое в общем виде имеет вид:
(1).
В случае линейной зависимости уравнение (1) принимает вид:
В формулах (1) и (2) Y — зависимая переменная, Xn — независимые переменный.
При проведении регрессионного анализа возникает вопрос о средстве, с помощью которого данный анализ будет проведён. В работе рассмотрена реализация регрессионного анализа в следующих компьютерных программах: Microsoft Office Excel, Stadia, Statistica. Процедура регрессионного анализа состоит из нескольких этапов [2], а именно:
- задание математической формы уравнения регрессии и определение параметров регрессии (коэффициентов регрессионного уравнения).
- определение взаимосвязи результативного признака и факторов, проверка статистической значимости уравнения регрессии.
- проверка статической значимости каждого коэффициента уравнения регрессии и определение их доверительных интервалов.
Наибольшую популярность для построения графиков зависимости и получения математической формы уравнения регрессии приобрёл табличный редактор Microsoft Office Excel. Это вызвано тем, что данная программа является русифицированной и с ней начинают знакомство ещё в школе. Графическое представление уравнение регрессии в MS Excel возможно только для одномерного случая. При этом регрессионная функция может быть следующей:
- линейная;
- экспоненциальная;
- логарифмическая;
- степенная;
- полиномиальная (до 6 степени).
Процесс получения графика зависимости в MS Excel является достаточно простым. При имеющимся наборе данных независимой (Y) и зависимой переменной (X), строится точечная диаграмма, на которую добавляется линия тренда. Линия тренда — это и есть график регрессионной зависимости. При необходимости на график можно добавить уравнение регрессии и коэффициент детерминации. На рисунке 1 «Регрессионный анализ в MS Excel» показаны примеры графиков зависимости, соответствующие данным графикам уравнения регрессии и коэффициенты детерминации.
MS Excel позволяет провести более глубокий регрессионный анализ путём использования пакета анализа данных. Для работы с регрессией необходимо открыть вкладку «Анализ данных — Регрессия» и выбрать входные параметры для анализа. В результате программа выдаст результаты регрессионного анализа, пример которых приведён на рисунке 2 «Результаты регрессионного анализа в MS Excel».
При проведении регрессионного анализа через пакет анализа данных программа выводит коэффициенты уравнения линейной регрессии, статистические показатели значимости коэффициентов регрессии и уравнения в целом, а так же доверительные интервалы. Следует отметить, что полученная регрессионная модель является линейной и одномерной.
Программа для статистической обработки результатов Stadia является редкой. Во многом это связано с её примитивным дизайном, который на протяжении [1] многих лет не изменялся. Несмотря на простой вид, программа имеет ряд преимуществ, среди которых можно выделить русский язык интерфейса и полученных результатов.
Регрессионный анализ в Stadia реализован как для случая одномерных моделей, так и для множественных линейных и нелинейных моделей. На рисунке 3 «Результаты множественного регрессионного анализа» приведены результаты множественного регрессионного анализа бля случая линейной модели с двумя независимыми факторами.
Программа Stadia выдаёт все результаты на русском языке. Первый блок результатов относится к коэффициентам уравнения регрессии, где приводятся сами коэффициенты и их значимость. Второй блок результатов относится к дисперсии. Третий блок позволяет судить о статистической значимости модели по приведенным там значениям F-критерия и множественного коэффициента детерминации. Следует отметить, что после всех результатов программа выдаёт ту статистическую гипотезу, которую следует принять.
Программа Stadia позволяет получать результаты не только в случае линейной, но и нелинейной однофакторной и многофакторной регрессии. Вид нелинейной множественной регрессии пользователь может задать самостоятельно в специальном окне во вкладке «Общая/нелинейная модель». На рисунке 4 «Нелинейная пользовательская модель в Stadia» показан пример нелинейной множественной регрессии и полученные для данной модели результаты. Модель задавалась пользователем самостоятельно.
Построение графиков регрессионной модели в программе Stadia реализовано плохо. Следует отметить, что работа велась с учебной версией программы Stadia 8.0.
Одной из самых распространённых программ для статистической обработки данных является программа Statistica. Интерфейс программы Statistica написан на английском языке, однако встречаются и русскоязычные ознакомительные версии программы. Данная программа имеет большой функционал для проведения регрессионного анализа. Итоги регрессионного анализа приведены подробно. В итоговых таблицах находится вся необходимая информация о результатах регрессионного анализа. При необходимости, можно провести анализ остатков регрессии. На рисунке 5 «Регрессия в Statistica» показан пример результатов регрессионного анализа, проведенного в программе Statistica.
Следует отметить, что статистически значимые результаты на заданном уровне значимости автоматически выделяются красным цветом, что является информативным. Также программа Statistica позволяет строить графики по полученным регрессионным моделям, в том числе и множественным. На рисунке 6 «График множественной регрессии» изображен график регрессии, результаты которой приведены на рисунке 5.
Программа Statistica имеет большой функционал по работе с нелинейными регрессионными моделями. Составление пользовательских нелинейных регрессионных моделей производится путём выбора вкладки «Анализ — Углублённые методы анализа — Множественная нелинейная регрессия».
Таким образом, если требуется провести линейный однофакторный регрессионный анализ без выяснения статистической значимости полученной модели, то целесообразно использовать табличный редактор Microsoft Office Excel. Также Microsoft Office Excel можно использовать для построения линейной однофакторной регрессионной модели. Для проведения подробного регрессионного анализ, либо для получения нелинейных однофакторных и многофакторных регрессионных моделей лучше использовать программу Statistica. Богатый функционал, доступность и наглядность результатов анализа, графические возможности и большое количество методической литературы делаю данную программу незаменимым средством для проведения регрессионного анализа. Программа Stadia является довольно редкой программой и её интерфейс не соответствует требованию настоящего времени.
Источник
Задача 1. Построение и анализ линейной множественной регре с сии
В таблице 1.1. приведены ежегодные данные о совокупных личных расходах ; располагаемых личных доходах ; расходах на табак для США на период с 1959 по 1983 годы. Оцените множественную регрессию между регрессандом (эндогенной пер е менной) Var 1 и регрессорами (экзогенными пер е менными) Var 2, Var 3 и Var 4 используя данные за 25 лет. Дайте интерпретацию коэффициентам ре г рессии. Исследуйте степень корреляционной зависимости между переменными. Проверьте остатки на н а личие автокорреляции и гетероскедастичность.
Ежегодные данные о потребительских расходах и
располагаемых личных д о ходах для США на период с 1959 по 1983 годы
Используем пакет Statistica 6.0, модуль Множественная регрессия .
Создадим новый документ с данными, введем число переменных – 4 и число регис т ров – 25. Введем наименования переменных и исходные данные.
Вызовем модуль Множественная регрессия . (Команда Статист и ка Множественная регрессия). Выберем переменные (кнопка ( Variables ). Зависимая ( Dependent ) – Var 1 ; независ и мые ( Independent ) – Var 2 , Var 3 , Var 4 .
Нажмем кнопку ОК в правом углу стартовой панели.
Появится окно результатов множественной регрессии.
Результаты множественной регрессии в численном виде представлены в табл. 1.2.
В первом столбце таблицы 1.2 . даны значения коэффициентов beta — стандартизованные коэффициенты регрессионно го урав нения , во втором — стандартные ошибки beta , в третьем – В – точечные оценки пар а метров модели.
Далее, стандартные ошибки для коэффициентов модели В, значения ст а тис тик t-критерия и т.д.
Из таблицы 1.2 . мы видим, что оцененная модель имеет вид:
Var 1 = 347,2 + 25,018∙ Var 2 – 0,0765∙ Var 3 – 3 ,755 ∙ Var 4 (1.1)
TPE = 347,2 + 25,018 ∙ TIME – 0,0 765 ∙ PI – 3,755 ∙ TOB (1.2)
( t ) ( 0,738 ) (1, 073 ) ( 0,1074) (-0,107 )
В верхней части таблицы 1.2 . и в таблице 1.3 . (а также в информационном окне) прив е дены следующие данные:
Коэффициент множественно й корреляции Multiple R = 0, 9633 ;
Коэффициент детерминации R-square = 0, 9279 ;
Скорректированный на поте рю степеней свободы коэффициент множественной д е термина ции Adjusted R 2 = 0, 9 176 ;
Критерий Фишера F = 90,107 ;
Уровень значимости модели р < 0,0000;
Стандартная ошибка оценки Std. Error of estimate = 59,293 .
Проанализируем данные множественной регрессии.
Табличное значение критерия Стьюдента, соответствующее доверител ь ной вероятности = 0,95 и числу степеней свободы v = n – m – 1 = 21 ; t кр. = t 0,025;21 = 2,080.
Сравнивая расчетную t -статистику коэффициентов уравнения с табличным значением, заключаем, что все полученные коэффициенты стат и стически не значимы.
Уравнение (1.2 . ) выражает зависимость совокупных личных расходов ( TPE ) от времени ( TIME ), личного дохода ( PI ) и расходов на табак ( TOB ). Коэффициенты уравнения пок а зывают количественное воздействие каждого фактора на результативный показатель при неизменности других. В нашем случае совокупные личные расходы увеличиваются на 25,017 ден. ед. при увеличении времени на 1 ед. при неизменности показателей личного дохода и расходов на табак ; совокупные личные расходы увеличиваются на 0,0765 ден. ед. при увеличении показателя личного дохода на 1 ед. и неизменности показателей времени и расходов на табак ; совокупные личные расходы уменьшаются 3,755 ден. ед. при увеличении ра с ходов на табак на 1 ед. и неизменности показателей времени и личного дох о да.
Множественный коэффициент корреляции построенной модели (Multiple R) R = 0,9633 очень близок к единице, что говорит о высокой степени связи между исследуемыми факт о рами.
Коэффициент детерминации (R Square) R 2 = 0,9279, что говорит о том, что 92,79 % вари а ции переменной TPE объясняется вариацией переменных TIME , PI , TOB и только 7, 21 % приходятся на долю других неучтенных факторов.
Критическое (табличное) значение критерия Фишера для доверительной вероятн о сти = 0,95 и числа степеней свободы v 1 = 25 – 3 = 22 и v 2 = 25 – 1 = 24: F кр . = F 0,05;22;24 = 2,01.
Расчетное значение критерия Фишера F = 90,107 намного превышает табличное значение критерия F табл. = 2,01, что говорит о хорошем качестве п о строенной модели (модель адекватна экспериментальным данным). Уровень значимости p = 0,00000 показывает, что построенная регрессия высоко знач и ма.
Исследуем степень корреляционной зависимости между переменными. Для этого п о строим корреляционную матрицу. Чтобы корреляционная матрица была построена при множественной регрессии, нужно установить флажок в строке Review descriptive statistics , correlations matrix в окне Multiple Regre s sions .
Корреляционная матрица приведена в таблице 1.4.
Из корреляционной матрицы следует, что на расходы на отдых все и с следуемые факторы оказывают значительное и примерно одинаковое влияние (коэффициенты корреляции между Var 1 и Var 2, Var 3, Var 4 равны соответственно 0,9 9975 ; 0,9 4192 ; 0, 96325 ). Из корреляционной матрицы также следует, что между факторами им е ется мультиколлинеарность (коэффициенты корр е ляции между регрессорами Var 2, Var 3, Var 4 также высоки и примерно одинаковы).
Проведем анализ остатков от регрессии.
Остатки представляю т собой разности между наблюдае мыми значениями и модел ь ными, то есть значениями, под считанными по модели с оцененными параметрами.
По кнопке Observed v s . residuals появится график (рис.1.1. ), который г о ворит о неслучайном р азбросе стандартных отклонений .
Рис. 1.1. Наблюдаемые переменные-остатки
Проверим остатки на наличие автокорреляции. Для этого вычислим ст а тистику Дарбина-Уотсона ( Darbin-Watson Stat ). Результаты вычисления статистики Дарбина-Уотсона привед е ны в табл. 1.5.
Из табл. 1.5 определяем наблюдаемое значение критерия Дарбина-Уотсона:
По таблице приложения 4 [1] определяем значащие точки d L и d U для 5% уровня зн а чимости.
Для m = 3 и n = 25 d L = 1,123; d U = 1,654.
Так как 4 — d U < DW < 4 — d L ( 2,346 < 2,469 < 2,877 ), то гипотезу об отсутствии автокорреляции мы не можем принять и не можем опровергнуть, так как значение статистики попало в зону неопределенности критерия .
Для проверки наличия гетероскедастичности воспользуемся тестом Па р ка. В Excel рассчитаем логарифмы значений e 2 , Var 2 , Var 3 и Var 4 (см. табл. 1.6).
Источник
Регрессионный анализ программе statistica
Название работы: Выполнение многомерного регрессионного анализа в пакете STATISTICA
Предметная область: Математика и математический анализ
Описание: Выполнение многомерного регрессионного анализа в пакете STATISTICA Рассмотрим пример построения регрессионной модели в пакете Statistica 6.0. Для этих целей обычно используется модуль Multiple Regressions Множественная регрессия который позволяет предсказать зависимую переменную по н.
Дата добавления: 2013-04-03
Размер файла: 198.06 KB
Работу скачали: 114 чел.
Выполнение многомерного регрессионного анализа в пакете STATISTICA
Рассмотрим пример построения регрессионной модели в пакете Statistica 6.0. Для этих целей обычно используется модуль M ultiple R egression s (Множественная регрессия), который позволяет предсказать зависимую переменную по нескольким независимым переменным.
В стартовом диалоговом окне этого модуля (рис.1) при помощи кнопки Variables указываются зависимая (dependent) и независимые(ая) (independent) переменные. В поле Input file указывается тип файла с данными:
- Raw Dat a — данные в виде строчной таблицы;
- Correlation Matrix — данные в виде корреляционной матрицы.
Рис.1. Модуль Multiple Regression
В поле MD deletion указывается способ исключения из обработки недостающих данных:
- Casewise — игнорируется вся строка, в которой есть хотя бы одно пропущенное значение;
- M ean Substitution — взамен пропущенных данных подставляются средние значения переменной;
- Pairwise — попарное исключение данных с пропусками из тех переменных, корреляция которых вычисляется.
Рассмотрим проведение регрессионного анализа на конкретном примере. Имеются результаты измерения физических данных 25 людей (мужчин и женщин). В файле данных (рис.2) 4 переменные:
Пол обследуемого(ж женщина; м мужчина)
Возраст обследуемого, лет
Рост обследуемого, см
Вес обследуемого, кг
Рис. 2. Окно файла данных
Так как в файле данных содержится информация о мужчинах и женщинах, а мы хотим провести исследования только для мужчин, то воспользовавшись кнопкой Select cases (рис. 1) можно в анализ включить только те случаи, для которых первая переменная ( pol ) равна «м».
Рис. 3. Окно включения (исключения) данных в анализ
На первом этапе исследований учтем, что при наличии одной зависимой переменной ( rost ) и двух независимых переменных ( vozrast и rost ) можно предложить различные модели линейной регрессии:
О качестве предложенной модели регрессии будем судить по величине коэффициента детерминации .
Модель №1 описывает 69% данных, модель №2 только 41% данных, а третья модель 73% данных.
Если в качестве критерия оптимизации выбрать простоту модели (одномерная) выберем модель №1 или №2, но если добавить ещё один критерий максимальный % описания данных, то из этих двух моделей выбираем модель №1. Теперь в качестве главного критерия оптимизации выбираем максимальный процент описания данных и сравниваем модели №1 и №3. Нужно сказать, что модель №3 многомерная, а модель №1 одномерная. Таким образом, на первом этапе можно сказать, что многомерная модель №3 более адекватна и лучше описывает исходные данные. Естественно предположить, что и предсказания по модели №3 будут более надежными (точными).
Теперь более подробно рассмотрим последовательность действий создания модели и анализ полученных результатов.
После выбора всех опций стартового диалогового окна регрессионного анализа и нажатия кнопки ОК появляется окно результатов регрессионного анализа Multiple Regressions Results (см. рис. 4). Детально проанализируем полученные результаты регрессионной модели.
В верхней части окна приведены наиболее важные параметры полученной регрессионной модели:
- Multiple R — коэффициент множественной корреляции, который характеризует тесноту линейной связи между зависимой и всеми независимыми переменными. Может принимать значения от 0 до 1.
- — коэффициент детерминации. Численно выражает долю вариации зависимой переменной, объясненную с помощью регрессионного уравнения. Чем больше , тем большую долю вариации объясняют переменные, включенные в модель.
- adjusted R — скорректированный коэффициент множественной корреляции. Включение новой переменной в регрессионное уравнение увеличивает не всегда, а только в том случае, когда частный F -критерий при проверке гипотезы о значимости включаемой переменной больше или равен 1. В противном случае включение новой переменной уменьшает значение и adjusted R .
Рис. 4. Результаты регрессионного анализа
- F — F-критерий используется для проверки значимости регрессии. В данном случае в качестве нулевой гипотезы проверяется гипотеза: между зависимой и независимыми переменными нет линейной зависимости;
- df — числа степеней свободы для F-критерия;
- p — вероятность нулевой гипотезы для F-критерия;
- Standard error of estimate — стандартная ошибка оценки (уравнения); Эта оценка является мерой рассеяния наблюденных значений относительно регрессионной прямой;
- Intercept оценка свободного члена уравнения;
- Std.Error — стандартная ошибка оценки свободного члена уравнения;
- t — t-критерий для оценки свободного члена уравнения;
- p — вероятность нулевой гипотезы для свободного члена уравнения.
- Beta — β-коэффициенты уравнения. Это стандартизированные регрессионные коэффициенты, рассчитанные по стандартизированным значениям переменных. По их величине можно оценить значимость зависимых переменных. Коэффициент показывает, на сколько единиц стандартного отклонения изменится зависимая переменная при изменении на одно стандартное отклонение независимой переменной, при условии постоянства остальных независимых переменных. Свободный член в таком уравнении равен 0.
Нажатие кнопки — в окне результатов (см рис. 4) позволяет получить основные результаты регрессионной модели (рис. 5), часть из которых уже была описана: В — коэффициенты уравнения регрессии; St. Err. of B — стандартные ошибки коэффициентов уравнения регрессии;
t (11) — t-критерий для коэффициентов уравнения регрессии; р-level — вероятность нулевой гипотезы для коэффициентов уравнения регрессии.
Рис. 5. Параметры уравнения регрессии
В результате проведенного анализа было получено следующее уравнение:
rost = 150,4397 + 0,605* vozrast + 0,2081* ves .
Это уравнение объясняет 73,3% () вариации зависимой переменной. Полученные результаты свидетельствуют о том что коэффициент при переменной ves незначимо отличается от нуля, однако включение этой переменной в регрессионную модель увеличивает на 4 % процент исходных данных, корректно описанных регрессионным уравнением.
Проверка качества уравнения регрессии осуществлялась с помощью статистики . По статистическим таблицам Фишера Снедекора с данными степенями свободы гипотезу (линейная зависимость отсутствует) можно принять с вероятностью ; при уровне значимости α = 0.05 принимаем альтернативную гипотезу линейная зависимость значима.
Одновременно проверялась статистическая значимость коэффициентов множественной регрессии (критерий Стьюдента). Видно (см. рис. 5), что коэффициенты и значимо отличаются от нуля, коэффициент незначимо отличается от нуля.
Для расчета по полученному регрессионному уравнению значений зависимой переменной по значениям независимых переменных воспользуемся кнопкой (раздел Residuals/assumptions/prediction) (рис.6).
Зададим значения возраста ( vozrast = 23) и веса ( ves = 65). Учтем, что в пакете Statistica приводится как точечная, так и интервальная оценка (рис. 7).
Рис. 6. Окно задание значений независимых переменных
Рис. 7. Предсказанные точечные и интервальные значения
О полученных результатах можно сказать следующее: rost = 177,8851 это точечная оценка. 95% доверительный интервал равен (171.4; 184,4).
При нажатии на кнопку можно оценить величины остатков и специальных критериев (см. рис. 8).
В таблицу включены все случаи (м), приведены исходные данные ( Observed ), данные модели ( Predicted ) и остатки ( Residual ). Остатки это разность исходных и предсказанных данных.
Рис. 8. Таблица остатков
Для выделения имеющихся в регрессионных остатках выбросов предложен ряд дополнительных показателей:
- Расстояние Кука (Cook’s Distance) — принимает только положительное значение и показывает расстояние между коэффициентами уравнения регрессии после исключения из обработки i-ой точки данных. Большое значение показателя Кука указывает на сильно влияющий случай (выброс).
В нашем случае Case № 5, 16 и 20 смещают оценки коэффициентов регрессии.
- Расстояние Махаланобиса (Mahalns. Distance) — показывает насколько каждый случай или точка в р-мерном пространстве независимых переменных отклоняется от центра статистической совокупности.
Кнопка (раздел Advanced) предназначена для поиска выбросов. Выбросы это остатки, которые значительно превосходят по абсолютной величине остальные. Выбросы показывают опытные данные, которые являются не типичными по отношению к остальным данным, и требует выяснения причин их возникновения. Выбросы должны исключаться из обработки, если они вызваны ошибками регистрации, измерения и т.п.
Источник