Построение классической линейной регрессии


Лабораторная работа №8

Построение классической линейной регрессии


Цели и задачи:

Рассчитать описательные статистики, характеризующие изучаемые данные;

Определить парные коэффициенты корреляции и на их основе выявить факторы, оказывающие наибольшее влияние на результативный показатель;

Оценить регрессионное уравнение имеющимися факторами. Проанализировать множественные коэффициенты корреляции и детерминации, по полученной модели;

Оценить качество модели на основе t-статистики Стьюдента и F-статистики Фишера.

Исходные данные:

регрессия корреляция детерминация стьюдент


Ход работы:

Расчет описательных (дескриптивных) статистик.

Для расчета описательных статистик необходимо: Statistics - Basic Statistics/Tables - Descriptive statistics - Advanced (Valid N, Mean. Standard Deviation, Skewness, Kurtosis, Minimum & Maximum) - Summary.



Для симметричного распределения, также и для нормального, асимметрия Skewness равна нулю. В данном примере для всех переменных значение асимметрии близко к нулю. Это указывает на то, что распределения переменных Y, X1 и X2 близки к симметричным.

Если эксцесс Kurtosis больше нуля, то распределение островершинное относительно нормального. Если эксцесс меньше нуля, то распределение «туповершинное» относительно нормального. В нашем случае распределение всех трех переменных туповершинное.

Более точный ответ о нормальности распределения можно получить, если обратиться к вкладке Normally в окне Descriptive statistics.

Окно установки вычисления характеристики нормальности распределения:



После выбора переменных в Frequency tables и нажатия кнопки Summary получим следующие данные:

Относительно Y:



Относительно X1:



Относительно X2:



Построение классической линейной регрессии

Для построения необходимо: Statistics - Multiple Regression - Variables (Y - Dependent var., X1, X2 - Independent var.) - Review descriptive statistics, correlation matrix - OK - Advanced - Correlations.



В результате получили матрицу, содержащую значения парных коэффициентов корреляции:



Также можно представить полученные результаты в графическом виде, для этого выбираем кнопку Matrix plot of correlations:



Вернемся в предыдущее окно и снимем галочку с пункта Review descriptive statistics, correlation matrix и, нажав кнопку OK, перейдем в следующее окно, содержащее результаты построения модели:



Выбираем кнопку Summary: Regression results после чего будут представлены две таблицы, содержащие оценочные параметры модели и основные показатели адекватности построения регрессии.



Чем ближе значение множественный коэффициент корреляции R к 1, тем большее одновременное влияние оказывают независимые переменные. В данном случае множественный коэффициент корреляции получен равным 0,248, что показывает несильную связь между вариацией результативного показателя Y и вариацией факторных признаков X1 и X2.

Множественный коэффициент детерминации R^2 измеряет долю полной вариации переменной Y, объясняемую множественной регрессией. Если значение равно 1, то между переменными существует точная линейная связь; если равно 0, то статистическая линейная связь отсутствует. Согласно данным таблицы, R^2=0,061 свидетельствует, что всего 6% вариации переменной Y объясняется факторами X1, X2.

Скорректированный коэффициент множественной детерминации неубывающая функция от количества факторов, входящих в модель. Данный коэффициент корреляции может быть использован для выбора лучшей модели.(2, 42) - F-статистика Фишера, служит для проверки модели на адекватность. Для этого используется значение вероятность p, если это значение вероятности меньше принятого значения a, например, 0,5, то нулевая гипотеза отвергается. Так, в рассматриваемом примере p=0,26, следовательно, нулевая гипотеза о равенстве нулю всех коэффициентов регрессии отвергается.



Рассмотрим результаты оценки параметров уравнения регрессии по столбцам. В первом столбце перечислены члены регрессионного уравнения, при этом Intercept - это свободный член уравнения.

Во втором столбце содержатся бета-коэффициенты, которые являются отвлеченными величинами и указывают на сколько среднеквадратических отклонений увеличится зависимая переменная при изменении соответствующего независимой переменной на 1 среднеквадратическое отклонение. На практике данный показатель используется для выявления фактора, оказывающего наибольшее влияние на зависимую переменную. В нашем случае наибольшее (положительное) влияние оказывает показатель X2.

В четвертом столбце содержаться значения параметров ai оценённого уравнения, т.е. в данном случае получаем следующую регрессионную модель:

=0,1078+0,003X1+0,057X2.

. Error указаны стандартные ошибки коэффициентов уравнения. Они показывают статистическую надёжность коэффициента. Если стандартные ошибки имеют нормальное распределение, то в 2 случаях из 3 истинный коэффициент регрессора находится в пределах одной стандартной шибки соответствующего коэффициента. Значение стандартных ошибок используем для построения доверительных интервалов.(42) - выводит расчетное значение t-статистики Стьюдента. Ее значение используется для проверки значимости соответствующего коэффициента.level - показывает вероятность принять или отвергнуть гипотезу о равенстве нулю соответствующего коэффициента. При этом предполагается, что ошибки имеют нормальное или асимптотически нормальное распределение.

Так как оцененная множественная регрессионная модель получена незначима по параметру при X2, необходимо исключить из рассмотрения этот фактор. Получаем следующие результаты:



Сравнивая показатели по первой и второй моделям можно заметить, что значения второй модели снизились. Согласно полученным данным параметры парной регрессионной модели можно считать статистически значимыми.

Прогнозирование (имитация) неизвестных значений зависимой переменной


Воспользуемся полученным парным линейным регрессионным уравнением и проведем экстраполирование значений. Для этого: Multiple Regression Results необходимо выбрать вкладку Residuals/assumptions/prediction и воспользоваться кнопкой Predict dependent variable.



Для того, чтобы определить неизвестное значение независимой переменной в пространственной модели необходимо задать максимальное значение независимой переменной.



После нажатия кнопки OK получаем следующие результаты:



В первом столбце содержатся наименования расчетных и исходных показателей. Во втором столбце приведено значение параметра ai. В третьем - значение независимой переменной, используемое для расчета прогноза. В четвертом - значение независимой переменной (с доверительным интервалом), рассчитанное в результате оценивания прогноза.

Рассмотрим этот же показатель при среднем значении независимой переменной:



Получили следующие данные:



Рассмотрим полученные результаты в таблицах. В нашем случае прогноз при значении X1=48,27 находится в интервале 0,278<0,4326<0,5869, а при среднем значении независимой переменной - 0,4580<0,5391<0,6201, т.е. наибольшее значение зависимой переменной будет получено при среднем значении X1.


Теги: Построение классической линейной регрессии  Практическое задание  Менеджмент
Просмотров: 46156
Найти в Wikkipedia статьи с фразой: Построение классической линейной регрессии
Назад