Лабораторная работа №1
Парное линейное уравнение регрессии
Цель работы: рассчитать параметры линейного уравнения парной регрессии с помощью Excel, а также проанализировать качество построенной модели, использую коэффициент парной корреляции, коэффициент детерминации и среднюю ошибку аппроксимации.
аппроксимация уравнение программа корреляция
Для анализа зависимости объема потребления Y (руб.) домохозяйства в зависимости от располагаемого дохода X (руб.) отобрана выборка объема n =12, результаты которой приведены в таблице:
№123456789101112х107109110113120121124127129140141143y102105108110115118119124131131140144
Необходимо:
. найти параметры a и b линейного уравнения парной регрессии y(x);
. найти коэффициент детерминации;
. рассчитать линейный коэффициент парной корреляции и оценить тесноту связи, используя таблицу Чеддока;
. Найти среднюю ошибку аппроксимации;
. Построить график линейного уравнения регрессии.
Решение
Формально критерий МНК можно записать так:
= ?(yi - y*i)2 ? min
Система нормальных уравнений.
an + b?x = ?y?x + b?x2 = ?yx
Для наших данных система уравнений имеет вид
a + 1484 b = 1447
a + 185316 b = 180822
Из первого уравнения выражаем а и подставим во второе уравнение:
Получаем эмпирические коэффициенты регрессии: b = 1.0455, a = -8.7108
Уравнение регрессии (эмпирическое уравнение регрессии):
= 1.0455 x - 8.7108
Эмпирические коэффициенты регрессии a и b являются лишь оценками теоретических коэффициентов ?i, а само уравнение отражает лишь общую тенденцию в поведении рассматриваемых переменных.
Для расчета параметров регрессии построим расчетную таблицу (табл. 1)
xyx2y2x y10710211449104041091410910511881110251144511010812100116641188011311012769121001243012011514400132251380012111814641139241427812411915376141611475612712416129153761574812913116641171611689914013119600171611834014114019881196001974014314420449207362059214841447185316176537180822
1. Параметры уравнения регрессии.
Выборочные средние.
Выборочные дисперсии:
Среднеквадратическое отклонение
. Коэффициент корреляции
Ковариация.
Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:
Линейный коэффициент корреляции принимает значения от -1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
.1 < rxy < 0.3: слабая;
.3 < rxy < 0.5: умеренная;
.5 < rxy < 0.7: заметная;
.7 < rxy < 0.9: высокая;
.9 < rxy < 1: весьма высокая;
В нашем примере связь между признаком Y фактором X весьма высокая и прямая.
Кроме того, коэффициент линейной парной корреляции может быть определен через коэффициент регрессии b:
Уравнение регрессии (оценка уравнения регрессии).
Линейное уравнение регрессии имеет вид y = 1.05 x -8.71
Коэффициентам уравнения линейной регрессии можно придать экономический смысл.
Коэффициент регрессии b = 1.05 показывает среднее изменение результативного показателя (в единицах измерения у) с повышением или понижением величины фактора х на единицу его измерения. В данном примере с увеличением на 1 единицу y повышается в среднем на 1.05.
Коэффициент a = -8.71 формально показывает прогнозируемый уровень у, но только в том случае, если х=0 находится близко с выборочными значениями.
Но если х=0 находится далеко от выборочных значений х, то буквальная интерпретация может привести к неверным результатам, и даже если линия регрессии довольно точно описывает значения наблюдаемой выборки, нет гарантий, что также будет при экстраполяции влево или вправо.
Подставив в уравнение регрессии соответствующие значения х, можно определить выровненные (предсказанные) значения результативного показателя y(x) для каждого наблюдения.
Связь между у и х определяет знак коэффициента регрессии b (если > 0 - прямая связь, иначе - обратная). В нашем примере связь прямая.
. Ошибка аппроксимации.
Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации. Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:
Ошибка аппроксимации в пределах 5%-7% свидетельствует о хорошем подборе уравнения регрессии к исходным данным.
Поскольку ошибка меньше 7%, то данное уравнение можно использовать в качестве регрессии.
Для оценки качества параметров регрессии построим расчетную таблицу (табл. 2)
xyy(x)(yi-ycp)2(y-y(x))2(xi-xcp)2|y - yx|:y107102103.16345.341.34277.780.0114109105105.25242.840.0621215.110.00237110108106.29158.342.91186.780.0158113110109.43112.010.32113.780.00517120115116.7531.173.0613.440.0152121118117.86.670.04197.110.00173124119120.932.513.730.110.0162127124124.0711.670.0046711.110.000551129131126.16108.5123.4328.440.037140131137.66108.5144.35266.780.0508141140138.71377.011.68300.440.00925143144140.8548.3410.26373.780.02221484144714472052.9291.21794.670.19
. Оценка параметров уравнения регрессии.
Показатели качества уравнения регрессии
ЗначениеКоэффициент детерминациине был рассчитанСредний коэффициент эластичностине был рассчитанСредняя ошибка аппроксимации1.56