Расчет параметров парной линейной регрессии

Лабораторная работа 1. Расчет параметров парной линейной регрессии


Задание №1 для ВСК 1 (макс. балл 35) - сдача на 5 неделе.


Выполнить соответствующий вариант согласно расчетам, приведенным в типовой задаче. (номер варианта и исходные данные в файле "Инд. задания для лаб.1-2" Все расчеты выполняются в EXCEL)

Пример 1. Ферма занимается выращиванием пушного зверька. На основе содержательного анализа установили, что на ферме все технологические нормативы по содержанию и кормлению соблюдаются. Тогда масса зверька в основном зависит от его возраста.

Определим количественную зависимость массы пушного зверька У (кг) от его возраста Х (в месяцах) (таблица 3).


Таблица 3 - Исходные данные

Хi-возраст, месяц012345678Yi-масса, кг1.32.53.95.26.37.5910.812,8

Задание:

  1. Установить тесноту связи
  2. Построить уравнение парной регрессии у от х.
  3. Определите параметры уравнения регрессии.
  4. Проверить адекватность уравнения регрессии
  5. Оценить статистическую значимость параметров регрессии
  6. Определить доверительный интервал параметров регрессии
  7. Выполнить прогноз у при прогнозном значении х.
  8. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.

Решение. Для удобства решения задачи все расчеты выполним в табличном процессоре EXCEL и представим в следующей форме.

  1. Для установления тесноты связи находим значение коэффициента корреляции r, для этого используем итоговые значении граф 8, 9 и 10.

Тогда



связь очень тесная, положительная. Коэффициент корреляции близок к 1. Определим коэффициент детерминации (r) 2= (0.99) 2=0,98. Вариация результата у на 98% объясняется вариацией фактора х, а 2% приходятся на неучтенные факторы. Если между выбранными факторами имеется тесная связь, то можно построить уравнение регрессии.

парная линейная регрессия интервал


  • Таблица 4 - Расчеты парной регрессии

№ХiYiXi-XcpYi-Ycp (Xi-Xcp) (Yi-Ycp) (Xi-Xcp) 2 (Yi-Ycp) 2Xi2Xi*YiY*Ai (Y-Y*) 2101,3-4-5,28921,155555561627,97235001,02890, 20850,0735212,5-3-4,08912,26666667916,7190112,52,41890,03240,0066323,9-2-2,6895,37777777847,23012347,83,80890,02340,0083435,2-1-1,3891,38888888911,929012915,65, 19890,00021E-06546,30-0,289000,0834571625,26,58890,04590,0835657,510,91110,91111111110,8301232537,57,97890,06390,229376922,41114,82222222245,81345736549,36890,0410,13618710,834,211112,63333333917,733464975,610,7590,00380,00179812,846,211124,844444441638,577964102,412,1490,05090,4239?3659,30083,460116,8889204320,659,30,46990,9629cредн46,5889Параметра=1,0289в=1,39Аср=5,2215R=0.9959R2=0.9818

R2=0,9917624F=842,7577tr=29,03029

  • Для определение вида функции построим график зависимости у от х (рис. 3). Из рисунка видно, что точки располагаются вдоль прямой линии. Значит, выбираем линейную функцию, уравнение регрессии имеет вид у=а+в*х.

Рисунок 3 - График парной регрессии


  1. Для определения параметров а и в используем формулу (6).

(6)


Используя итоговые расчеты 2-5 граф таблицы, получим систему уравнений


а+36в=59,3

а+204в=320,6


отсюда а=1,028, в=1,39, тогда уравнение регрессии у=1,028+1,39х. С увеличением возраста зверка на 1 кг, масса увеличивается в среднем на 1,39 кг.

Лабораторная работа 2. Продолжение лабораторной работы №1, т. е исходные данные из примера 1


Задание 2 для ВСК1 (макс. балл 35) - сдача на 13 неделе.)

Выполнить соответствующий вариант согласно расчетам, приведенным в типовой задаче. (номер варианта и исходные данные в файле "Инд. задания для лаб1-2" Все расчеты выполняются в EXCEL)

. Адекватность уравнения регрессии проверяется через вычисления значений Аср, tr и F. Найдем величину средней аппроксимации, для этого используем графу 13


Аср = (åАi) /n = 46,99/9 =5,22


Полученное значение Аср остается на допустимом уровне, так как не превышает 8-10%. Оценку статистической значимости модели регрессии проведем с помощью критерия Фишера Fфак и t - статистик Стьюдента.


= 0.98/ (1-0.98) *7 = 0.98/0.02 *7=

= 842,7577 Fтабл=5,12<Fфакт=343,


гипотеза о случайности факторов отклоняется. Критерий t-Стьюдента вычисляем по формуле =29,03, значит tтабл= 2,26 < tфакт=18,5. Фактическое значение tr-критерия Стьюдента коэффициента корреляции определяется как =, здесь


==0,053


Соотношение tтабл=2,26<tфакт=18,67 означает, что тесная связь между у и х неслучайная. Масса зверка неслучайна зависит от возраста, если все другие факторы остается постоянным, то есть также будет соблюдаться все технологические нормативы.

Отсюда уравнение регрессии является адекватным, т. е полученное уравнение достоверно описывает количественную зависимость факторов у и х.

5. Оценку статистической значимости параметров регрессии проведем по формулам:


tb=b/mb. tа=a/ma.


Случайные ошибки параметров линейной регрессии определяются по формулам:


, ta = /ma,

, tb = /mb.


Для вычисления m2a используем 4, 9 и 14 графы таблицы 3

m2a= (0,96*204) / (9*7*60) =195,84/3780= 0.052, отсюда ma= 0,227

?? m2b= 0,96/ (7* 60) = 0,96/420=0,0023, отсюда mb =0.04788?

Теперь находим ta= 1,028/0.227=4,53, tb=1.39/0.048= 29,03, Полученные статистические оценки параметров уравнения регрессии позволяют утверждать что, они статистически значимы и отражают устойчивую зависимость массы зверка от его возраста.

6. Доверительный интервал параметров регрессии вычисляется по формулам


а ±?tкр*mа и b ±?tкр*mb


Для этого определяем предельную ошибку D для каждого параметра


Dа =tтабл ma= 2.26*0.227=0.513, Db=tтабл mb=2.26*0.048=0.108.


Формулы для расчета доверительных интервалов имеют следующий вид:


gа = а?±?Dа =1,028± 0,513, gаmin= a - ?Dа =1,028 - 0.513=0.515 ?

gаmax=a+?Dа=1,028+0.513=1.541,


Тогда параметр а будет в интервале 0.515<a<1.541.

Параметр в вычисляем также


gв = в?±?Dв=1,39±?0,108,gвmin= в - ?

Dв=1,39-0,108=1,282,????????????gвmax=в+?Dв=1,39+0,108=1,498.


Тогда параметр в будет в интервале 1,282<в<1.498.

Если в границы доверительного интервала попадает ноль, т.е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается нулевым, так как он не может одновременно принимать и положительное, и отрицательное значения.

. Выполнить прогноз У при прогнозном значении Х

После этого полученное уравнение регрессии можно использовать для прогноза. Прогнозное значение Упрог определяется путем подстановки в уравнение регрессии У=1,028+1,39*х соответствующего (прогнозное) значения Хпрог.

Сбор данных осуществлен по периодам времени, то прогнозное значение х будет следующий период. Например, Хпрог=10, то Упрог=1,028+1,39*10= 14,93, это означает, что через месяц масса зверка будет в среднем 14,93 кг. Через два месяца в среднем будет Упрог=1,028+1,39*11= 16,32 кг.

8. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.

Средняя стандартная ошибка прогноза за 10 период вычисляется по формулам:


m2 (Yпрог) =? (у-у*) 2/ (n-m-1) } {1+ 1/n + (xпрог-хср) 2/?å (x-xср) 2}=

= (0,96/7) * (1+1/9+36/60) = 0,137*1,711=0,234, отсюда m (yпрог) = 0,484


и строим доверительный интервал прогноза


gу =упр?±?Dпр=упр?±tтабл my,

gуmin=упр?tтабл my =14.93-2.26*0.484=13.84

gуmax= упр?tтабл my=14.93+2.26*0.484=16.02.


Таким образом Упрогн будет в интервале [13,84; 16,02].

Регрессионный анализ на компьютере с помощью ППП Excel выполняется очень легко и быстро. Рассмотрим работу пакета для проведения регрессионного анализа. Для этого выполним следующие шаги:

  1. Формируем таблицу исходных данных в среде Excel;
  2. В главном меню выберите последовательно пункты

Сервис/Анализ данных/Корреляция/ОК;

  1. Заполните диалоговое окно ввода данных и параметров вывода.

Входной интервал; выделите все столбцы, содержащие значения Х и У; В1; С10;

Выходной интервал; выделите область пустой ячейки для вывода результатов, например Д2; ОК.

Еxcel представит таблицу коэффициентов парной корреляции между У и Х.


Таблица 5 - Результаты решения задачи с помощью инструмента Корреляция

№ х y101,30 х y212,50 х1323,90 y0,99591435, 20546,30657,50769,008710,809812,80

Таблица 5. показывает коэффициент корреляции между у и х ryx=0,9959.

  1. Для вычисления параметров уравнения регрессии используем инструмент анализа данных Регрессия.

Алгоритм действий следующий: Сервис/Анализ данных/Регрессия/ОК;

Входной интервал У; выделите столбец содержащие значения У (столбец С1: С10;

Входной интервал Х; выделите столбец содержащие значения Х (столбец В1: В10;

Выходной интервал: выделите область пустых ячеек для вывода результатов, например В12;

Остатки; установите флажок;

Excel представит решение в виде таблиц 5-7.

Таблица 6 называется регрессионной статистики. В таблице представлено:

Коэффициент корреляции R=0.9959;

Квадрат коэффициента корреляции R2=0.9918;

Стандартная ошибка - S= 0.3709;


Таблица 7-Регрессионная статистика

SUMMARY OUTPUTRegression StatisticsMultiple R0,9959R Square0,9918Adjusted R Square0,9906Standard Error0,3709Observations9

Таблица 7 - Дисперсионный анализ представляет:

df =1 - число степени свободы;

SS - сумма квадратов разностей:

Сумма квадратов регрессии с числом степеней свободы 1 SS1=115,926.

Сумма квадратов остатков с числом степей свободы п-2 - SS2 =0,963.

Cумма квадратов общая с числом степеней свободы п-1 - SS=116,889

MS - оценка дисперсий:


дисперсия регрессии - d2факт?=SS1/1=115,926;

дисперсия остаточная d2ост?=SS2/ (n-2) =0.138;


F - критерий Фишера: F=842,758.


Таблица 7-Дисперсионный анализ

ANOVA dfSSMSFSignificance FRegression1115,926115,926842,7580,000Residual70,9630,138Total8116,889

Таблица 8 - Параметры уравнения регрессии

В ней представлено:

Графа 2 показывает значения коэффициентов а и в:

а=1,028, в=1,39.

Графа 3 - Стандартная ошибка; ma = 0,228 и mb=0,0479;

Графа 4 - t - статистика; ta =4,5135, tb=29,0303.

Графа 5-6-Доверительные интервалы. Интервальные оценки gаmin=0,4899, gаmax=1.5679. gвmin=1.2768, gвmax=1.5032 для параметров регрессии с доверительной вероятностью р=0,95.


Таблица 8

CoefficientsStandard Errort StatP-valueLower 95%Upper 95%1234567Intercept1,02890,22804,51350,00280,48991,5679 х1,39000,047929,03030,00001,27681,5032

По результатам запишем уравнение регрессии.


У=1,0289+1,39*х,


Доверительные интервалы параметров регрессии


.4899<a<1.5679, 1,2768<b<1.5032.


При расчетах двумя способами имеются погрешности, они связаны с округлением десятичных знаков до двух. Использование специального пакета ЕХСЕL обеспечивает точность вычисление.


Теги: Расчет параметров парной линейной регрессии  Практическое задание  Менеджмент
Просмотров: 34558
Найти в Wikkipedia статьи с фразой: Расчет параметров парной линейной регрессии
Назад