Лабораторная работа 1. Расчет параметров парной линейной регрессии
Задание №1 для ВСК 1 (макс. балл 35) - сдача на 5 неделе.
Выполнить соответствующий вариант согласно расчетам, приведенным в типовой задаче. (номер варианта и исходные данные в файле "Инд. задания для лаб.1-2" Все расчеты выполняются в EXCEL)
Пример 1. Ферма занимается выращиванием пушного зверька. На основе содержательного анализа установили, что на ферме все технологические нормативы по содержанию и кормлению соблюдаются. Тогда масса зверька в основном зависит от его возраста.
Определим количественную зависимость массы пушного зверька У (кг) от его возраста Х (в месяцах) (таблица 3).
Таблица 3 - Исходные данные
Хi-возраст, месяц012345678Yi-масса, кг1.32.53.95.26.37.5910.812,8
Задание:
Решение. Для удобства решения задачи все расчеты выполним в табличном процессоре EXCEL и представим в следующей форме.
Тогда
связь очень тесная, положительная. Коэффициент корреляции близок к 1. Определим коэффициент детерминации (r) 2= (0.99) 2=0,98. Вариация результата у на 98% объясняется вариацией фактора х, а 2% приходятся на неучтенные факторы. Если между выбранными факторами имеется тесная связь, то можно построить уравнение регрессии.
парная линейная регрессия интервал
№ХiYiXi-XcpYi-Ycp (Xi-Xcp) (Yi-Ycp) (Xi-Xcp) 2 (Yi-Ycp) 2Xi2Xi*YiY*Ai (Y-Y*) 2101,3-4-5,28921,155555561627,97235001,02890, 20850,0735212,5-3-4,08912,26666667916,7190112,52,41890,03240,0066323,9-2-2,6895,37777777847,23012347,83,80890,02340,0083435,2-1-1,3891,38888888911,929012915,65, 19890,00021E-06546,30-0,289000,0834571625,26,58890,04590,0835657,510,91110,91111111110,8301232537,57,97890,06390,229376922,41114,82222222245,81345736549,36890,0410,13618710,834,211112,63333333917,733464975,610,7590,00380,00179812,846,211124,844444441638,577964102,412,1490,05090,4239?3659,30083,460116,8889204320,659,30,46990,9629cредн46,5889Параметра=1,0289в=1,39Аср=5,2215R=0.9959R2=0.9818
R2=0,9917624F=842,7577tr=29,03029
Рисунок 3 - График парной регрессии
(6)
Используя итоговые расчеты 2-5 граф таблицы, получим систему уравнений
а+36в=59,3
а+204в=320,6
отсюда а=1,028, в=1,39, тогда уравнение регрессии у=1,028+1,39х. С увеличением возраста зверка на 1 кг, масса увеличивается в среднем на 1,39 кг.
Лабораторная работа 2. Продолжение лабораторной работы №1, т. е исходные данные из примера 1
Задание 2 для ВСК1 (макс. балл 35) - сдача на 13 неделе.)
Выполнить соответствующий вариант согласно расчетам, приведенным в типовой задаче. (номер варианта и исходные данные в файле "Инд. задания для лаб1-2" Все расчеты выполняются в EXCEL)
. Адекватность уравнения регрессии проверяется через вычисления значений Аср, tr и F. Найдем величину средней аппроксимации, для этого используем графу 13
Аср = (åАi) /n = 46,99/9 =5,22
Полученное значение Аср остается на допустимом уровне, так как не превышает 8-10%. Оценку статистической значимости модели регрессии проведем с помощью критерия Фишера Fфак и t - статистик Стьюдента.
= 0.98/ (1-0.98) *7 = 0.98/0.02 *7=
= 842,7577 Fтабл=5,12<Fфакт=343,
гипотеза о случайности факторов отклоняется. Критерий t-Стьюдента вычисляем по формуле =29,03, значит tтабл= 2,26 < tфакт=18,5. Фактическое значение tr-критерия Стьюдента коэффициента корреляции определяется как =, здесь
==0,053
Соотношение tтабл=2,26<tфакт=18,67 означает, что тесная связь между у и х неслучайная. Масса зверка неслучайна зависит от возраста, если все другие факторы остается постоянным, то есть также будет соблюдаться все технологические нормативы.
Отсюда уравнение регрессии является адекватным, т. е полученное уравнение достоверно описывает количественную зависимость факторов у и х.
5. Оценку статистической значимости параметров регрессии проведем по формулам:
tb=b/mb. tа=a/ma.
Случайные ошибки параметров линейной регрессии определяются по формулам:
, ta = /ma,
, tb = /mb.
Для вычисления m2a используем 4, 9 и 14 графы таблицы 3
m2a= (0,96*204) / (9*7*60) =195,84/3780= 0.052, отсюда ma= 0,227
?? m2b= 0,96/ (7* 60) = 0,96/420=0,0023, отсюда mb =0.04788?
Теперь находим ta= 1,028/0.227=4,53, tb=1.39/0.048= 29,03, Полученные статистические оценки параметров уравнения регрессии позволяют утверждать что, они статистически значимы и отражают устойчивую зависимость массы зверка от его возраста.
6. Доверительный интервал параметров регрессии вычисляется по формулам
а ±?tкр*mа и b ±?tкр*mb
Для этого определяем предельную ошибку D для каждого параметра
Dа =tтабл ma= 2.26*0.227=0.513, Db=tтабл mb=2.26*0.048=0.108.
Формулы для расчета доверительных интервалов имеют следующий вид:
gа = а?±?Dа =1,028± 0,513, gаmin= a - ?Dа =1,028 - 0.513=0.515 ?
gаmax=a+?Dа=1,028+0.513=1.541,
Тогда параметр а будет в интервале 0.515<a<1.541.
Параметр в вычисляем также
gв = в?±?Dв=1,39±?0,108,gвmin= в - ?
Dв=1,39-0,108=1,282,????????????gвmax=в+?Dв=1,39+0,108=1,498.
Тогда параметр в будет в интервале 1,282<в<1.498.
Если в границы доверительного интервала попадает ноль, т.е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается нулевым, так как он не может одновременно принимать и положительное, и отрицательное значения.
. Выполнить прогноз У при прогнозном значении Х
После этого полученное уравнение регрессии можно использовать для прогноза. Прогнозное значение Упрог определяется путем подстановки в уравнение регрессии У=1,028+1,39*х соответствующего (прогнозное) значения Хпрог.
Сбор данных осуществлен по периодам времени, то прогнозное значение х будет следующий период. Например, Хпрог=10, то Упрог=1,028+1,39*10= 14,93, это означает, что через месяц масса зверка будет в среднем 14,93 кг. Через два месяца в среднем будет Упрог=1,028+1,39*11= 16,32 кг.
8. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.
Средняя стандартная ошибка прогноза за 10 период вычисляется по формулам:
m2 (Yпрог) =?{å (у-у*) 2/ (n-m-1) } {1+ 1/n + (xпрог-хср) 2/?å (x-xср) 2}=
= (0,96/7) * (1+1/9+36/60) = 0,137*1,711=0,234, отсюда m (yпрог) = 0,484
и строим доверительный интервал прогноза
gу =упр?±?Dпр=упр?±tтабл my,
gуmin=упр?tтабл my =14.93-2.26*0.484=13.84
gуmax= упр?tтабл my=14.93+2.26*0.484=16.02.
Таким образом Упрогн будет в интервале [13,84; 16,02].
Регрессионный анализ на компьютере с помощью ППП Excel выполняется очень легко и быстро. Рассмотрим работу пакета для проведения регрессионного анализа. Для этого выполним следующие шаги:
Сервис/Анализ данных/Корреляция/ОК;
Входной интервал; выделите все столбцы, содержащие значения Х и У; В1; С10;
Выходной интервал; выделите область пустой ячейки для вывода результатов, например Д2; ОК.
Еxcel представит таблицу коэффициентов парной корреляции между У и Х.
Таблица 5 - Результаты решения задачи с помощью инструмента Корреляция
№ х y101,30 х y212,50 х1323,90 y0,99591435, 20546,30657,50769,008710,809812,80
Таблица 5. показывает коэффициент корреляции между у и х ryx=0,9959.
Алгоритм действий следующий: Сервис/Анализ данных/Регрессия/ОК;
Входной интервал У; выделите столбец содержащие значения У (столбец С1: С10;
Входной интервал Х; выделите столбец содержащие значения Х (столбец В1: В10;
Выходной интервал: выделите область пустых ячеек для вывода результатов, например В12;
Остатки; установите флажок;
Excel представит решение в виде таблиц 5-7.
Таблица 6 называется регрессионной статистики. В таблице представлено:
Коэффициент корреляции R=0.9959;
Квадрат коэффициента корреляции R2=0.9918;
Стандартная ошибка - S= 0.3709;
Таблица 7-Регрессионная статистика
SUMMARY OUTPUTRegression StatisticsMultiple R0,9959R Square0,9918Adjusted R Square0,9906Standard Error0,3709Observations9
Таблица 7 - Дисперсионный анализ представляет:
df =1 - число степени свободы;
SS - сумма квадратов разностей:
Сумма квадратов регрессии с числом степеней свободы 1 SS1=115,926.
Сумма квадратов остатков с числом степей свободы п-2 - SS2 =0,963.
Cумма квадратов общая с числом степеней свободы п-1 - SS=116,889
MS - оценка дисперсий:
дисперсия регрессии - d2факт?=SS1/1=115,926;
дисперсия остаточная d2ост?=SS2/ (n-2) =0.138;
F - критерий Фишера: F=842,758.
Таблица 7-Дисперсионный анализ
ANOVA dfSSMSFSignificance FRegression1115,926115,926842,7580,000Residual70,9630,138Total8116,889
Таблица 8 - Параметры уравнения регрессии
В ней представлено:
Графа 2 показывает значения коэффициентов а и в:
а=1,028, в=1,39.
Графа 3 - Стандартная ошибка; ma = 0,228 и mb=0,0479;
Графа 4 - t - статистика; ta =4,5135, tb=29,0303.
Графа 5-6-Доверительные интервалы. Интервальные оценки gаmin=0,4899, gаmax=1.5679. gвmin=1.2768, gвmax=1.5032 для параметров регрессии с доверительной вероятностью р=0,95.
Таблица 8
CoefficientsStandard Errort StatP-valueLower 95%Upper 95%1234567Intercept1,02890,22804,51350,00280,48991,5679 х1,39000,047929,03030,00001,27681,5032
По результатам запишем уравнение регрессии.
У=1,0289+1,39*х,
Доверительные интервалы параметров регрессии
.4899<a<1.5679, 1,2768<b<1.5032.
При расчетах двумя способами имеются погрешности, они связаны с округлением десятичных знаков до двух. Использование специального пакета ЕХСЕL обеспечивает точность вычисление.