Завдання 1
По території регіону приводяться дані у табл. 1 за 200X р.
Таблиця 1 Вихідні дані
Номер регіонуСередній добовий прожитковий мінімум на одного трудоспроможного громадянина, грн., хСередня добова заробітна плата, грн., у188142289148387145479154510616761161957671398981679821521087162118615512120173
Необхідно:
. Побудувати лінійне рівняння парної регресії y по x .
. Розрахувати лінійний коефіцієнт парної кореляції, коефіцієнт детермінації й середню помилку апроксимації.
. Оцінити статистичну значимість рівняння регресії в цілому й окремих параметрах регресії й кореляції за допомогою F-критерію Фішера й t-критерію Стьюдента.
. Виконати прогноз заробітної плати y при прогнозному значенні середнього добового прожиткового мінімуму x , що становить 107% від середнього рівня.
. Оцінити точність прогнозу, розрахувавши помилку прогнозу і його довірчий інтервал.
. На одному графіку відкласти вихідні дані й теоретичну пряму.
. Перевірити обчислення за допомогою Аналізу даних у MS Excel.
Розвязання
. Для розрахунків параметрів рівняння лінійної регресії побудуємо наступну таблицю (рис. 1).
заробітний плата кореляція апроксимація
Рис. 1
За наступними формулами знаходимо параметри регресії a, b (у завданні до лабораторної роботи це відповідно).
Отримано рівняння регресії:
Параметр регресії дозволяє зробити висновок, що зі збільшенням середнього прожиткового мінімуму на 1 грн. середня добова заробітна плата зростає в середньому на 0,86 грн. (або 86 коп.).
Після знаходження рівняння регресії заповнюємо стовпці 7-10 таблиці
. Тісноту лінійного звязку оцінить коефіцієнт кореляції:
Так як значення коефіцієнта кореляції більше за 0,7, то це свідчить про наявність досить тісного лінійного звязку між ознаками.
Коефіцієнт детермінації:
Це означає, що 52% варіації заробітної плати (y) пояснюється варіацією фактору x - середнього добового прожиткового мінімуму.
Якість моделі визначає середня помилка апроксимації:
Якість побудованої моделі оцінюється як гарна, тому що A не перевищує 10%.
. Оцінку статистичної значимості рівняння регресії в цілому проведемо за допомогою F-критерію Фішера. Фактичне значення F-критерію за наступною формулою складатиме:
Табличне значення критерію при 5% рівні значимості та степенях свободи і складає
Так як
то рівняння регресії вважається статистично значимим.
Оцінку статистичної значимості параметрів регресії й кореляції проведемо за допомогою t-статистики Стьюдента й шляхом розрахунку довірчого інтервалу кожного з параметрів.
Табличне значення t-критерію для числа степеней свободи df = n-2 = 12-2= 10 та рівня значимості ?=0,05 складає
Визначимо стандартні помилки (залишкова дисперсія на одну степінь свободи ):
Тоді:
Фактично значення t-статистики перевищують табличне значення:
тому параметри a, b й rxy не випадково відрізняються від нуля, а є статистично значимими.
Розрахуємо довірчі інтервали для параметрів регресії a та b. Для цього визначимо граничну похибку для кожного показника:
Довірчі інтервали:
Аналіз верхньої й нижньої границь довірчих інтервалів приводить до висновку про те, що з ймовірністю параметри a і b, перебуваючи в зазначених границях, не приймають нульових значень, тобто є статистично значимими й істотно відмінні від нуля.
. Отримані оцінки рівняння регресії дозволяють використати його для прогнозу. Якщо прогнозне значення прожиткового мінімуму складе:
грн.
то індивідуальне прогнозне значення заробітної плати складе:
грн.
. Похибка прогнозу складатиме:
Гранична похибка прогнозу, яка в 95% випадків не буде перевищувати, складатиме:
Довірчий інтервал прогнозу:
Виконаний прогноз середньої добової заробітної плати є надійним та знаходиться в межах від 223,02 грн. до 262,92 грн.
Розвязування типової задачі регресійного аналізу в MS Excel.
За допомогою інструмента аналізу даних Регрессия можна отримати результати регресійної статистики, дисперсійного аналізу, довірчих інтервалів, залишки та графіки підбору лінії регресії.
. Якщо вихідні дані вже занесені, то обираємо
Сервис?Анализ данных?Регрессия.
. Заповнюємо діалогове вікно введення даних та параметрів виведення (рис. 2).
Рис. 2
Тут маємо:
Входной интервал Y - діапазон, що містить дані результативної ознаки;
Входной интервал X - діапазон, що містить дані ознаки-фактору;
Метки - "флажок", що вказує, чи місти перший рядок назви стовпців;
Константа - ноль - "флажок", що вказує на наявність або відсутність вільного члена в рівнянні;
Выходной интервал - досить указати ліву верхню клітинку майбутнього діапазону;
Новый рабочий лист - можна вказати довільне імя нового аркуша (або не вказувати, тоді результати виводяться на знову створений аркуш).
Одержуємо наступні результати для нашого приклада (рис. 3).
Рис. 3
Звідки виписуємо, округляючи до 4 знаків після коми й переходячи до наших позначень.
Рівняння регресії:
Коефіцієнт кореляції:
Коефіцієнт детермінації:
Фактичне значення F-критерію Фішера:
Залишкова дисперсія на одну степінь свободи:
Квадратний корінь з залишкової дисперсії (стандартна похибка):
Стандартні похибки для параметрів регресії:
Фактичні значення t-критерію Стьюдента:
Довірчі інтервали:
Як бачимо, знайдені всі розглянуті вище параметри й характеристики рівняння регресії, за винятком середньої похибки апроксимації (значення t-критерію Стьюдента для коефіцієнта кореляції збігається с ). Результати "ручного розрахунку" від машинного відрізняються незначно (відмінності повязані з помилками округлення).