Сезонные временные ряды

Содержание


Постановка задачи. Данные. Цель задачи

Описательные статистики. (Определения, формулы, значения)

Доверительные интервалы для среднего, медианы, стандартного отклонения с заданным уровнем доверия (формулы, значения). Выводы (в терминах задачи)

Вывод по модели

Постановка задачи. Данные. Цель задачи


В таблице представлены ежемесячные данные по количеству туристов, приехавшие в Италию. Данные представлены ежемесячно за период с 1 января 2003 года по 1 января 2007 года.


МесяцыТуристыМесяцыТуристыМесяцыТуристы31.01.200390,430.09.200480,931.05.200692,228.02.200395,531.10.200483,830.06.200678,931.03.200387,330.11.200494,231.07.200693,630.04.200380,331.12.200497,531.08.2006107,631.05.200355,831.01.2005110,630.09.200698,530.06.200346,628.02.2005106,131.10.200698,831.07.200363,431.03.2005108,530.11.2006108,131.08.200384,630.04.2005102,831.12.2006118,530.09.200372,131.05.200580,131.01.2007128,231.10.200376,430.06.200568,228.02.2007118,930.11.200387,331.07.200583,631.03.2007126,531.12.20038731.08.200599,930.04.2007121,631.01.2004100,530.09.200589,731.05.200799,729.02.2004100,831.10.200591,330.06.200786,431.03.200497,930.11.2005101,231.07.2007101,130.04.200491,531.12.200510831.08.2007115,131.05.20046831.01.2006120,730.09.200710630.06.200457,428.02.2006111,431.10.2007106,231.07.200473,531.03.2006119,130.11.2007115,631.08.200492,330.04.2006114,131.12.2007125,9

Цель задачи.

Проанализировать количество туристов, которые посещают Италию ежемесячно. Также, сделать предварительные прогнозы на 3-6 месяцев и создать модель для будущих прогнозов.

Описательные статистики. (Определения, формулы, значения)


Среднее арифметическое выборки (mean) - это сумма всех данных, деленная на количество данных.



Стандартная ошибка среднего (SE mean) характеризует колебания среднего значения. Величина - оценка теоретической дисперсии х:



Для выборки из n наблюдений выборочная дисперсия определяется как среднеквадратичное отклонение в выборке:



Среднее квадратичное отклонение (StDev) характеризует степень разброса данных вокруг центра.

Медиана - это точка, вокруг которой располагается одинаковое количество элементов выборки.



За указанный период среднее значение туристов было равно 95,46 тысяч человек в месяц; стандартная ошибка среднего равна 2,37; среднее квадратичное отклонение равно 18,34; дисперсия равна 336,17; медиана равна 97,70; разница между минимальным и максимальным значением равна 81,60.


Доверительные интервалы для среднего, медианы, стандартного отклонения с заданным уровнем доверия (формулы, значения). Выводы (в терминах задачи)


Доверительным интервалом называют интервал который показывает неизвестный параметр с заданной надежностью ?.



Доверительный интервал медианы, среднего, стандартного отклонения с 95% уровнем доверия приводится для количества туристов, и, опираясь на график, мы можем сделать следующие выводы: среднее число посещающих страну с 95% уверенностью колеблется в пределах от 90,725 до 100, 198; медиана с 95% уверенностью будет находиться в пределах от 91,238 до 101,107; стандартное отклонение с 95% гарантией будет лежать в пределах от 15,541 до 22,363.


1.График. Предварительные выводы по ОС и графику.


По данному графику видно, что для количества туристов в Италии имеется тренд, наблюдается общая тенденция к возрастанию посещающих достопримечательности, находящиеся в стране. Также по данному графику можно говорить о сезонности с периодом в 1 год: максимум достигается в феврале месяце, а минимум в июле месяце каждого года, что конечно странно для туризма. Но по собранным данным, понятно, что в феврале в Италии проходит более 5 карнавалов ежегодно. Возможно, этим и объясняется рост туристов на данный период.

2.Автокорреляционная функция. (Определение, формула, график, заключение).

Автокорреляция - корреляционная связь между значениями одного и того же случайного процесса X (t) в моменты времени t1 и t2. Функция, характеризующая эту связь, называется автокорреляционной функцией.




По анализу автокорреляционной функции можно сказать, что есть сезонность. Временной ряд не стационарен.

После анализа данной автокорреляционной функции, заметно, что значения автокорреляции в начале значительно отличны от нуля, а потом постепенно приближаются к нулю. Каждые 12 лагов достигается максимальные показатели корреляции, что доказывает наличие сезонности, так как начиная сначала АКФ, заметно падение и рост. Так как первый и второй, а также двенадцатые лаги выходят из доверительного интервала, и значительно отличны от нуля, значит для этой модели необходимо построить модель авторегрессии и модель ARIMA.

3.Анализ линейной модели:

·Название модели. Уравнение тренда. Значение R2.

·Сезонная компонента (значение и график). (Если есть сезонность во ВР)

·Значение MAD,MSE, MAPE, MPE

·График тренда

·Выбор типа тренда по R2 после работы с параболической моделью.

Additive Model


Уравнение тренда: Yt = 72,7958 + 0,743143*t


R^2= 0,979136


сезонный временной ряд

Decomposition - Component Analysis for Туриcты


Линейно мультипликативная модель


Multiplicative Model

Data Туриcты


Уравнение тренда: Yt = 72,2651 + 0,760331*t


R^2= 0,961811


Time Series Decomposition Plot for Туриcты


4.Анализ параболической модели:

·Название модели. Значение R2.

·Сезонная компонента (значение и график). (Если есть сезонность во ВР)

·Значение MAD,MSE, MAPE, MPE

·График тренда

·Выбор типа тренда по R2

Аддитивная параболическая модель.

Trend Analysis for Туриcты

Уравнение тренда:


Yt = 73,9564 + 0,734098*t - 0,000719185*t**2



Series Decomposition for RESI2


R^2=0,977121


Time Series Decomposition Plot for RESI2


Decomposition - Component Analysis for RESI2

Мультипликативная параболическая модель

Data Туриcты. Уравнение тренда:


Yt = 73,9564 + 0,734098*t - 0,000719185*t**2



От полученных FITS5, рассчитываем S*E используя наши FITS5 и показатели Туристы.


X (t) =T (t) *S (t) *E (t) => X (t) /T (t) =S (t) *E (t)



Time Series Decomposition for S*E


Multiplicative Model



Использую полученные FITS6 (S*E) и само S*E, подсчитаем конечные остатки-E (r).

По этим остаткам находим коэффициент детерминации.


S*EFITS6_seRESI6_seE (r) 1,210341, 191860,0184761,01551,266211,112830,1533881,137841,146391,15489-0,00850,992641,044471,0878-0,043330,96016. ………

R^2= 0,996968


Вывод. После построения нескольких моделей, выявлено то, что модель ПМ является наиболее лучшей с коэффициентом детерминации - 0,996968.


Модель:

= (73,9564 + 0,734098*t - 0,000719185*t^2) *S*E (r)


где Сезонность:

………


5.Анализ остатков. АКФ остатков.



У нас в Автокорреляционной функции столбцы выходит за пределы красной линии, что означает остатки не являются Белым Шумом. Поэтому проводим Авторег. остатков через ARIMA.

Autocorrelation Function: E (r)



Авторегрессия для E (r)

Первого порядка.



ARIMA Model: E (r)

Относительное изменение в каждой из лагов не превышает 0,0010.



В графике видно, в 12 лаге есть некое отклонение и возможно существуют факторы, которые повлияли на исходные изменения.



E (t) =0,489377+0,5109*E (t-1) +W (t)


6.Общее уравнение модели тренда. Прогноз на 3 шага вперед.

Финальная модель:

(t) = (73,9564 + 0,734098*t - 0,000719185*t^2) *S (t) * (0,489377+0,5109*E (t-1) +W (t))


Прогноз на 3 месяца:

По модели


Вывод по модели


Как уже говорилось, модель имеет тенденцию к снижению и сезонность, которая характеризуется перепадами и прыжками, каждые полгода. После анализа графика также стало ясно о наличии цикличности в рассматриваемый период. AKФ показала, что зависимость следующих показателей сильно зависит от предыдущих.

При проведенных анализах в 6 и 7 пунктах, выявлена наилучшая модель в виде ПМ. При выборе учитывался Коэффициент детерминации ПМ с 0,9969 в отличии от других. В дальнейшем мы выбрали ПМ в качестве основы финальной модели.

После проведения авторегрессии 1 порядка достигнут результат с наилучшим прогнозом. Составлена финальная модель.


Теги: Сезонные временные ряды  Практическое задание  Менеджмент
Просмотров: 10185
Найти в Wikkipedia статьи с фразой: Сезонные временные ряды
Назад