Применение методов математической статистики (дисперсионный анализ) и программного продукта (Excel) в маркетинге

Министерство образования и науки Украины

Национальный технический университет Украины

«Киевский политехнический институт»

Факультет менеджмента и маркетинга

Кафедра промышленного маркетинга

Курсовая работа

по математической статистике

на тему: Применение методов математической статистики (дисперсионный анализ) и программного продукта (Excel) в маркетинге

Выполнили:

студентки 2го курса группы УМ-31

Войцехова Ольга Станиславовна

Давыдок Анна Сергеевна

Проверила: Черненко Оксана Владимировна

Киев, 2005

Содержание:

дисперсионный анализ еxcel

Вступление

. Теоретические сведенья

.1 Понятие о дисперсионном анализе

.2 Однофакторный дисперсионный анализ

.3 Двухфакторный дисперсионный анализ

. Программное обеспечение

.1 Использование INTERNET и компьютера

.2 Применение Excel

. Примеры использования методов

.1 Применение однофакторного дисперсионного анализа

.2 Применение двухфакторного дисперсионного анализа

Вывод

Список литературы

Вступление

В настоящее время дисперсионный анализ определяется как статистический метод, предназначенный для оценки влияния различных факторов на результат эксперимента, а также для последующего планирования аналогичных экспериментов.

На практике часто возникает необходимость проверки существенности различия выборочных средних т совокупностей (т>2). Например, требуется оценить влияние различных свойств сырья на показатели качества продукции, плавок на механические свойства металла, количества вносимых удобрений на урожайность и т.п.

Для эффективного решения такой задачи нужен новый подход, который и реализуется в дисперсионном анализе.

Основной целью дисперсионного анализа является исследование значимости различия между средними. Если просто сравниваются средние в двух выборках, дисперсионный анализ даст тот же результат, что и обычный t-критерий для независимых выборок (если сравниваются две независимые группы объектов или наблюдений) или t-критерий для зависимых выборок (если сравниваются две переменные на одном и том же множестве объектов или наблюдений).

Откуда произошло название Дисперсионный анализ? Может показаться странным, что процедура сравнения средних называется дисперсионным анализом. В действительности, это связано с тем, что при исследовании статистической значимости различия между средними двух (или нескольких) групп, мы на самом деле сравниваем (т.е. анализируем) выборочные дисперсии.

Фундаментальная концепция дисперсионного анализа предложена английским математиком - статистиком Р.А. Фишером для обработки результатов агрономических опытов по выявлению условий получения максимального урожая различных сортов сельскохозяйственных культур в 1918 году. Возможно, более естественным был бы термин анализ суммы квадратов или анализ вариации, но в силу традиции употребляется термин дисперсионный анализ. Сам термин «дисперсионный анализ» Фишер употребил позднее.

По числу факторов, влияние которых исследуется, различают однофакторный и многофакторный дисперсионный анализ.

1. Теоретические сведенья

1.1 Понятие о дисперсионном анализе

Дисперсионный анализ используется маркетологами для изучения различий средних значений зависимых переменных, вызванных влиянием контролируемых независимых переменных, при условии, что учтено влияние неконтролируемых независимых переменных. По сути, дисперсионный анализ применяют как проверку статистической значимости различий выборочных средних для двух или больше совокупностей. Обычно нулевая гипотеза утверждает, что все выборочные средние равны. Проверку нулевой гипотезы можно выполнить, используя дисперсионный анализ.

Дисперсионный анализ (analysis of variance - ANOVA) - статистический метод изучения различий между выборочными средними для двух или больше совокупностей.

В своей простейшей форме дисперсионный анализ должен иметь зависимую переменную, которая является метрической. Кроме того, должна быть одна или больше независимых переменных. Все независимые переменные должны быть категориальными (неметрическими), их еще называют факторами (factors).

Фактор (factors) - категориальная независимая переменная. Чтобы использовать дисперсионный анализ, независимые переменные должны все быть категориальными (неметрическими).

Конкретная комбинация уровней факторов называется факторным экспериментам (условиями испытаний) (treatment).

Факторный эксперимент (условия испытаний) (treatment) - в дисперсионном анализе конкретная комбинация категорий (уровней) факторов.

Однофакторный дисперсионный анализ (one-way analysis of variance) - метод дисперсионного анализа, при котором используется только один фактор. Однофакторный дисперсионный анализ включает только одну категориальную переменную или единственный фактор.

Если существует два или больше факторов, то анализ называют многофакторным дисперсионным анализом.

Многофакторный дисперсионный анализ (n-way analysis of variance) - модель дисперсионного анализа, которая включает два или больше факторов.

Взаимосвязь дисперсионного анализа с t-критерием и другими методами анализа, такими как регрессионный анализ, показана на рис. 1.1.

Во всех этих методах анализа используется метрическая зависимая переменная. Дисперсионный и ковариационный анализ может включать несколько независимых переменных (степень использования продукта, лояльность к торговой марке, отношение, важность). Более того, одна из независимых переменных должна быть категориальной и категориальные переменные могут иметь больше двух уровней. С другой стороны, t-критерий предназначен для использования в случае с единственной бинарной независимой переменной. Например, различие в предпочтениях товара у лояльных и нелояльных респондентов можно узнать, выполнив проверку с помощью t-критерия. Регрессионный анализ, подобный дисперсионному и ковариационному, также может включать несколько независимых переменных. Однако все независимые переменные, в основном, измеряются интервальной шкалой, хотя бинарные или категориальные переменные могут приспосабливаться к анализу за счет введения фиктивных (dummy) переменных.

Рис. 1.1. Взаимосвязь между t-критерием, дисперсионным и ковариационным анализом и регрессией

1.2 Однофакторный дисперсионный анализ

Однофакторная дисперсионная модель имеет вид:

Xij=, (1)

где xij - значение исследуемой переменой, полученной на i-м уровне фактора (i=1,2,...,m) с j-м порядковым номером (j=1,2,...,n);

Fi - эффект, обусловленный влиянием i-го уровня фактора;

ij - случайная компонента, или возмущение, вызванное влиянием неконтролируемых факторов, т.е. вариацией переменной внутри отдельного уровня.

Под уровнем фактора понимается некоторая его мера или состояние, например, количество вносимых удобрений, вид плавки металла или номер партии деталей и т.п.

Основные предпосылки дисперсионного анализа:

1.Математическое ожидание возмущения ij равно нулю для любых і, т.е.

M(ij)=0(2)

. Возмущения ij взаимно независимы.

. Дисперсия переменной xij (или возмущения ij) постоянна для любых i,j, т.е.

D(ij )=(3)

. Переменная xij (или возмущения ij) имеет нормальный закон распределения N(0; ).

Влияние уровней фактора может быть как фиксированным, или систематическим (модель I), так и случайным (модель II).

Пусть, например, необходимо выяснить, имеются ли существенные различия между партиями изделий по некоторому показателю качества, т.е. проверить влияние на качество одного фактора - партии изделий. Если включить в исследование все партии сырья, то влияние уровня такого фактора систематическое (модель I), a полученные выводы применимы только к тем отдельным партиям, которые привлекались при исследовании; если же включить только отобранную случайно часть партий, то влияние фактора случайное (модель II). В многофакторных комплексах возможна смешанная модель III, в которой одни факторы имеют случайные уровни, а другие - фиксированные.

Рассмотрим эту задачу подробнее. Пусть имеется т партий изделий. Из каждой партии отобрано соответственно п1, п2, ..., пт изделий (для простоты полагаем, что п1=n2=...=пт=п). Значения показателя качества этих изделий представим в виде матрицы наблюдений

=( xij), (i=1, 2,…, m; j=1, 2,…, n).

Необходимо проверить существенность влияния партий изделий на их качество.

Если полагать, что элементы строк матрицы наблюдений - это численные значения (реализации) случайных величин Х1, Х2,..., Хm, выражающих качество изделий и имеющих нормальный закон распределения с математическими ожиданиями соответственно а1, а2,..., ат и одинаковыми дисперсиями , то данная задача сводится к проверке нулевой гипотезы H0: а1= а2=...= ат, осуществляемой в дисперсионном анализе.

Обозначим усреднение по какому-либо индексу звездочкой (или точкой) вместо индекса, тогда средний показатель качества изделий i-й партии, или групповая средняя для i-го уровня фактора, примет вид:

(4)

а общая средняя -

(5)

Рассмотрим сумму квадратов отклонений наблюдений xij от общей средней :

, (6)

или Q=Q1+Q2+Q3.

Последнее слагаемое

Q3=2,

так как сумма отклонений значений переменной от ее средней, т.е.

равна нулю.

Первое слагаемое можно записать в виде:

Q == n. (7)

В результате получим следующее тождество:

Q=Q1+Q2(8)

Где Q = - общая, или полная, сумма квадратов отклонений;

Q1 = n - сумма квадратов отклонений групповых средних от общей средней, или межгрупповая (факторная) сумма квадратов отклонений;

Q2 = - сумма квадратов отклонений наблюдений от групповых средних, или внутригрупповая (остаточная) сумма квадратов отклонений.

В разложении (8) заключена основная идея дисперсионного анализа. Если поделить обе части равенства (8) на число наблюдений, то получим правило сложения дисперсий. Применительно к рассматриваемой задаче равенство (8) показывает, что общая вариация показателя качества, измеренная суммой Q, складывается из двух компонент - Q1 и Q2, характеризующих изменчивость этого показателя между партиями (Q1) и изменчивость «внутри» партий (Q2), характеризующих одинаковую (по условию) для всех партий вариацию под воздействием неучтенных факторов.

В дисперсионном анализе анализируются не сами суммы квадратов отклонений, а так называемые средние квадраты, являющиеся несмещенными оценками соответствующих дисперсий, которые получаются делением сумм квадратов отклонений на соответствующее число степеней свободы.

Напомним, что число степеней свободы определяется как общее число наблюдений минус число связывающих их уравнений. Поэтому для среднего квадрата S12 , являющегося несмещенной оценкой межгрупповой дисперсии, число степеней свободы k1=m - 1, так как при его расчете используются m групповых средних, связанных между собой одним уравнением (5).

А для среднего квадрата S22, являющегося несмещенной оценкой внутригрупповой дисперсии, число степеней свободы k2=mn-m, ибо при ее расчете используются все mn наблюдений, связанны между собой m уравнениями (4). Таким образом, S12=Q1/(m-1), S22=Q2/(mn-m).

Найдем математические ожидания средних квадратов S12 и S22, подставив в их формулы выражение xij (1) через параметры модели.

M(S12) = =

= = +

+ + =

= + (9)

( = 0 с учетом свойств математического ожидания, а = n M = n = n = ).

M (S22) = = =

= = = = . (10)

Таблица 1.1. Схема дисперсионного анализа

Компонен-ты дисперсииСумма квадратовЧисло степеней свободыСредний квадратМатематическое ожидание среднего квадратаМеж-групповаяQ1=nm-1S12= =M(S12)= =+

+ (модель1)(S12) =

(модель2)

Внутри-групповаяQ2=mn-mS22= =M (S22) =ОбщаяQ=mn-1

Для модели 1 с фиксированными уровнями фактора Fi (I=1, 2,..., m) - величины неслучайные, поэтому

M(S12) =+ .

Гипотеза H0 примет вид Fi = F* (i = 1, 2,... , m), т.е. влияние всех yровней фактора одно и то же. В случае справедливости этой гипотезы

M(S12) = M(S22) =.

Для случайной модели 2 слагаемое Fi в выражении (1) - величина случайная. Обозначая ее дисперсию

, получим из (9)

M(S12) =, (11)

и, как и в модели 1, M(S22) =. В случае справедливости нулевой гипотезы H0, которая для модели 2 принимает вид =0, имеем:

M(S12) = M(S22) =.

Итак, в случае однофакторного комплекса как для модели 1, так и модели 2 средние квадраты S12 и S22 являются несмещенными и, как можно показать, независимыми оценками одной и той же дисперсии .

Следовательно, проверка нулевой гипотезы Н0 свелась к проверке существенности различия несмещенных выборочных оценок S12 и S22 дисперсии .

Гипотеза Н0 отвергается, если фактически вычисленное значение статистики F = больше критического , определенного на уровне значимости при числе степеней свободы k2=mn-m, и принимается, если F.

Применительно к данной задаче опровержение гипотезы Н0 означает наличие существенных различий в качестве изделий различных партий на рассматриваемом уровне значимости.

Замечание. Для вычисления сумм квадратов Q1, Q2, Q часто бывает удобно использовать следующие формулы:

Q1 = , (12)

Q2 = , (13)

Q =, (14)

т.е. сами средние, вообще говоря, находить не обязательно.

1.3 Двухфакторный дисперсионный анализ

Предположим, в задаче о качестве различных (т) партий изделия изготавливались на разных (l) станках и требуется выяснить, имеются ли существенные различия в качестве изделий по каждому фактору: А - партия изделий, В - станок. В результате мы приходим к задаче двухфакторного дисперсионного анализа.

Все имеющиеся данные представим в виде таблицы, в которой по строкам - уровни Аi фактора А, по столбцам - уровни bj фактора B, a в соответствующих клетках, или ячейках, таблицы находятся значения показателя качества изделий хijk (I=1, 2,…, m; j=1, 2,…, l; k=1, 2,…, n):

Таблица 1.2

B1B2…Bj…BlA1x111,…,x11kx121,…,x12k…x1j1,…, x1jk…x1l1,…, x1lkA2x211,…,x21kx221,…,x22k…x2j1,…, x2jk…x2l1,…, x2lk…………………Aixj11,…,xi1kxi21,…,xi2k…xij1,…, xijk…xil1,…, xilk…………………Amxm11,…,xm1kxm21,…,xm2k…xmj1,…, xmjk…xml1,…, xmlk

Двухфарторная дисперсионная модель имеет вид:

xijk = + Fi + Gj + Iij + ,(15)

где xijk - значение наблюдения в ячейке ij с номером k;

- общая средняя;

Fi - эффект, обусловленный влиянием i-го уровня фактора А;

Gj - эффект, обусловленный влиянием j-го уровня фактора В;

Iij - эффект, обусловленный взаимодействием двух факторов, т.е. отклонение от средней по наблюдениям в ячейке ij от суммы первых трех слагаемых в модели (15);

- возмущение, обусловленное вариацией переменной внутри отдельной ячейки.

Полагаем, что имеет нормальный закон распределения N(0; ) , а все математические ожидания F*, G*, Ii*, I*j равны нулю.

Групповые средние находятся по формулам:

в ячейке -

, (16)

по строке -

,(17)

по столбцу -

.(18)

Общая средняя

.(19)

Таблица дисперсионного анализа имеет вид:

Таблица 1.3

Компоненты дисперсииСумма квадратовЧисло степеней свободыСредние квадратыМежгрупповая (фактор А)Q1=lnm-1Межгрупповая (фактор В)Q2=mnl-1ВзаимодействиеQ3=n(m-1)(l-1)ОстаточнаяQ4=mln-mlОбщаяQ5=mln-1Можно показать, что проверка нулевых гипотез HA, HB, HAB об отсутствии влияния на рассматриваемую переменную факторов А, В и их взаимодействия АВ осуществляется сравнением отношений S12/S42, S22/S42, S32/S42 (для модели I с фиксированными уровнями факторов) или отношений S12/S32, S22/S32, S32/S42 (для случайной модели II) с соответствующими табличными значениями F-критерия Фишера- Снедекора. Для смешанной модели III проверка гипотез относительно факторов с фиксированными уровнями проводится так, как в модели II, а факторов со случайными уровнями - как в модели I.

Если n=1, т.е. при одном наблюдении в ячейке, то не все нулевые гипотезы могут быть проверены, так как выпадает компонента Q3 из общей суммы квадратов отклонений, а с ней и средний квадрат S32, ибо в этом случае не может быть речи о взаимодействии факторов.

Замечание. С точки зрения техники вычислений для нахождения сумм квадратов Q1, Q2, Q3, Q4, Q целесообразнее использовать формулы:

Q1 = , (20)

Q2 = , (21)

Q4 = , (22)

Q = . (23)

В заключение отметим, что при решении реальных задач методом дисперсионного анализа используются статистические программные пакеты.

Отклонение от основных предпосылок дисперсионного анализа - нормальности распределения исследуемой переменной и равенства дисперсий в ячейках (если оно, не чрезмерное) - не сказывается существенно на результатах дисперсионного анализа при равном числе наблюдений в ячейках, но может быть очень чувствительно при неравном их числе. Кроме того, при неравном числе наблюдений в ячейках резко возрастает сложность аппарата дисперсионного анализа. Поэтому рекомендуется планировать схему с равным числом наблюдений в ячейках, а если встречаются недостающие данные, то возмещать их средними значениями других наблюдений в ячейках. При этом, однако, искусственно введенные недостающие данные не следует учитывать при подсчете числа степеней свободы.

2. Программное обеспечение

2.1 Использование INTERNET и компьютера

Все три компьютерных пакета (SPSS, SAS, BMDP) имеют возможности для проведения дисперсионного анализа. Дополнительно к основному анализу, эти программы могут выполнять более сложный анализ. Minitab и Excel также предлагают некоторые программы для этой цели. Приведем описание соответствующих программ.

Можно эффективно выполнить однофакторный дисперсионный анализ (ANOVA), используя программу ONEWAY. Эта программа также позволяет проверить априорные и апостериорные контрасты. Для выполнения многофакторного дисперсионного анализа используем ANOVA. Для полного дисперсионного анализа, включая повторные измерения или множественные зависимые измерения, рекомендуется процедура MANOVA. Для неметрического дисперсионного анализа, включая медианный тест к-выборок и однофакторный дисперсионный анализ Краскела-Уоллеса (Kruskal-Wallis), следует использовать программу NPAR TESTS.

Основная программа для выполнения дисперсионного анализа в случае сбалансированного плана - ANOVA. Она обрабатывает данные из широкого диапазона экспериментальных планов, включая многомерный дисперсионный анализ и повторные измерения. Можно проверить как априорные, так и апостериорные контрасты. Для несбалансированных планов используется более общая GLM-процедура. Эта программа выполняет следующий анализ: дисперсионный, дисперсионный с повторными измерениями и множественный дисперсионный, а также проверяет априорные и апостериорные контрасты. Хотя программа GLM используется и для анализа сбалансированных планов, она не настолько эффективна для таких моделей, как программа ANOVA. Процедура VARCOMP вычисляет компоненты дисперсии. Для неметрического дисперсионного анализа используем NPAR1WAY.

Для однофакторного дисперсионного анализа используем программу P1V. Однако более общей моделью является программа P2V, которая выполняет дисперсионный анализ для множества моделей эксперимента с фиксированными уровнями факторов. Она также может обрабатывать повторные измерения, сбалансированные и несбалансированные планы. P4V, являясь более совершенной программой, может выполнять многомерный дисперсионный анализ, в том числе и анализ комплексных экспериментальных планов. Другой специализированной программой является P3V, которая использует метод максимального правдоподобия для анализа моделей с фиксированными и случайными коэффициентами. Она подходит как для сбалансированных, так и несбалансированных планов. P8V является общей моделью, которая выполняет дисперсионный анализ для любого полного плана с ячейками одинакового размера. Непараметрический дисперсионный анализ можно выполнить с помощью программы P3S. И наконец, программа P7D, кроме создания гистограмм, может выполнять однофакторный дисперсионный анализ.

Дисперсионный анализ можно выполнить с помощью функции Stats>ANOVA. Она выполняет однофакторный ANOVA, однофакторный невложенный (unstacked) ANOVA, двухфакторный ANOVA, анализ средних, сбалансированный ANOVA, общую линейную модель, построение графика главных эффектов, графика взаимодействия и графиков остатков. Для вычисления среднего и стандартного отклонений применима функция кросстабулирования. Для получения F и р значений используйте сбалансированный ANOVA.

2.2 Применение Excel

С помощью функции Tools>Data Analysis (Сервис>Анализ данных) можно выполнить как однофакторный, так и двухфакторный ANOVA. Двухфакторный ANOVA имеет возможности двухфакторного анализа с повторением и без повторения. Двухфакторный анализ с повторением содержит несколько выборок для каждой группы данных.

Пакет анализа включает в себя три средства дисперсионного анализа. Выбор конкретного инструмента определяется числом факторов и числом выборок в исследуемой совокупности данных.

Однофакторный дисперсионный анализ

Однофакторный дисперсионный анализ используется для проверки гипотезы о сходстве средних значений двух или более выборок, принадлежащих одной и той же генеральной совокупности. Этот метод распространяется также на тесты для двух средних (к которым относится, например, t-критерий).

Параметры диалогового окна "Однофакторный дисперсионный анализ"

Входной диапазон

Ссылка на диапазон, содержащий анализируемые данные. Ссылка должна состоять не менее чем из двух смежных диапазонов данных, данные в которых расположены по строкам или столбцам.

Группирование

Установите переключатель в положение По столбцам или По строкам в зависимости от расположения данных во входном диапазоне.

Метки в первой строке/Метки в первом столбце

Если первая строка исходного диапазона содержит названия столбцов, установите переключатель в положение Метки в первой строке. Если названия строк находятся в первом столбце входного диапазона, установите переключатель в положение Метки в первом столбце. Если входной диапазон не содержит меток, то необходимые заголовки в выходном диапазоне будут созданы автоматически.

Альфа

Введите уровень значимости, необходимый для оценки критических параметров F-статистики. Уровень альфа связан с вероятностью возникновения ошибки типа I (опровержение верной гипотезы).

Выходной диапазон

Введите ссылку на ячейку, расположенную в левом верхнем углу выходного диапазона. Размеры выходной области будут рассчитаны автоматически, и соответствующее сообщение появится на экране в том случае, если выходной диапазон занимает место существующих данных или его размеры превышают размеры листа.

Новый лист

Установите переключатель, чтобы открыть новый лист в книге и вставить результаты анализа, начиная с ячейки A1. Если в этом есть необходимость, введите имя нового листа в поле, расположенном напротив соответствующего положения переключателя.

Новая книга

Установите переключатель, чтобы открыть новую книгу и вставить результаты анализа в ячейку A1 на первом листе в этой книге.

Двухфакторный дисперсионный анализ с повторениями

Представляет собой более сложный вариант однофакторного анализа, включающее более чем одну выборку для каждой группы данных.

Параметры диалогового окна "Двухфакторный дисперсионный анализ с повторениями"

Входной диапазон

Число строк на выборку

Введите число строк, содержащихся в одной выборке. Поскольку каждая строка представляет повторение данных, то каждая выборка должна содержать одно и тоже количество строк.

Альфа

Выходной диапазон

Новый лист

Новая книга

Двухфакторный дисперсионный анализ без повторения

Представляет собой двухфакторный анализ дисперсии, не включающий более одной выборки на группу. Используется для проверки гипотезы о том, что средние значения двух или нескольких выборок одинаковы (выборки принадлежат одной и той же генеральной совокупности). Этот метод распространяется также на тесты для двух средних, такие как t-критерий.

Параметры диалогового окна "Двухфакторный дисперсионный анализ без повторения"

Входной диапазон

Заголовки

Снимите флажок, если входной диапазон не содержит названий строк или столбцов, в этом случае подходящие заголовки в выходном диапазоне будут созданы автоматически.

Альфа

Выходной диапазон

Новый лист

Новая книга

3. Примеры использования методов

Рассмотрим выше изложенный материал в ходе эксперимента в сети супермаркетов. Цель эксперимента - изучить влияние уровня рекламы товаров непосредственно в самом магазине и распродажи на объем продаж. Маркетологи использовали три уровня рекламы товаров в магазине: высокий, средний и низкий. У купонной распродажи было два уровня. Купон на 5% скидку либо давали потенциальным покупателям, либо не давали. Тридцать магазинов были выбраны случайным образом, и для каждой комбинации условий эксперимента случайным образом взяли по пять магазинов. Эксперимент продолжался месяц. Определили объем продаж в каждом магазине, нормализовали его, приняв во внимание посторонние факторы (размер магазина, товарооборот и т.д.) и пересчитали по десятибалльной шкале. Полученные данные приведены в табл. 3.1 на следующей странице.

Таблица 3.1. Уровень распродажи (скидки), реклама товаров на месте купли-продажи и продажи

Номер магазинаУровень распродажи (скидки)Уровень внутримагазинной рекламыУровень продаж1ЕстьВысокий102ЕстьВысокий93ЕстьВысокий104ЕстьВысокий85ЕстьВысокий96ЕстьСредний87ЕстьСредний88ЕстьСредний79ЕстьСредний910ЕстьСредний611ЕстьНизкий512ЕстьНизкий713ЕстьНизкий614ЕстьНизкий415ЕстьНизкий516НетВысокий817НетВысокий918НетВысокий719НетВысокий720НетВысокий621НетСредний422НетСредний523НетСредний524НетСредний625НетСредний426НетНизкий227НетНизкий328НетНизкий229НетНизкий130НетНизкий2

3.1 Применение однофакторного дисперсионного анализа

Проиллюстрируем применение однофакторного анализа вначале с вычислениями, сделанными вручную, а затем с использованием компьютера. Предположим, что мы оперировали только одним фактором, а именно, рекламой на месте торговли, т.е. чтобы показать процесс вычисления, проигнорируем второй фактор - купонную распродажу.

Таблица 3.2. Влияние уровня внутримагазинной рекламы на уровень продаж

Номер магазинаУровень внутримагазинной рекламыВысокийСреднийНизкийНормированные продажи1108529873107648945965684279538752976110642Сумма836237Групповые средние83/10=8,362/10=6,237/10=3,7Общее среднее(83+62+37)/30=6,067

Маркетологи пытались определить влияние внутримагазинной рекламы товаров на продажи. Чтобы показать процесс вычисления с помощью калькулятора, данные табл. 3.1 преобразованы в табл. 3.2, где приведены продажи для каждого уровня рекламы. Нулевая гипотеза утверждает, что групповые средние равны: Но: = = .

Имеем m = 3, n = 10 . Найдем среднее значение продаж по супермаркетам для каждого уровня внутримагазинной рекламы по формуле (4):

= (10 + 9 + 10+ 8 + 9 + 8 + 9 + 7 + 7 + 6) / 10 = 8,3,

= (8 + 8 + 7 + 9 +6 + 4 + 5 + 5 + 6 + 4) / 10 = 6,2,

= (5 + 7 + 6 + 4 + 5 + 2 + 3 + 2 + 1 + 2)/ 10 = 3,7,

Найдем среднее значение продаж по всем отобранным супермаркетам по формуле (5) и результаты занесем в таблицу 3.2:

= (10 + 9 + 10 + … + 2 + 1 + 2) / 30 = 6,067,

или, иначе, через групповые средние,

= (83 + 62 + 37) / 30 = 6,067.

Вычислим суммы квадратов отклонений по формулам (5), (7):

Q1 = 10 = 10 [(8,3 - 6,067)2+ (6,2 - 6,067)2+ (3,7 - 6,067)2] = 106,067

Q2 = = (10 - 8,3)2 + (9 - 8,3)2 + (10 - 8,3)2 + (8 - 8,3)2 + (9 - 8,3)2 +

+ (8 - 8,3)2 + (9 - 8,3)2 + (7 - 8,3)2 + (7 - 8,3)2 + (6 - 8,3)2 + (8 - 6,2)2 + (8 - 6,2)2 +

+ (7 - 6,2)2 + (9 - 6,2)2 + (6 - 6,2)2 + (4 - 6,2)2 + (5 - 6,2)2 + (5 - 6,2)2 + (6 - 6,2)2 +

+ (4 - 6,2)2 + (5 - 3,7)2 + (7 - 3,7)2 + (6 - 3,7)2 + (4 - 3,7)2 + (5 - 3,7)2 + (2 - 3,7)2 +

+ (3 - 3,7)2 + (2 - 3,7)2 + (1 - 3,7)2 + (2 - 3,7)2 =79,80

Q == (10 - 6,067)2 + (9 - 6,067)2 + (10 - 6,067)2 + (8 - 6,067)2 +

+ (9 - 6,067)2 + (8 - 6,О67)2 + (9 - 6,067)2 + (7 - 6,067)2 + (7 - 6,067)2 + (6 - 6,067)2 +

+ (8 - 6,067)2 + (8 - 6,067)2 + (7 - 6,067)2 + (9 - 6,067)2 + (6 - 6,067)2 + (4 - 6,067)2 +

+ (5 - 6,067)2 + (5 - 6,067)2 + (6 - 6,067)2 + (4 - 6,067)2 + (5 - 6,О67)2 + (7 - 6,067)2 +

+ (6 - 6,О67)2 + (4 - 6,067)2 + (5 - 6,067)2 + (2 - 6,067)2 + (3 - 6,067)2 +(2 - 6,067)2 +

+ (1 - 6,067)2 + (2 - 6,067)2 =185,867

Соответствующее число степеней свободы для этих сумм m-1= 3-1= 2,

mn-m = 3*10-3 = 27, mn-1 = 3*10-1 = 29.

Результаты расчета сведем в таблицу 3.3:

Компоненты дисперсииСуммы квадратовЧисло степеней свободыСредние квадратыМежгрупповая106,067253,033Внутригрупповая79,80272,956Общая185,86729

Можно утверждать, что Q = Q1 + Q2:

,867 = 106,067 + 79,80.

Фактически наблюдаемое значение статистики F=. По таблице в приложении критическое значение F-критерия Фишера - Снедекора на уровне значимости при k1=2 и k2=27степенях свободы F0,05;2;27=3,35. Поскольку вычисленное значение F-статистики больше критического, мы отклоняем нулевую гипотезу. Заключаем, что средние значения совокупностей для трех уровней внутримагазинной рекламы товаров действительно различаются между собой. Сравнение средних для трех категорий показывает, что высокий уровень рекламы ведет к существенно более высоким продажам.

Замечание. С точки зрения техники вычисления сумм Q1, Q2, Q проще воспользоваться формулами (12) - (14), не требующими вычисления средних. Так, вычислив

10 + 8 + … + 4 + 2 = 182,

102 + 82 + … + 42 + 22 = 1290,

(10 + … + 6)2 + (8 + … + 4) + (5 + … + 2)2 = 12102,

Найдем

Q1 = 12102/ 10 - 1822/30 = 106,067,

Q2 = 1290 - 12102/10 = 79,8,

Q = 1290 - 1822/30 = 185,867.

Теперь проиллюстрируем процедуру выполнения дисперсионного анализа с помощью компьютерной программы. Результаты выполнения анализа на компьютере:

Значение Q1, указывающее на главные эффекты (систематические), равно 106,067 для двух степеней свободы; значение Q2, указывающее на остаточные эффекты, равно 79,80 для 27 степеней свободы. Следовательно, значения средних квадратов соответственно равны MS1= 106,067/2 = 53,033 и MS2= 79,80/27 = 2,956. Значение F = 53,033/2,956 = 17,944 при 2 и 27 степенях свободы приводит к вероятности, равной 1,10362E-05 (0,000). Так как соответствующая вероятность меньше, чем уровень значимости, равный 0,05, то нулевую гипотезу о равенстве средних в совокупности отклоняют. Критическое значение F для 2 и 27 степеней свободы равно 3,35. Поскольку вычисленное значение F (17,944) больше критического, то нулевую гипотезу отклоняют. Данные табл. 1.4 показывают, что выборочные средние, равные 8,3; 6,2 и 3,7, совершенно различны.

3.2 Применение двухфакторного дисперсионного анализа

Иллюстрация применения двухфакторного дисперсионного анализа. Возвратившись к данным табл. 3.1, изучим эффекты, обусловленные влиянием уровня внутримагазинной рекламы и уровня купонной распродажи на уровень продаж супермаркетов.

Таблица 3.4. Влияние уровня внутримагазинной рекламы и купонной распродажи на продажи

Уровень распродажи (скидки)Уровень внутримагазинной рекламыВысокийСреднийНизкийНормированные продажи Есть10 9 10 8 98 8 7 9 65 7 6 4 5 Нет8 9 7 7 64 5 5 6 42 3 2 1 2

Имеем m = 2, l = 3, n = 5. Определим среднее значение продаж:

в ячейках - по (16): (10 + 9 + 10 + 8 + 9) / 5 = 9,2 и аналогично 7,6, 5,4, 7,4, 4,8, 2;

по строкам - по (17): (9,2 + 7,6 + 5,4) / 3 = 7,4 и аналогично 4,8;

по столбцам - по (18): (9,2 + 7,4) / 2 = 8,3 и аналогично 6,2, 3,7.

Общий средний уровень продаж - по (19):

(9,2 + 7,6 + 5,4 + 7,4 + 4,8 + 2) / 6 = 6,067

Все средние значения уровня продаж поместим в таблицу 3.5:

Уровень распродажи (скидки)Уровень внутримагазинной рекламыВысокийСреднийНизкийНормированные продажиЕсть9,27,65,4 7,4Нет 7,44,8 2 4,8 8,36,23,76,067

Из таблицы 3.5. следует, что с увеличением уровня внутримагазинной рекламы и при наличии распродажи (скидок) уровень продаж в среднем увеличивается. Но является ли эта тенденция достоверной или объясняется случайными причинами? Для ответа на этот вопрос по формулам таблицы 1.3. вычислим необходимые суммы квадратов отклонений:

Q1 = 3*5 ((7,4 - 6,067)2 + (4,7 - 6,067)2) = 53,333;

Q2 = 2*5 ((8,3 - 6,067)2 + (6,2 - 6,067)2 + (3,7 - 6,067)2) = 106,067;

Q3 = 5 ((9,2 - 7,4 - 8,3 + 6,067)2 + … + (2 - 4,7 - 3,7 + 6,067)2) = 3,27;

Q4 = (10 - 9,2)2 + … + (9 - 9,2)2 + (8 - 7,6)2 + … + (6 - 7,6)2 + (5 - 5,4)2 +…+ + (5- 5,4)2 + (8 - 7,4)2 + … + (6 - 7,4)2 + (4 - 4,8)2 + … + (4 - 4,8)2 +(2 - 2)2 + … + + (2 - 2)2 = 23,2;

Q = (10 - 6,067)2 + … + (2 - 6,067)2 = 185,867.

Средние квадраты находим делением полученных сумм на соответствующее им число степеней свободы m-1=2-1=1, l-1=3-1=2, (m-1)(l-1)=(2-1)(3-1)=2, mln-ml=2*3*5-2*3 =24, mln=2*3*5=30.

Результаты расчета сведем в таблицу 3.6:

Компоненты дисперсииСумма квадратовЧисло степеней свободыСредние квадратыМежгрупповая (фактор А)Q1=53,333 1Межгрупповая (фактор В)Q2= 106,0672ВзаимодействиеQ3=3,272ОстаточнаяQ4=23,224ОбщаяQ=185,86730

Очевидно, данные факторы имеют фиксированные уровни, т.е. мы находимся в рамках модели 1. Поэтому для проверки существенности влияния факторов А, В и их взаимодействия АВ необходимо найти отношения:

FA=; FB=; FAB=

и сравнить их с табличными значениями (см. таблицу приложения) соответственно F0,05;1;24 = 4,26, F0,05;2;24 = 3,4 , F0,05;2;24 = 3,4. Так как FA > F0,05;1;24, FB > F0,05;2;24, то влияние наличия распродажи (фактора А) и уровня внутримагазинной рекламы (фактора В) является существенным. В силу того, что FAB < F0,05;2;24, взаимодействие указанных факторов незначимо (на 5%-ном уровне).

Замечание. С точки зрения техники вычислений для нахождения сумм квадратов Q1, Q2, Q3, Q4, Q целесообразнее использовать формулы (20) - (24).

10 + 9 + … + 1 + 2 = 182;

102 + 92 + … + 12 + 22 = 1290;

(10 + 9 +… + 4 + 5)2 + (8 + 9 +…+ 1 + 2)2 = 17362;

(10 + 9 + …+ 7 + 6)2 + (8 + 8 +…+ 6 + 4)2 + (5 + 7 +…+ 1 + 2)2 = 12102;

(10 +…+ 9)2 +…+ (2 +…+ 2)2 = 6334,

и по формулам (20) - (24):

Q1 =17362/(3*5)-1822/(2*3*5) = 53,333;

Q2 = 12102/10 - 1822/30 = 106,067;

Q4 = 1290 - 6334/5 = 23,2;

Q = 1290 - 1822/30 = 185,867;

Q3 = 185,867 - 53,333 - 106,067 - 23,2 = 3,27.

Результаты выполненного на компьютере обсчета дисперсионного анализа приведены выше. Для главного эффекта, вызванного влиянием уровня внутримагазинной рекламы, сумма квадратов, число степеней свободы и средний квадрат те же, что и в табл. 3.6. Значит, влияние наличия распродажи (фактора А) и уровня внутримагазинной рекламы (фактора В) является существенным, но взаимодействие указанных факторов незначимо (на 5%-ном уровне).

Вывод

Когда генеральные совокупности распределены нормально и имеют одинаковую, хотя и неизвестную, дисперсию; математические ожидания также неизвестны и могут быть различными, тогда требуется при заданном уровне значимости по выборочным средним проверить нулевую гипотезу о равенстве всех математических ожиданий. Другими словами, требуется установить, значимо или незначимо различаются выборочные средние. Казалось бы, для сравнения нескольких средних можно сравнить их попарно. Однако с возрастанием числа средних возрастает и наибольшее различие между ними: среднее новой выборки может оказаться больше наибольшего или меньше наименьшего из средних, полученных до нового опыта. По этой причине для сравнения нескольких средних пользуются другим методом, который основан на сравнении дисперсий и поэтому назван дисперсионным анализом.

На практике в данной курсовой работе мы применили дисперсионный анализ, чтобы установить, оказывает ли существенное влияние некоторый качественные факторы А и В на изучаемую величину.

Основная идея дисперсионного анализа состоит в сравнении «факторной дисперсии», порождаемой воздействием фактора, и «остаточной дисперсии», обусловленной случайными причинами. Если различие между этими дисперсиями значимо, то фактор оказывает существенное влияние; в этом случае средние наблюдаемых значений на каждом уровне (групповые средние) различаются также значимо. Если уже установлено, что фактор существенно влияет, а требуется выяснить, какой из уровней оказывает наибольшее воздействие, то дополнительно производят попарное сравнение средних..

Итак, для того чтобы проверить нулевую гипотезу о равенстве групповых средних нормальных совокупностей с одинаковыми дисперсиями, достаточно проверить по критерию F нулевую гипотезу о равенстве факторной и остаточной дисперсий. В этом и состоит метод дисперсионного анализа.

Список литературы

1.Гихман И. И. и др. Теория вероятностей и математическая статистика/ И. И. Гихман, А. В. Скороход, М. И. Ядренко. - 2-е изд., перераб. и доп. - К.: Высшая шк. - Головное изд-во, 1988 - 439 с.: ил.

2.Гмурман В.Е. Теория вероятностей и математическая статистика. Учеб. пособие для вузов. Изд. 7-е, стер. - М.: Высш. шк., 2000 - 479с.: ил.

.Крамер Г. Математические методы статистики. - М.: Мир, 1975. - 648 с.

.Кремер Н. Ш. Теория вероятностей и математическая статистика : Учебник для вузов. - М.: ЮНИТИ-ДАНА, 2003 - 534 с.

.Малхотра, Нэреш К. Маркетинговые исследования. Практическое руководство, 3-е издание: Пер. с англ. - М.: Издательский дом «Вильямс», 2003. - 960 с.: ил.

.Теория вероятностей и математическая статистика Пугачев В. С. - М.: Наука. Главная редакция физико-математической литература, 1979.

Теги: Применение методов математической статистики (дисперсионный анализ) и программного продукта (Excel) в маркетинге Курсовая работа (теория) Математика
Просмотров: 32252
Найти в Wikkipedia статьи с фразой: Применение методов математической статистики (дисперсионный анализ) и программного продукта (Excel) в маркетинге

Становись умнее

Применение методов математической статистики (дисперсионный анализ) и программного продукта (Excel) в маркетинге

Репетиторство