Основные понятия математической статистики


Курсовая работа

Дисциплина "Теория вероятностей и математическая статистика"

Содержание


Введение

Точечные оценки параметров статистических распределений

Интервальные оценки параметров распределения

Практическая часть

Построение гистограммы

Построение эмпирической функции

Вычисление средних величин (средней величины, дисперсии, среднеквадратического отклонения

Вычисление моды

Вычисление медианы

Вычисление асимметрии

Вычисление эксцесса

Проверка гипотезы о нормальном распределении

Задания

Заключение

Список литературы


Введение


Математическая статистика - наука о математических методах систематизации и использования статистических данных для научных и практических выводов.

Во многих своих разделах математическая статистика опирается на теорию вероятностей, позволяющую оценить надёжность и точность выводов, делаемых на основании ограниченного статистического материала (например: оценить необходимый объём выборки для получения результатов требуемой точности при выборочном обследовании).

Совокупность всех изучаемых объектов называется генеральной совокупностью.

Выборочной совокупностью (выборкой) - называется совокупность объектов, выбранных из генеральной совокупности случайным образом. Число объектов (наблюдений) генеральной совокупности или выборки называется объемом выборки. Обозначается n.

Выборка должна быть репрезентативной (представительной), то есть она должна сохранять основные черты генеральной совокупности, а не искажать их. Условием представительности является то, что каждый объект выборки выбирается случайным образом независимо от предыдущих.

Точечные оценки параметров статистических распределений


Точечной называют оценку параметра, которая определяется одним числом.

Генеральной средней называется среднее взвешенное всех значений генеральной совокупности, определяется по формуле:



где к - количество интервалов статических распределений

Выборочной средней называют среднее арифметическое значение признака выборочной совокупности.



где к - количество интервалов статических распределений

Генеральной дисперсией Dг называют среднее арифметическое квадратов отклонений значений признака генеральной совокупности от их среднего значения.



Генеральным средним квадратическим отклонением (стандартом) называют квадратный корень из генеральной дисперсии:



Выборочной дисперсией называют среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения.



Выборочным средним квадратическим отклонением называют квадратный корень из выборочной дисперсии:



Выборочная дисперсия является смещенной оценкой генеральной дисперсии, т.е. математическое ожидание выборочной дисперсии не равно оцениваемой генеральной дисперсии, а равно



Для исправления выборочной дисперсии достаточно умножить ее на дробь



получим исправленную дисперсию S2. Исправленная дисперсия является несмещенной оценкой.

Коэффициент асимметрии Аs* статического распределения равен



где m3-центральный момент 3-го порядка.

Эксцесс Ех* статического распределения равен



где m4-центральный момент 4-го порядка.


Интервальные оценки параметров распределения


Интервальной называют оценку, которая определяется двумя числами-концами интервала. Интервальные оценки позволяют установить точность и надежность оценок.

Мода и медиана

Мода Мо для дискретного ряда - это значение признака, наиболее часто встречающееся у единиц исследуемой совокупности. В интервальном вариационном ряду модой приближенно считается центральное значение модального интервала (имеющего наибольшую частоту).

Конкретное значение моды для интервального ряда рассчитывается по формуле:



где - нижняя граница модального интервала,

- величина модального интервала,

- частота модального интервала,

- частота интервала, предшествующего модальному,

- частота интервала, следующего за модальным.

Медиана Ме - это значение признака, приходящееся на середину ранжированного ряда. По обе стороны от медианы находится одинаковое количество единиц совокупности.

Конкретное значение медианы для интервального ряда рассчитывается по формуле:


,


где хМе - нижняя граница медианного интервала,

h - величина медианного интервала,

- сумма всех частот,

fМе - частота медианного интервала,

SMе-1 - кумулятивная (накопленная) частота интервала, предшествующего медианному.

Постановка задачи


Таблица 1.

Величина, Количество

элементов, 123611421827216613262

В результате собственно-случайного бесповторного отбора элементов из общей совокупности получены следующие данные о величине признака в регионе (где номер по списку в журнале преподавателя).

Все интервалы в таблице равной длины, т.е. ai+1=ai+h, величина h=2,5; a0=5+n

Построить гистограмму и эмпирическую функцию распределения величины признака по данным выборки.

Вычислить: среднюю величину признака , медиану, моду, дисперсию, среднее квадратическое отклонение, ассиметрию, эксцесс.

Найти:

а) вероятность того, что среднее значение полученное в выборке, отличается от среднего значения этого признака для всего региона, не более чем на 0,15+n0,01;

б) границы, в которых с вероятностью 0,75+n0,01 заключено среднее значение признака в регионе;

в) границы, в которых с вероятностью 1-n0,015 заключена доля тех элементов общей совокупности, имеющих величину признака не менее a5;

г) границы, в которых с вероятностью 1-n0,015 заключена доля тех элементов общей совокупности, имеющих величину признака менее a2;

д) необходимый объем выборки, чтобы с вероятностью 0,8+n0,01 предельная ошибка выборки при определении среднего значения признака в регионе не превышала 0,1+n0,015;

математическая статистика распределение величина

Практическая часть


Построение гистограммы


Для построения гистограммы и эмпирической функции распределения признака составим расчетную таблицу 2.


Таблица 2

Интервалы групп ai-ai+1Частоты niЧастости wiПлотности fiНакопленные частости si11-13,5360,0360,01440,03613,5-161140,1140,04560,1516-18,52180,2180,08720,36818,5-212720,2720,010880,6421-23,51660,1660,06640,80623,5-261320,1320,05280,93826-28,5620,0620,02481,0Всего10001--

По столбцам Интервал групп ai-ai+1 и плотности fi построим диаграмму


Построение эмпирической функции


Эмпирической функцией распределения называют функцию, определяющую для каждого значения Х относительную частоту события Х<х, т.е.


[1}


Эмпирическая функция обладает всеми свойствами F (х):

. Ее значения принадлежат отрезку [0; 1],

. Неубывающая,

. Еcли хi - наименьшая варианта, то F (х) =0, при х?х1, если хk - наибольшая варианта, то F (х) = 1, при х>хk.

Если результаты наблюдений представлены в виде интервального вариационного ряда, то в качестве х принимают концы частичных интервалов.

По данным столбца Накопленные частости si. Построим диаграмму. При этом имеем следующие значения si и концов интервала ai-ai+1


Таблица 3

аi1113,51618,52123,52628,5si00,0360,150,3680,640,8060,9381,0


График эмпирической функции для интервального вариационного ряда есть непрерывная линия.


Вычисление средних величин (средней величины, дисперсии, среднеквадратического отклонения


При расчете средней арифметической для интервального вариационного ряда сначала определяют среднюю для каждого интервала, как полусумму верхней и нижней границ, а затем - среднюю всего ряда.

Средние, вычисляемые из интервальных рядов являются приближенными.

Для вычисления средних характеристик выборочной совокупности составим таблицу 2.


Таблица 4

Интервалы групп аi-ai+1Середины Интервалов хiЧастоты niхiniхi2ni11-13,512,25364415402,2513,5-1614,751141681,524802,12516-18,517,252183760,564868,62518,5-2119,75272537210609721-23,522,251663693,582180,37523,5-2624,75132326780858,2526-28,527,25621689,546038,875Всего100019905410247,5

Дисперсия случайной величины есть характеристика рассеивания, разбросанности значений случайной величины около её математического ожидания. Само слово "дисперсия" означает "рассеивание".

Выборочную среднюю и выборочную дисперсию вычислим по формулам:


{2}

{3}

Дисперсия D=- (х) 2=410,2475- (19,905) 2=14,038 {4}


Среднеквадратическим отклонением случайной величины Х называется корень квадратный из дисперсии этой величины:


{5}


Тогда среднее квадратическое отклонение



Вычисление моды


Мода - это наиболее часто встречающийся вариант ряда. Модой для дискретного ряда является варианта, обладающая наибольшей частотой. При вычислении моды для интервального вариационного ряда необходимо сначала определить модальный интервал (по максимальной частоте), а затем - значение модальной величины признака по формуле:


{6}


где:

§ - значение моды

§ - нижняя граница модального интервала

§ - величина интервала

§ - частота модального интервала

§ - частота интервала, предшествующего модальному

§ - частота интервала, следующего за модальным


интервалыКол-во, элементовСумма накопленных частот11-13,5363613,5-1611415016-18,521836818,5-21272640Модальный интервал21-23,516680623,5-2613293826-28,5621000итого1000

В данной задаче модальный интервал находится в пределах интервала 18,5-21, так как на этот интервал приходится наибольшая частота (272).

Рассчитаем величину моды:



Вычисление медианы


Медиана - это значение признака, которое лежит в основе ранжированного ряда и делит этот ряд на две равные по численности части, для определения медианы в дискретном ряду при наличии частот сначала вычисляют полусумму частот


{7}


а затем, определяют, какое значение варианта приходится на нее. Если отсортированный ряд содержит нечетное число признаков, то номер медианы вычисляют по формуле:


{8}


В случае четного числа признаков медиана будет равна средней из двух признаков находящихся в середине ряда.

При вычислении медианы для интервального вариационного ряда сначала определяют медианный интервал, в пределах которого находится медиана, а затем - значение медианы по формуле:


{9}


где:

§ - искомая медиана

§ - нижняя граница интервала, который содержит медиану

§ - величина интервала

§ - сумма частот или число членов ряда

§ - сумма накопленных частот интервалов, предшествующих медианному

§ - частота медианного интервала

Вычислим медиану. Медианный интервал находится в интервале 18,5-21, так как в пределах этого интервала расположена варианта, которая делит совокупность на две равные части . Далее подставляем в формулу необходимые числовые данные и получаем значение медианы:



Вычисление асимметрии


Симметричные распределения характеризуются следующим свойством: частоты любых двух вариант, равноотстоящих от центра распределения, равны между собой. Рассчитанные для таких распределений средняя (), мода (Мо) и медиана (Ме) также равны.

Таким образом, простейший показатель ассиметрии определяется соотношением этих величин: чем больше по модулю разность или , тем больше асимметрия распределения. При правосторонней ассиметрии имеем: , при левосторонней асимметрии, соответственно , для нормального распределения характерно свойство симметричности

Для сравнительного анализа асимметрии распределений вычисляется относительный показатель вида: или, характеризующий направление и степень асимметрии (при K>0 - правосторонняя, при K<0 - левосторонняя)


т.к. 19,34<19.7<19.905 - правосторонняя асимметрия.

KAS = (19,905-19,34) /3,75= 0,15 0,15>0 - правосторонняя асимметрия.


Наиболее применяемым показателем асимметрии распространения является коэффициент асимметрии


, {10}


где

где М 3 - центральный момент третьего порядка



Вычисление эксцесса


Показатель эксцесса распределения (Eх) определяется по формуле


, {11}


где

- центральный момент четвертого порядка


{12}


Эксцесс указывает на островершинность (плосковершинность) распределения по отношению к кривой нормального распределения: для нормального распределения Eх=0; если Eх >0, то распределение является более островершинным, чем кривая нормального распределения; если Eх<0, то менее островершинным, чем нормальное распределение, или плосковершинным.


Проверка гипотезы о нормальном распределении


Критерием согласия называют критерий проверки гипотезы о предполагаемом законе неизвестного распределения. Имеется несколько критериев согласия: Пирсона, Колмагорова, Смирнова

Расчет коэффициента вариации:


{13}

В итоге получим .


По таблице критических точек распределения , по уровню значимости =0,05 и числу степеней свободы 7-3=4 находим



Т.к. , 8,8<9,5 экспериментальные данные не противоречат гипотезе о нормальном распределении случайной величины .


Задания


Найти:

а) вероятность того, что среднее значение , полученное в выборке, отличается от среднего значения этого признака для всего региона, не более чем на

Решение:

а) Доверительная вероятность ? равна:


{14}

где


Предельная ошибка выборки по условию ? = 0,21, дисперсия = 14,308, n=1000, N=6666. Следовательно,



Из таблицы значений функции Лапласа имеем Ф (1,909) =0,471865. Тогда


Y= 2*0,471865=0,94373.


б) границы, в которых с вероятностью заключено среднее значение признака в регионе;

Среднее значение признака ? в регионе М? удовлетворяет неравенству:



причем = 19,905, а ? равно:



t? соответствует значению Ф (t?) =?/2, где по условию ? = 0,81. По таблице значений функции Лапласа определим t? = 1,31. = 8,985, n=1000, N=6666. Следовательно,



Следовательно, генеральная средняя M? находится в пределах


,905-0,143<<19,905+0,143; 19,762<<20,048


в) Найти границы, в которых с вероятностью заключена доля тех элементов общей совокупности, имеющих величину признака , не менее ;

Доверительный интервал, в котором доля тех элементов общей совокупности, имеющих величину признака ? не менее 23,5, определяется неравенством



где выборочная доля w согласно условию равна:



предельная ошибка выборки ? равна:



t? соответствует значению Ф (t?) =?/2, где по условию ? = 0,91. По таблице значений функции Лапласа определим t? = 1,695


= 14,038, n=1000, N=6666. Следовательно,


Таким образом, интервал, в котором с вероятностью 0,91 заключена доля элементов из общей совокупности, имеющих величину признака ? не менее 23,5 равен:


,5-0,17446 ?p?23,5+ 0,213541.

,28?p?23,67


г) границы, в которых с вероятностью заключена доля тех элементов общей совокупности, имеющих величину признака , менее ;

Доверительный интервал, в котором доля тех элементов общей совокупности, имеющих величину признака ? менее 16, определяется неравенством



где выборочная доля w согласно условию равна:



предельная ошибка выборки ? равна:



t? соответствует значению Ф (t?) =?/2, где по условию ? = 0,91. По таблице значений функции Лапласа определим t? = 1,695 = 14,038, n=1000, N=6666. Следовательно,



Таким образом, интервал, в котором с вероятностью 0,91 заключена доля элементов из общей совокупности, имеющих величину признака ? менее 16, равен:


-0,167645<p<16+0,167645, 15,8<p<16,167


д) необходимый объем выборки, чтобы с вероятностью предельная ошибка выборки при определении среднего значения признака в регионе не превышала

Необходимый объем выборки при нахождении среднего значения признака ? методом собственно-случайного бесповторного отбора определяем по формуле:


nбесп

nповт=


Предельная ошибка по условию ?=0, 19, а вероятность ? = 0,86, тогда ?/2 = 0,43. По таблице значений функции Лапласа определим t?=1,48. = 14,038, N=6666. Следовательно,


nповт=

nбесп=


Таким образом, необходимый объем выборки составляет 756.


Заключение


Анализ полученных значений показателей и говорит о том, что средний уровень величины признака составляет 19,905, отклонение от среднего уровня в ту или иную сторону составляет в среднем 3,747 (или 18,82%), наиболее характерные значения уровня количества элементов находятся в пределах от 16,158 до 23,652 (диапазон ).

Значение не превышает 33 %, следовательно, вариация уровня количества элементов в исследуемой совокупности незначительна и совокупность по данному признаку качественно однородна. Расхождение между значениями Мо и Ме незначительно, что подтверждает вывод об однородности совокупности. Коэффициент асимметрии As=0,4 незначительная правостороння асимметрия. Экспериментальные данные не противоречат гипотезе о нормальном распределении случайной величины .

Список литературы


1.Сборник задач по математике для втузов. Ч.3. Теория вероятностей и математическая статистика: Учеб. пособие для втузов / Под. ред. А.В. Ефимова. - 2-е изд., перераб. и доп. - М.: Наука. Гл. ред. физ. - мат. лит., 2010. - 428 с.

2.Гмурман В.Е. Руководство к решению задач по теории вероятностей и математической статистике: Учеб. пособие для студентов вузов. Изд.4-е, стер. М.: Высш. Шк., 2010. - 400 с.: ил.

.Гмурман В.Е. Теория вероятностей и математическая статистика. Учеб. пособие для втузов. Изд.5-е, перераб. и доп.М., "Высш. школа", 2007.

.Вентцель Е.С. Теория вероятностей. - М.: 1969, 576 с.

.Кремлев А.Г., Математика. Раздел "Статистика. Учебное пособие. Екатеринбург. Изд-во УрГЮА, 2001.140с

.Кремер Н.Ш. Теория вероятностей и математическая статистика Учебник для вузов.М. ЮНИТА-ДАНА, 2008.543 с.

.Самусевич Г.А. Теория вероятностей в примерах и задачах. Теория вероятностей и математическая статистика. Учебное пособие. Екатеринбург. УГТУ-УПИ. 2009.80с.


Теги: Основные понятия математической статистики  Курсовая работа (теория)  Математика
Просмотров: 11315
Найти в Wikkipedia статьи с фразой: Основные понятия математической статистики
Назад