s
Sesiya.ru

Решение статистических задач в пакете Mathсad

Информация о работе

Тема
Решение статистических задач в пакете Mathсad
Тип Курсовая работа
Предмет Математика
Количество страниц 25
Язык работы Русский язык
Дата загрузки 2014-05-22 21:36:31
Размер файла 290.09 кб
Количество скачиваний 16
Скидка 15%

Поможем подготовить работу любой сложности

Заполнение заявки не обязывает Вас к заказу


Скачать файл с работой

Помогла работа? Поделись ссылкой

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РФ

Федеральное государственное бюджетное образовательное учреждение
высшего профессионального образования
«Глазовский государственный педагогический институт им. В.Г. Короленко»


Кафедра математики, теории и методики обучения математике



Курсовая работа по теории и методике обучения математике

студент 3 курса факультета информатики, физики и математики
специальность 010503.65– «Математическое обеспечение и администрирование информационных систем»


Решение статистических задач в пакете Mathсad



Научный руководитель:
к.п.н., старший преподаватель



Работа защищена
«____»___________________2014 г.
с оценкой ____________________






Глазов 2014
Оглавление

Введение……………………………………………………………………………
§ 1. Задача математической статистики………………………..………………
§ 2. Элементы математической статистики…………………………….............
2.1 Выборка…………………………………….………….………….…………
2.2 Функции создания случайных чисел …………………………………….
2.3 Числовые характеристики статистического распределения ……………
2.4 Интервальные оценки …………………………………….….….….….….
§ 3. Классификация статистических задач…………………………….............
Заключение…………………………………………………………………………
Список литературы……………………………………………………………… 3
4
5
5
6
11
13
15
24
25
















Введение

Сегодня статистика выполняет самые разнообразные функции сбора, систематизации и анализа сведений, характеризующих экономическое и социальное развитие общества. Как готовый продукт она поставляет фактологию для управленческих, научно-исследовательских и прикладных нужд госструктур, организаций и населения. Поэтому статистикой сегодня называют также и числовые данные, характеризующие все стороны жизни государства: политические отношения, культуру, население, производство и многое другое.
Решить статистическую задачу можно в таких программах, как Excel, Pascal, Delphi, Maple, Mathcad.
Рассматривать мы будем программу Mathcad. Основная причина данного выбора заключается в простоте освоения программы, но самое важное это то, что здесь есть множество стандартных функций - финансовых, математических, логических, статистических. С ее помощью ведут разнообразные списки, каталоги и таблицы, составляют финансовые и статистические отчеты, обсчитывают данные каких-нибудь опросов и состояние торгового предприятия, обрабатывают результаты научного эксперимента, ведут учет, готовят презентационные материалы.
Цели работы:
1. Обозначить задачи математической статистики;
2. Рассмотреть элементы математической статистики;
3. Проклассифицировать статистические задачи.






§ 1. Задачи математической статистики

Математическая статистика – наука, разрабатывающая математические методы систематизации и использования статистических данных для научных и практических выводов.
Во многих своих разделах математическая статистика опирается на теорию вероятностей, позволяющую оценить надёжность и точность выводов, делаемых на основании ограниченного статистического материала (например, оценить необходимый объём выборки для получения результатов требуемой точности при выборочном обследовании).
Установление закономерностей, которым подчинены массовые случайные явления, основано на изучении методами теории вероятностей статистических данных — результатов наблюдений.
Первая задача математической статистики — указать способы сбора и группировки статистических сведений, полученных в результате наблюдений или в результате специально поставленных экспериментов.
Вторая задача математической статистики — разработать методы анализа статистических данных в зависимости от целей исследования. Сюда относятся:
а) оценка неизвестной вероятности события; оценка неизвестной функции распределения; оценка параметров распределения, вид которого известен: оценка зависимости случайной величины от одной или нескольких случайных величин и др.;
б) проверка статистических гипотез о виде неизвестного распределения или о величине параметров распределения, вид которого известен.
Современная математическая статистика разрабатывает способы определения числа необходимых испытаний до начала исследования (планирование эксперимента), в ходе исследования (последовательный анализ) и решает многие другие задачи. Современную математическую статистику определяют как науку о принятии решений в условиях неопределенности.
Итак, задача математической статистики состоит в создании методов сбора и обработки статистических данных для получения научных и практических выводов [Гмурман В.Е.].


§ 2. Элементы математической статистики

2.1. Выборка

Ключевым объектом для изучения в математической статистике является выборка или выборочная совокупность. Пусть проводятся n независимых испытаний над случайной величиной X при неизменном комплексе условий, от которых зависят конкретные реализации этой величины. В результате испытаний получены n измерений величины X: Xn = {x1, x2, …, xn}. Совокупность Xn таких измерений называют выборкой случайной величины X, сами измерения называют элементами выборки, а число измерений n – объёмом выборки. Элементы выборки можно считать независимыми одинаково распределёнными случайными величинами, поскольку они являются результатом проведения последовательности независимых испытаний с одной и той же случайной величиной X. Например, если в течение недели каждый день в одно и то же время замерять напряжение в сети, то такая выборка будет выглядеть примерно так: 215 В, 225 В, 217 В, 230 В, 228 В, 222 В, 210 В. Можно ли по этим данным сказать что-то определенное о распределении случайной величины, ее математическом ожидании и дисперсии? В этом и состоит задача математической статистики. Разумеется, чем больше выборка, тем точнее можно ответить на заданные вопросы.
Выборка может быть представлена в среде Mathcad как матрица-строка, т.е. вектор. При таком способе задания создаётся матрица-строка необходимого количества элементов. Это удобно с точки зрения дальнейшей работы с этими данными - анализа данных, нахождения математического ожидания и дисперсии. Ниже приведён пример задания выборки в системе Mathcad [Денисов-Винский Н.Д.].


2.2. Функции создания случайных чисел

Очень часто необходимо создать математическую модель какого-либо процесса и исследовать её. Входными данными математической модели могут быть как строго определённые величины, либо случайные величины, либо строго определённые величины со случайными погрешностями. Последнее в практике случается достаточно часто. Для создания случайных с равномерным распределением величин в системе Mathcad есть функция случайной величины:
rnd (a)
где a – есть верхняя/нижняя граница случайных величин. Другими словами, функция выдаёт множество случайных величин от 0 до a.
Рассмотрим пример использования функции случайных величин в Mathcad для создания вектора выборки из вектора данных. Вектор данных также зададим при помощи функции случайных величин [Денисов-Винский Н.Д.].



Также существуют специальные функции случайных чисел, результатом которых является набор случайных чисел, но значение которых подчиняется определённому закону. Эти функции созданы на базе функций законов плотности распределения, а именно хорошо известные функции биноминального распределения, экспоненциального распределения, нормального распределения, распределения Пуассона, равномерного распределения [Денисов-Винский Н.Д.].
Рассмотрим эти функции в общем виде:
Функция случайных чисел биноминального распределения:
rbinom (m, n, p)
Возвращает вектор m случайных чисел, имеющих биноминальное распределение.
0 p 1
Функция случайных чисел экспоненциального распределения:
rexp (m, r)
Возвращает вектор m случайных чисел экспоненциального распределения.
r > 0 - параметр распределения
Функция случайных чисел нормального распределения:
rnorm (m, µ, σ)
Возвращает вектор m случайных чисел, имеющих нормальное распределение.
µ > 0
σ > 0
Функция случайных чисел равномерного распределения:
runif (m, a, b)
Возвращает вектор m случайных чисел, имеющих равномерное распределение, в котором a и b являются граничными точками интервала.
a < b
Функция случайных чисел распределения Пуассона:
rpois (m, λ)
Возвращает вектор m случайных чисел, имеющих распределение Пуассона.
λ > 0
Ниже рассмотрим пример использования функции случайных чисел экспоненциального распределения.





Увеличим число случайных чисел до n=70.






2.3 Числовые характеристики статистического распределения

Выборочная характеристика, используемая в качестве приближенного значения генеральной характеристики, называется ее точной статистической оценкой. Выборочное среднее и выборочная дисперсия являются точечными статистическими оценками [Калинина В.Н.].
Пусть дана выборка:
Bn=(x1, x2, ..., xn)
Выборочным средним называется среднее арифметическое всех значений выборки:
m_x=1/n*∑_(k=1)^n▒x_k
Выборочной дисперсией называется среднее арифметическое квадратов отклонений значений выборки от выборочной средней:
d_x=1/n*∑_(k=1)^n▒〖(x_k-m_x)〗^2
Задача математического ожидания заключается в нахождении средней величины, рядом с которой «колеблется» измеренные величины. Дисперсия в cвою очередь показывает насколько «размыто» поле измеренных величин относительно среднего значения. Однако дисперсия не отражает реальной картины «размытости», так как все разности возводятся во вторую степень.
Для того чтобы отразить реальную картину «размытости» измеренных величин по отношению к средней величине, вводится понятие выборочного среднеквадратичного отклонения:
σ_ср=√(d_x )
Ниже рассмотрим, как реализованы числовые характеристики в пакете Mathcad.


В следующем примере увеличим разброс значений вектора.


Обратим внимание, что при увеличении разброса данных, математическое ожидание, которое характеризует среднюю величину, почти не изменилось, в то время как дисперсия и среднеквадратичное отклонение, которые характеризуют «разброс» величин относительно среднего значения, увеличилось в несколько раз [Денисов-Винский Н.Д.].

2.4. Интервальные оценки

Точечные оценки оценивают неизвестное значение параметра одним числом. Недостатком точечных оценок является то, что в них не указывается точность оценки параметра при выборках конечного объёма. Можно лишь сказать, что при n→∞ оценки параметров сходятся по вероятности к истинным значениям этих параметров. Иногда удобнее оценивать значение параметра с помощью интервала, в который это значение попадает с определённой вероятностью [Лисьев В.П.].
Допустим, что некоторая случайная величина Х распределена по нормальному закону с неизвестными параметрами Х ~ N(m; σ2). Имеется также выборка реализаций данной случайной величины Zn = (x1, x2, …, xn), по которой вычислены выборочные математическое ожидание и дисперсия Xm и Xd. При таких условиях можно указать интервал, в котором с вероятностью α (как правило, α ≥ 0,9) будет лежать математическое ожидание исходной случайной величины m. Центр этого доверительного интервала находится в точке Xm, а радиус доверительного интервала вычисляется по формуле:
r=√(d_x/(n-1))*t_α*(n-1),
где α – уровень доверия,
n – число элементов выборки,
а число tα(n-1) – квантили распределения Стьюдента.
Здесь хочется обратить внимание на то, что tα(n-1) есть переменная, которую берут из таблицы распределения Стьюдента в зависимости от входных условий.
В системе Mathcad это реализовано при помощи функции квантили обратного распределения Стьюдента:
qt (p, d)
где d - число элементов выборки,
p - уровень доверия.
Таким образом, доверительный интервал для m выглядит следующим образом:
(mx - r; mx + r)
Рассмотрим пример применения функции qt для вычисления доверительного интервала [Денисов-Винский Н.Д.].






§ 3. Классификация статистических задач

Все статистические задачи относятся к обработке наблюдений над массовыми случайными явлениями, но в зависимости от характера решаемого практического вопроса и от объема имеющегося экспериментального материала эти задачи могут принимать ту или иную форму.
Статистические задачи можно разделить на пять групп:
1. Задачи на оценку неизвестных параметров;
2. Задачи на установление закона распределения вероятностей;
3. Задачи на проверку статистических гипотез;
4. Задачи дисперсионного анализа;
5. Задачи регрессионного анализа.
В первую группу входят задачи выбора структуры оценок и задачи анализа качества этих оценок. Оценить можно не только параметры, относящиеся к одной величине (математическое ожидание, дисперсию и т.п.), но и параметры, связанные с двумя или более величинами (коэффициент корреляции, корреляционное отношение и т.п.).
Второй тип задач является более общим по сравнению с первым. Например, пусть дана выборка x1,x2,...,xn, где n - количество измерений этой величины. При отсутствии иной информации остаётся предполагать, что эти значения являются единственно возможными значениями данной случайной величины, а вероятность каждого из них равна 1/n. Исходя из этого, можно построить функцию распределения вероятностей величины X как дискретной случайной величины: 〖 F〗^* (x)=k/n, где k – число измерений, лежащих на числовой оси левее x. Возникает вопрос, нельзя ли при конечном значении n провести сглаживание функции F*(x) так, чтобы получить функцию, близкую к истинной функции распределения? Этот вопрос и рассматривается в данной группе задач, связанных с установлением закона распределения вероятностей по экспериментальным данным.
Третий тип задач рассмотрим более подробно. Любое предположение относительно исследуемой случайной величины, истинность которого требуется проверить на основе выборки этой случайной величины, называют статистической гипотезой. Гипотеза может касаться неизвестных параметров закона распределения вероятностей, самого закона распределения, смешанных статистических моментов, описывающих связь между величинами, и т.п. Существует большое разнообразие статистических гипотез и, соответственно, большое количество разнообразных методов проверки этих гипотез.
Общая идея проверки статистических гипотез заключается в следующем. Пусть дана выборка Xn=x1,x2,...,xn случайной величины X и выдвигается гипотеза H0 относительно этой величины Эту гипотезу называют нулевой гипотезой, а противоположную ей H1 - альтернативной гипотезой. Предположим, что определена n-мерная область D такая, что при (x_1,x_2,…,x_n)∉D нулевая гипотеза принимается, а при (x_1,x_2,…,x_n)∈D эта гипотеза отвергается. Тогда область D называется критической областью. При принятии решения на основе конкретной выборки возможны следующие варианты: гипотеза H0 является верной, и она принимается в соответствии с критерием; H0 является ложной гипотезой и она отвергается в соответствии с критерием. Эти решения являются верными. Возможны варианты, когда принятое решение является ошибочным: H0 отвергается, являясь истинной гипотезой, или H0 принимается, хотя на самом деле она является ложной. В первом случае ошибку в решении называют ошибкой первого рода, во втором случае – ошибкой второго рода.
Алгоритм построения критической области и правило принятия решения называют статистическим критерием данной гипотезы или просто критерием гипотезы. Наилучшим критерием является тот, который обеспечивает наименьшую величину вероятностей ошибок первого и второго рода. Обозначим вероятность ошибки первого рода через α, а вероятность ошибки второго рода – через β. Величину α называют ещё уровнем значимости. Доказано, что одновременное уменьшение этих ошибок невозможно: уменьшение одной из них неизбежно влечёт увеличение другой (при постоянном объёме выборки n). Поэтому при построении критической области проводится минимизация по одной из вероятностей ошибок, в то время как другая вероятность фиксируется на определённом значении. С другой стороны, стоимость ошибок или потери от них, не всегда являются одинаковыми. В связи с этим выбор значений величин α и β определяется в зависимости от конкретного содержания решаемой задачи.
Решение об истинности гипотезы H0 принимается на основе сравнения некоторой вычисленной величины R с одним или двумя критическими значениями, являющимися границей или границами критической области. Если для критической области используется неравенство R ≥ Rв, то говорят о правосторонней критической области, если неравенство R ≤ Rн, то говорят о левосторонней критической области. Если, наконец, применяются оба неравенства, то критическую область называют двухсторонней. Отметим ещё, что схема построения критической области прямым образом связана со схемой построения доверительного интервала.
В четвертом типе задач, т.е. дисперсионном анализе, устанавливается факт зависимости или независимости исследуемой случайной величины от одного или нескольких факторов. Сами факторы могут быть как количественными, так и качественными. В результате дисперсионного анализа может быть принято одно из двух решений: или «да», или «нет». Анализ можно проводить как по каждому фактору отдельно, так и по двум или нескольким факторам одновременно. В первом случае анализ называют однофакторным дисперсионным анализом, во втором – двухфакторным или многофакторным.
Общую постановку задачи дисперсионного анализа рассмотрим для случая, когда имеется три фактора. Пусть X – некоторая случайная величина, на которую могут влиять факторы A, B и C. Требуется выяснить, какие из этих факторов являются существенными в смысле влияния на величину X, а какие – несущественными. Для ответа на этот вопрос все факторы разбиваются на уровни.
Пусть фактор A имеет уровни A1,A2,...,An, фактор B – уровни B1,B2,...,Bn, фактор C – уровни C1,C2,...,Cn. Делаются измерения величины X при различных комбинациях уровней факторов, например, при комбинациях (A2,B2,C2), (A1,B2,C3) и т.д. Схема выбора комбинаций уровней факторов, при которых следует делать измерения, называется планом эксперимента. Если перебираются все возможные комбинации уровней факторов, то план эксперимента называют полным факторным планом. Предположим, что каждый фактор имеет по s уровней. Тогда число различных комбинаций уровней факторов будет равно s3. Это число может оказаться большим, что приводит к большому объёму выборки. Чтобы сократить требуемый объём выборки, применяют другие планы эксперимента. Самым простым примером является план «латинский квадрат», который применяется для трёхфакторного анализа. Смысл этого плана состоит в том, что для измерений отбираются только такие комбинации уровней факторов, среди которых комбинации с одинаковыми парами уровней встречаются только один раз. Такой план позволяет сократить минимальное число измерений с s3 до s2.
Измерения, сделанные при комбинации уровней факторов (Ai,Bj,Ck), будем обозначать через xijkr, где r – номер измерения при данной комбинации. В дисперсионном анализе предполагается, что все измерения являются статистически независимыми и распределёнными по нормальному закону с одной и той же дисперсией σ2. Предполагается также, что
x_ijkr=m_ijk+ε_ijkr,
где mijk – математическое ожидание величины X при комбинации уровней (Ai,Bj,Ck);
ε_ijkr - нормально распределённая случайная величина с нулевым математическим ожиданием и дисперсией σ2. Требуется проверить гипотезу H0 о том, что все математические ожидания одинаковы, т. е. mijk= m для всех значений i, j, k. Эта гипотеза эквивалентна предположению, что ни один из факторов не влияет на величину X.
Альтернативной гипотезой H1 является предположение, что хотя бы один фактор влияет на величину X. Принимая решение H0, мы отвергаем влияние на X одновременно всех факторов. Принимая решение H1, мы признаём, что на величину X оказывает существенное влияние хотя бы один фактор. Сделать вывод более детально можно только после дополнительного анализа на отсутствие взаимодействия между факторами. Если такое взаимодействие имеет место, то может оказаться, что каждый фактор индивидуально не влияет на величину X, но за счёт их взаимодействия влияние факторов на X в совокупности будет существенным. Если взаимодействия между факторами нет, то решение о влиянии на величину X можно принимать по каждому фактору независимо.
Рассмотрим задачи последнего типа. Предположим, что X и Y являются статистически зависимыми величинами. Тогда можно поставить следующую задачу: найти такую функцию Y = ϕ(X), которая бы максимально отражала статистическую зависимость между величинами. С помощью такой функции можно было бы наиболее точно по заданным значениям X прогнозировать значения, которые будет принимать величина Y. Эта задача относится к группе задач регрессионного анализа. Такая задача может быть линейной, экспоненциальной, синусоидальной.
Чаще всего используется линейная регрессия, при которой функция описывает отрезок прямой и имеет вид:
y(x)=kx+b,
где k - это угол наклона прямой к оси OX ,
а коэффициент b - это смещение прямой относительно начала координат.
Рассмотрим пример. Есть исходные данные, которые были получены в ходе эксперимента. Зададим вектор измеренной величины в зависимости от времени.

Для построения зависимости приведённых данных есть две специальные функции.
Функция intercept(VX, VY) – которая возвращает значение коэффициента b.
Функция slope(VX, VY) – функция, которая возвращает параметр k.
В этих двух функция VX и VY – есть вектора данных, которые должны быть заданы. Причём необходимо, чтобы количество элементов этих векторов было одинаково.
Также есть функция corr(VX, VY), которая возвращает значение коэффициента корреляции (показатель характера взаимосвязи двух случайных величин).


Экспоненциальная функция описывается следующим уравнением, записанным в общем виде:
H(x)=A*e^(b*x)+c,
где A,B,C - коэффициенты, которые так или иначе влияют на форму кривой. Нахождение регрессии сводится к нахождению этих коэффициентов, аналогично как в линейной регрессии.
Для нахождения этих коэффициентов в системе Mathcad предусмотрена следующая функция:
expfit(VX, VY, Guess),
где VX – вектор значений по оси OX ,
VY – вектор значений по оси OY ,
а Guess – вектор начальных приближенных параметров экспоненциальной регрессии.
Таким образом, для того, чтобы построить экспоненциальную регрессию необходимо задать два вектора данных, а также задать вектор начальных приближённых параметров экспоненциальной регрессии.
Рассмотрим на примере.



Синусоидальная функция описывается следующим уравнением, записанным в общем виде:
H(x)=A*sin⁡〖(x+B)〗+C,
Для работы с синусоидальной регрессией в системе Mathcad предусмотрена функция:
sinfit(VX, VY, Guess),
где VX и VY – векторы значений,
а Guess – так же как и в экспоненциальной регрессии вектор начальных значений.











Заключение
Математическая статистика применяется во всех областях научных исследований, где необходимо разрабатывать методы анализа статистических данных. В современном мире есть множество задач на математическую статистику, например, в экономике, психологии, инженерии. Благодаря появлению новых технологий каждый из нас может проводить исследования (решения), затрачивая при этом меньше времени и усилий на вычисления, при помощи ЭВМ.
Результатом работы по данной теме является:
1. Введено понятие математической статистики и ее задач;
2. Рассмотрены элементы математической статистики с конкретными примерами в пакете Mathcad;
3. Обозначена классификация статистических задач.
В результате проведенной работы была изучена теория математической статики и пакета Mathcad.















Список литературы
1. Лисьев, В.П. Теория вероятностей и математическая статистика [Текст] / В.П. Лисьев. -Москва,2006.-199с.
2. Калинина, В.Н. Теория вероятностей и математическая статистика. Компьютерно-ориентированный курс [Текст]: учебное пособие для вузов / В.Н. Калинина. -Москва: Дрофа,2008.-471с.
3. Денисов-Винский, Н.Д. Mathcad. III курс. Теория вероятностей и математическая статистика[Текст] / Н.Д. Денисов-Винский. -Москва: МИЭЭ,2009.-93с.
4. Гмурман, В.Е. Теория вероятностей и математическая статистика [Текст]: учебное пособие для вузов / В.Е. Гмурман. -Москва: Высшая школа,2003.-479с.
5. Алексеев, Е.Р. Основы работы в математическом пакете Mathcad [Текст] / Е.Р. Алексеев, О.В. Чеснокова. -Донецк: Донецкий национальный технический университет,2012,-187с.

© Copyright 2012-2020, Все права защищены.