Что такое среднее квадратическое отклонение в статистике. Как найти среднеквадратическое отклонение
Инструкция
Пусть имеется несколько чисел, характеризующих -либо однородные величины. Например, результаты измереений, взвешиваний, статистических наблюдений и т.п. Все представленные величины должны измеряться одной и той же измерения. Чтобы найти квадратичное отклонение, проделайте следующие действия.
Определите среднее арифметическое всех чисел: сложите все числа и разделите сумму на общее количество чисел.
Определите дисперсию (разброс) чисел: сложите квадраты найденных ранее отклонений и разделите полученную сумму на количество чисел.
В палате лежат семь больных с температурой 34, 35, 36, 37, 38, 39 и 40 градусов Цельсия.
Требуется определить среднее отклонение от средней .
Решение:
« по палате»: (34+35+36+37+38+39+40)/7=37 ºС;
Отклонения температур от среднего (в данном случае нормального значения): 34-37, 35-37, 36-37, 37-37, 38-37, 39-37, 40-37, получается: -3, -2, -1, 0, 1, 2, 3 (ºС);
Разделите полученную раннее сумму чисел на их количество. Для точности вычисления лучше воспользоваться калькулятором. Итог деления является средним арифметическим значением слагаемых чисел.
Внимательно отнеситесь ко всем этапам расчета, так как ошибка хоть в одном из вычислений приведет к неправильному итоговому показателю. Проверяйте полученные расчеты на каждом этапе. Среднее арифметическое число имеет тот же измеритель, что и слагаемые числа, то есть если вы определяете среднюю посещаемость , то все показатели у вас будут «человек».
Данный способ вычисления применяется только в математических и статистических расчетах. Так, например, среднего арифметического значения в информатике имеет другой алгоритм вычисления. Среднее арифметическое значение является очень условным показателем. Оно показывает вероятность того или иного события при условии, что у него только один фактор либо показатель. Для наиболее глубокого анализа необходимо учитывать множество факторов. Для этого применяется вычисление более общих величин.
Среднее арифметическое - одна из мер центральной тенденции, широко используемая в математике и статистических расчетах. Найти среднее арифметическое число для нескольких значений очень просто, но у каждой задачи есть свои нюансы, знать которые для выполнения верных расчетов просто необходимо.
Количественных результатов проведенных подобных опытов.
Как найти среднее арифметическое число
Поиск среднего арифметического числа для массива чисел следует начинать с определения алгебраической суммы этих значений. К примеру, если в массиве присутствуют числа 23, 43, 10, 74 и 34, то их алгебраическая сумма будет равна 184. При записи среднее арифметическое обозначается буквой μ (мю) или x (икс с чертой). Далее алгебраическую сумму следует разделить на количество чисел в массиве. В рассматриваемом примере чисел было пять, поэтому среднее арифметическое будет равно 184/5 и составит 36,8.Особенности работы с отрицательными числами
Если в массиве присутствуют отрицательные числа, то нахождение среднего арифметического значения происходит по аналогичному алгоритму. Разница имеется только при рассчетах в среде программирования, или же если в задаче есть дополнительные условия. В этих случаях нахождение среднего арифметического чисел с разными знаками сводится к трем действиям:1. Нахождение общего среднего арифметического числа стандартным методом;
2. Нахождение среднего арифметического отрицательным чисел.
3. Вычисление среднего арифметического положительных чисел.
Ответы каждого из действий записываются через запятую.
Натуральные и десятичные дроби
Если массив чисел представлен десятичными дробями, решение происходит по методу вычисления среднего арифметического целых чисел, но сокращение результата производится по требованиям задачи к точности ответа.При работе с натуральными дробями их следует привести к общему знаменателю, который умножается на количество чисел в массиве. В числителе ответа будет сумма приведенных числителей исходных дробных элементов.
Х i - случайные (текущие) величины;
X̅ – среднее значение случайных величин по выборке, рассчитывается по формуле:
Итак, дисперсия - это средний квадрат отклонений . То есть вначале рассчитывается среднее значение, затем берется разница между каждым исходным и средним значением, возводится в квадрат , складывается и затем делится на количество значений в данной совокупности.
Разница между отдельным значением и средней отражает меру отклонения. В квадрат возводится для того, чтобы все отклонения стали исключительно положительными числами и чтобы избежать взаимоуничтожения положительных и отрицательных отклонений при их суммировании. Затем, имея квадраты отклонений, мы просто рассчитываем среднюю арифметическую.
Разгадка магического слова «дисперсия» заключается всего в этих трех словах: средний – квадрат – отклонений.
Среднее квадратичное отклонение (СКО)
Извлекая из дисперсии квадратный корень, получаем, так называемое «среднеквадратичное отклонение». Встречаются названия «стандартное отклонение» или «сигма» (от названия греческой буквыσ .). Формула среднего квадратичного отклонения имеет вид:
Итак, дисперсия – это сигма в квадрате, или – среднее квадратичное отклонение в квадрате.
Среднеквадратичное отклонение, очевидно, также характеризует меру рассеивания данных, но теперь (в отличие от дисперсии) его можно сравнивать с исходными данными, так как единицы измерения у них одинаковые (это явствует из формулы расчета). Размах вариации – это разница между крайними значениями. Среднеквадратичное отклонение, как мера неопределенности, также участвует во многих статистических расчетах. С ее помощью устанавливают степень точности различных оценок и прогнозов. Если вариация очень большая, то стандартное отклонение тоже получится большим, следовательно, и прогноз будет неточным, что выразится, к примеру, в очень широких доверительных интервалах.
Поэтому в методах статистической обработки данных в оценках объектов недвижимости в зависимости от необходимой точности поставленной задачи используют правило двух или трех сигм.
Для сравнения правила двух сигм и правила трех сигм используем формулу Лапласа:
Ф - Ф ,
где Ф(x) – функция Лапласа;
Минимальное значение
β = максимальное значение
s = значение сигмы (среднее квадратичное отклонение)
a = среднее значение
В этом случае используется частный вид формулы Лапласа когда границы α и β значений случайной величины X равно отстоят от центра распределения a = M(X) на некоторую величину d: a = a-d, b = a+d. Или (1) Формула (1) определяет вероятность заданного отклонения d случайной величины X с нормальным законом распределения от ее математического ожидания М(X) = a. Если в формуле (1) принять последовательно d = 2s и d = 3s, то получим: (2), (3). |
Правило двух сигм
Почти достоверно (с доверительной вероятностью 0,954) можно утверждать, что все значения случайной величины X с нормальным законом распределения отклоняются от ее математического ожидания M(X) = a на величину, не большую 2s (двух средних квадратических отклонений). Доверительной вероятностью (Pд) называют вероятность событий, которые условно принимаются за достоверные (их вероятность близка к 1).
Проиллюстрируем правило двух сигм геометрически. На рис. 6 изображена кривая Гаусса с центром распределения а. Площадь, ограниченная всей кривой и осью Оx, равна 1 (100%), а площадь криволинейной трапеции между абсциссами а–2s и а+2s, согласно правилу двух сигм, равна 0,954 (95,4% от всей площади). Площадь заштрихованных участков равна 1-0,954 = 0,046 (»5% от всей площади). Эти участки называют критической областью значений случайной величины. Значения случайной величины, попадающие в критическую область, маловероятны и на практике условно принимаются за невозможные.
Вероятность условно невозможных значений называют уровнем значимости случайной величины. Уровень значимости связан с доверительной вероятностью формулой:
где q – уровень значимости, выраженный в процентах.
Правило трех сигм
При решении вопросов, требующих большей надежности, когда доверительную вероятность (Pд) принимают равной 0,997 (точнее - 0,9973), вместо правила двух сигм, согласно формуле (3), используют правило трех сигм.
Согласно правилу трех сигм при доверительной вероятности 0,9973 критической областью будет область значений признака вне интервала (а-3s, а+3s). Уровень значимости составляет 0,27%.
Другими словами, вероятность того, что абсолютная величина отклонения превысит утроенное среднее квадратическое отклонение, очень мала, а именно равна 0,0027=1-0,9973. Это означает, что лишь в 0,27% случаев так может произойти. Такие события, исходя из принципа невозможности маловероятных событий, можно считать практически невозможными. Т.е. выборка высокоточная.
В этом и состоит сущность правила трех сигм:
Если случайная величина распределена нормально, то абсолютная величина ее отклонения от математического ожидания не превосходит утроенного среднего квадратического отклонения (СКО).
На практике правило трех сигм применяют так: если распределение изучаемой случайной величины неизвестно, но условие, указанное в приведенном правиле, выполняется, то есть основание предполагать, что изучаемая величина распределена нормально; в противном случае она не распределена нормально.
Уровень значимости принимают в зависимости от дозволенной степени риска и поставленной задачи. Для оценки недвижимости обычно принимается менее точная выборка, следуя правилу двух сигм.
Для расчетов средней геометрической простой используется формула:
Геометрическая взвешенная
Для определения средней геометрической взвешенной применяется формула:
редние диаметры колес, труб, средние стороны квадратов определяются при помощи средней квадратической.
Среднеквадратические величины используются для расчета некоторых показателей, например коэффициент вариации, характеризующего ритмичность выпуска продукции. Здесь определяют среднеквадратическое отклонение от планового выпуска продукции за определенный период по следующей формуле:
Эти величины точно характеризуют изменение экономических показателей по сравнению с их базисной величиной, взятое в его усредненной величине.
Квадратическая простая
Средняя квадратическая простая вычисляется по формуле:
Квадратическая взвешенная
Средняя квадратическая взвешенная равна:
22. Абсолютные показатели вариации включают:
размах вариации
среднее линейное отклонение
дисперсию
среднее квадратическое отклонение
Размах вариации (r)
Размах вариации - это разность между максимальным и минимальным значениями признака
Он показывает пределы, в которых изменяется величина признака в изучаемой совокупности.
Опыт работы у пяти претендентов на предшествующей работе составляет: 2,3,4,7 и 9 лет. Решение: размах вариации = 9 - 2 = 7 лет.
Для обобщенной характеристики различий в значениях признака вычисляют средние показатели вариации, основанные на учете отклонений от средней арифметической. За отклонение от средней принимается разность .
При этом во избежании превращения в нуль суммы отклонений вариантов признака от средней (нулевое свойство средней) приходится либо не учитывать знаки отклонения, то есть брать эту сумму по модулю , либо возводить значения отклонений в квадрат
Среднее линейное и квадратическое отклонение
Среднее линейное отклонение - этосредняя арифметическая из абсолютных отклонений отдельных значений признака от средней.
Среднее линейное отклонение простое:
Опыт работы у пяти претендентов на предшествующей работе составляет: 2,3,4,7 и 9 лет.
В нашем примере: лет;
Ответ: 2,4 года.
Среднее линейное отклонение взвешенное применяется для сгруппированных данных:
Среднее линейное отклонение в силу его условности применяется на практике сравнительно редко (в частности, для характеристики выполнения договорных обязательств по равномерности поставки; в анализе качества продукции с учетом технологических особенностей производства).
Среднее квадратическое отклонение
Наиболее совершенной характеристикой вариации является среднее квадратическое откложение, которое называют стандартом (или стандартным отклонение). Среднее квадратическое отклонение () равно квадратному корню из среднего квадрата отклонений отдельных значений признака отсредней арифметической:
Среднее квадратическое отклонение простое:
Среднее квадратическое отклонение взвешенное применяется для сгруппированных данных:
Между средним квадратическим и средним линейным отклонениями в условиях нормального распределения имеет место следующее соотношение: ~ 1,25.
Среднее квадратическое отклонение, являясь основной абсолютной мерой вариации, используется при определении значений ординат кривой нормального распределения, в расчетах, связанных с организацией выборочного наблюдения и установлением точности выборочных характеристик, а также при оценке границ вариации признака в однородной совокупности.
По данным выборочного обследования произведена группировка вкладчиков по размеру вклада в Сбербанке города:
Определите:
1) размах вариации;
2) средний размер вклада;
3) среднее линейное отклонение;
4) дисперсию;
5) среднее квадратическое отклонение;
6) коэффициент вариации вкладов.
Решение:
Данный ряд распределения содержит открытые интервалы. В таких рядах условно принимается величина интервала первой группы равна величине интервала последующей, а величина интервала последней группы равна величине интервала предыдущей.
Величина интервала второй группы равна 200, следовательно, и величина первой группы также равна 200. Величина интервала предпоследней группы равна 200, значит и последний интервал будет иметь величину, равную 200.
1) Определим размах вариации как разность между наибольшим и наименьшим значением признака:
Размах вариации размера вклада равен 1000 рублей.
2) Средний размер вклада определим по формуле средней арифметической взвешенной.
Предварительно определим дискретную величину признака в каждом интервале. Для этого по формуле средней арифметической простой найдём середины интервалов.
Среднее значение первого интервала будет равно:
второго - 500 и т. д.
Занесём результаты вычислений в таблицу:
Размер вклада, руб. | Число вкладчиков, f | Середина интервала, х | xf |
---|---|---|---|
200-400 | 32 | 300 | 9600 |
400-600 | 56 | 500 | 28000 |
600-800 | 120 | 700 | 84000 |
800-1000 | 104 | 900 | 93600 |
1000-1200 | 88 | 1100 | 96800 |
Итого | 400 | - | 312000 |
Средний размер вклада в Сбербанке города будет равен 780 рублей:
3) Среднее линейное отклонение есть средняя арифметическая из абсолютных отклонений отдельных значений признака от общей средней:
Порядок расчёта среднего линейонго отклонения в интервальном ряду распределения следующий:
1. Вычисляется средняя арифметическая взвешенная, как показано в п. 2).
2. Определяются абсолютные отклонения вариант от средней:
3. Полученные отклонения умножаются на частоты:
4. Находится сумма взвешенных отклонений без учёта знака:
5. Сумма взвешенных отклонений делится на сумму частот:
Удобно пользоваться таблицей расчётных данных:
Размер вклада, руб. | Число вкладчиков, f | Середина интервала, х | |||
---|---|---|---|---|---|
200-400 | 32 | 300 | -480 | 480 | 15360 |
400-600 | 56 | 500 | -280 | 280 | 15680 |
600-800 | 120 | 700 | -80 | 80 | 9600 |
800-1000 | 104 | 900 | 120 | 120 | 12480 |
1000-1200 | 88 | 1100 | 320 | 320 | 28160 |
Итого | 400 | - | - | - | 81280 |
Среднее линейное отклонение размера вклада клиентов Сбербанка составляет 203,2 рубля.
4) Дисперсия - это средняя арифметическая квадратов отклонений каждого значения признака от средней арифметической.
Расчёт дисперсии в интервальных рядах распределения производится по формуле:
Порядок расчёта дисперсии в этом случае следующий:
1. Определяют среднюю арифметическую взвешенную, как показано в п. 2).
2. Находят отклонения вариант от средней:
3. Возводят в квадрат отклонения каждой варианты от средней:
4. Умножают квадраты отклонений на веса (частоты):
5. Суммируют полученные произведения:
6. Полученная сумма делится на сумму весов (частот):
Расчёты оформим в таблицу:
Размер вклада, руб. | Число вкладчиков, f | Середина интервала, х | |||
---|---|---|---|---|---|
200-400 | 32 | 300 | -480 | 230400 | 7372800 |
400-600 | 56 | 500 | -280 | 78400 | 4390400 |
600-800 | 120 | 700 | -80 | 6400 | 768000 |
800-1000 | 104 | 900 | 120 | 14400 | 1497600 |
1000-1200 | 88 | 1100 | 320 | 102400 | 9011200 |
Итого | 400 | - | - | - | 23040000 |
Квадратный корень из дисперсии носит название среднего квадратического отклонения от средней, которое рассчитывается следующим образом:
Элементарное алгебраическое преобразование формулы среднего квадратического отклонения приводит ее к следующему виду:
Эта формула часто оказывается более удобной в практике расчетов.
Среднее квадратическое отклонение так же, как и среднее линейное отклонение, показывает, на сколько в среднем отклоняются конкретные значения признака от среднего их значения. Среднее квадратическое отклонение всегда больше среднего линейного отклонения. Между ними имеется такое соотношение:
Зная это соотношение, можно по известному показатели определить неизвестный, например, но (I рассчитать а и наоборот. Среднее квадратическое отклонение измеряет абсолютный размер колеблемости признака и выражается в тех же единицах измерения, что и значения признака (рублях, тоннах, годах и т.д.). Оно является абсолютной мерой вариации.
Для альтернативных признаков, например наличия или отсутствия высшего образования, страховки, формулы дисперсии и среднего квадратического отклонения такие:
Покажем расчет среднего квадратического отклонения по данным дискретного ряда, характеризующего распределение студентов одного из факультетов вуза по возрасту (табл. 6.2).
Таблица 6.2.
Результаты вспомогательных расчетов даны в графах 2-5 табл. 6.2.
Средний возраст студента, лет, определен по формуле средней арифметической взвешенной (графа 2):
Квадраты отклонения индивидуального возраста студента от среднего содержатся в графах 3-4, а произведения квадратов отклонений на соответствующие частоты - в графе 5.
Дисперсию возраста студентов, лет, найдем по формуле (6.2):
Тогда о = л/3,43 1,85 *ода, т.е. каждое конкретное значение возраста студента отклоняется от среднего значения на 1,85 года.
Коэффициент вариации
По своему абсолютному значению среднее квадратическое отклонение зависит не только от степени вариации признака, но и от абсолютных уровней вариантов и средней. Поэтому сравнивать средние квадратические отклонения вариационных рядов с различными средними уровнями непосредственно нельзя. Чтобы иметь возможность для такого сравнения, нужно найти удельный вес среднего отклонения (линейного или квадратического) в среднем арифметическом показателе, выраженном в процентах, т.е. рассчитать относительные показатели вариации.
Линейный коэффициент вариации вычисляют по формуле
Коэффициент вариации определяют по следующей формуле:
В коэффициентах вариации устраняется не только несопоставимость, связанная с различными единицами измерения изучаемого признака, но и несопоставимость, возникающая вследствие различий в величине средних арифметических. Кроме того, показатели вариации дают характеристику однородности совокупности. Совокупность считается однородной, если коэффициент вариации не превышает 33%.
По данным табл. 6.2 и полученным выше результатам расчетов определим коэффициент вариации, %, по формуле (6.3):
Если коэффициент вариации превышает 33%, то это свидетельствует о неоднородности изучаемой совокупности. Полученное в пашем случае значение говорит о том, что совокупность студентов по возрасту однородна по своему составу. Таким образом, важная функция обобщающих показателей вариации - оценка надежности средних. Чем меньше с1, а2 и V, тем однороднее полученная совокупность явлений и надежнее полученная средняя. Согласно рассматриваемому математической статистикой "правилу трех сигм" в нормально распределенных или близких к ним рядах отклонения от средней арифметической, не превосходящие ±3ст, встречаются в 997 случаях из 1000. Таким образом, зная х и а, можно получить общее первоначальное представление о вариационном ряде. Если, например, средняя заработная плата работника по фирме составила 25 000 руб., а а равна 100 руб., то с вероятностью, близкой к достоверности, можно утверждать, что заработная плата работников фирмы колеблется в пределах (25 000 ± ± 3 х 100) т.е. от 24 700 до 25 300 руб.