Доверительная вероятность и доверительный интервал. Доверительный интервал

Точность оценки, доверительная вероятность (надежность)

Доверительный интервал

При выборке малого объема следует пользоваться интервальными оценками т.к. это позволяет избежать грубых ошибок, в отличие от точечных оценок.

Интервальной называют оценку, которая определяется двумя числами - концами интервала, покрывающего оцениваемый параметр. Интервальные оценки позволяют установить точность и надежность оценок.

Пусть найденная по данным выборки статистическая характеристика * служит оценкой неизвестного параметра. Будем считать постоянным числом (может быть и случайной величиной). Ясно, что * тем точнее определяет параметр в, чем меньше абсолютная величина разности | - * |. Другими словами, если >0 и | - * | < , то чем меньше, тем оценка точнее. Таким образом, положительное число характеризует точность оценки.

Однако статистические методы не позволяют категорически утверждать, что оценка * удовлетворяет неравенству | - *|<, можно лишь говорить о вероятности, с которой это неравенство осуществляется.

Надежностью (доверительной вероятностью) оценки по * называют вероятность, с которой осуществляется неравенство | - *|<. Обычно надежность оценки задается наперед, причем в качестве берут число, близкое к единице. Наиболее часто задают надежность, равную 0,95; 0,99 и 0,999.

Пусть вероятность того, что | - *|<, равна т.е.

Заменив неравенство | - *|< равносильным ему двойным неравенством -<| - *|<, или *- <<*+, имеем

Р(*- < <*+)=.

Доверительным называют интервал (*- , *+), который покрывает неизвестный параметр с заданной надежностью.

Доверительные интервалы для оценки математического ожидания нормального распределения при известном.

Интервальной оценкой с надежностью математического ожидания а нормально распределенного количественного признака Х по выборочной средней х при известном среднем квадратическом отклонении генеральной совокупности служит доверительный интервал

х - t(/n^?) < a < х + t(/n^?),

где t(/n^?)= - точность оценки, n - объем выборки, t - значение аргумента функции Лапласа Ф(t), при котором Ф(t)=/2.

Из равенства t(/n^?)=, можно сделать следующие выводы:

1. при возрастании объема выборки n число убывает и, следовательно, точность оценки увеличивается;

2. увеличение надежности оценки = 2Ф(t) приводит к увеличению t (Ф(t) -- возрастающая функция), следовательно, и к возрастанию; другими словами, увеличение надежности классической оценки влечет за собой уменьшение ее точности.

Пример. Случайная величина X имеет нормальное распределение с известным средним квадратическим отклонением =3. Найти доверительные интервалы для оценки неизвестного математического ожидания a по выборочным средним х, если объем выборки n = 36 и задана надежность оценки = 0,95.

Решение. Найдем t. Из соотношения 2Ф(t) = 0,95 получим Ф (t) = 0,475. По таблице находим t=1,96.

Найдем точность оценки:

точность доверительный интервал измерение

T(/n^?)= (1 ,96 . 3)/ /36 = 0,98.

Доверительный интервал таков: (х - 0,98; х + 0,98). Например, если х = 4,1, то доверительный интервал имеет следующие доверительные границы:

х - 0,98 = 4,1 - 0,98 = 3,12; х + 0,98 = 4,1+ 0,98 = 5,08.

Таким образом, значения неизвестного параметра а, согласующиеся с данными выборки, удовлетворяют неравенству 3,12 < а < 5,08. Подчеркнем, что было бы ошибочным написать Р (3,12 < а < 5,08) = 0,95. Действительно, так как а - постоянная величина, то либо она заключена в найденном интервале (тогда событие 3,12 < а < 5,08 достоверно и его вероятность равна единице), либо в нем не заключена (в этом случае событие 3,12 < а < 5,08 невозможно и его вероятность равна нулю). Другими словами, доверительную вероятность не следует связывать с оцениваемым параметром; она связана лишь с границами доверительного интервала, которые, как уже было указано, изменяются от выборки к выборке.

Поясним смысл, который имеет заданная надежность. Надежность = 0,95 указывает, что если произведено достаточно большое число выборок, то 95% из них определяет такие доверительные интервалы, в которых параметр действительно заключен; лишь в 5% случаев он может выйти за границы доверительного интервала.

Если требуется оценить математическое ожидание с наперед заданной точностью и надежностью, то минимальный объем выборки, который обеспечит эту точность, находят по формуле

Доверительные интервалы для оценки математического ожидания нормального распределения при неизвестном

Интервальной оценкой с надежностью математического ожидания а нормально распределенного количественного признака Х по выборочной средней х при неизвестном среднем квадратическом отклонении генеральной совокупности служит доверительный интервал

х - t()(s/n^?) < a < х + t()(s/n^?),

где s -«исправленное» выборочное среднее квадратическое отклонение, t() находят по таблице по заданным и n.

Пример. Количественный признак X генеральной совокупности распределен нормально. По выборке объема n=16 найдены выборочная средняя x = 20,2 и «исправленное» среднее квадратическое отклонение s = 0,8. Оценить неизвестное математическое ожидание при помощи доверительного интервала с надежностью 0,95.

Решение. Найдем t(). Пользуясь таблицей, по = 0,95 и n=16 находим t()=2,13.

Найдем доверительные границы:

х - t()(s/n^?) = 20,2 - 2,13 *. 0 ,8/16^? = 19,774

х + t()(s/n^?) = 20,2 + 2,13 * 0 ,8/16^? = 20,626

Итак, с надежностью 0,95 неизвестный параметр а заключен в доверительном интервале 19,774 < а < 20,626

Оценка истинного значения измеряемой величины

Пусть производится n независимых равноточных измерений некоторой физической величины, истинное значение а которой неизвестно.

Будем рассматривать результаты отдельных измерений как случайные величины Хl, Х2,…Хn. Эти величины независимы (измерения независимы). Имеют одно и то же математическое ожидание а (истинное значение измеряемой величины), одинаковые дисперсии ^2 (измерения равноточные) и распределены нормально (такое допущение подтверждается опытом).

Таким образом, все предположения, которые были сделаны при выводе доверительных интервалов, выполняются, и, следовательно, мы вправе использовать формулы. Другими словами, истинное значение измеряемой величины можно оценивать по среднему арифметическому результатов отдельных измерений при помощи доверительных интервалов.

Пример. По данным девяти независимых равноточных измерений физической величины найдены среднее арифметической результатов отдельных измерений х = 42,319 и «исправленное» среднее квадратическое отклонение s = 5,0. Требуется оценить истинное значение измеряемой величины с надежностью = 0,95.

Решение. Истинное значение измеряемой величины равно ее математическому ожиданию. Поэтому задача сводится к. оценке математического ожидания (при неизвестном) при помощи доверительного интервала покрывающего а с заданной надежностью = 0,95.

х - t()(s/n^?) < a < х + t()(s/n^?)

Пользуясь таблицей, по у = 0,95 и л = 9 находим

Найдем точность оценки:

t()(s/n^?) = 2 ,31 * 5/9^?=3.85

Найдем доверительные границы:

х - t()(s/n^?) = 42,319 - 3,85 = 38,469;

х + t()(s/n^?) = 42,319 +3,85 = 46,169.

Итак, с надежностью 0,95 истинное значение измеряемой величины заключено в доверительном интервале 38,469 < а < 46,169.

Доверительные интервалы для оценки среднего квадратического отклонения нормального распределения.

Пусть количественный признак X генеральной совокупности распределен нормально. Требуется оценить неизвестное генеральное среднее квадратическое отклонение по «исправленному» выборочному среднему квадратическому отклонению s. Для этого воспользуемся интервальной оценкой.

Интервальной оценкой (с надежностью) среднего квадратического отклонения о нормально распределенного количественного признака X по «исправленному» выборочному среднему квадратическому отклонению s служит доверительный интервал

s (1 -- q) < < s (1 + q) (при q < 1),

0 < < s (1 + q) (при q > 1),

где q находят по таблице по заданным n н.

Пример 1. Количественный признак X генеральной совокупности распределен нормально. По выборке объема n = 25 найдено «исправленное» среднее квадратическое отклонение s = 0,8. Найти доверительный интервал, покрывающий генеральное среднее квадратическое отклонение с надежностью 0,95.

Решение. По таблице по данным = 0,95 и n = 25 найдем q = 0,32.

Искомый доверительный интервал s (1 -- q) < < s (1 + q) таков:

0,8(1-- 0,32) < < 0,8(1+0,32), или 0,544 < < 1,056.

Пример 2. Количественный признак X генеральной совокупности распределен нормально. По выборке объема n=10 найдено «исправленное» среднее квадратическое отклонение s = 0,16. Найти доверительный интервал, покрывающий генеральное среднее квадратическое отклонение с надежностью 0,999.

Решение. По таблице приложения по данным = 0,999 и n=10 найдем 17= 1,80 (q > 1). Искомый доверительный интервал таков:

0 < < 0,16(1 + 1,80), или 0 < < 0,448.

Оценка точности измерений

В теории ошибок принято точность измерений (точность прибора) характеризовать с помощью среднего квадратического отклонения случайных ошибок измерений. Для оценки используют «исправленной» среднее квадратическое отклонение s. Поскольку обычно результаты измерений взаимно независимы, имеют одно и то же математическое ожидание (истинное значение измеряемой величины) и одинаковую дисперсию (в случае равноточных измерений), то теория, изложенная в предыдущем параграфе, применима для оценки точности измерений.

Пример. По 15 равноточным измерениям найдено «исправленное» среднее квадратическое отклонение s = 0,12. Найти точность измерений с надежностью 0,99.

Решение. Точность измерений характеризуется средним квадратическим отклонением случайных ошибок, поэтому задача сводится к отысканию доверительного интервала s (1 -- q) < < s (1 + q) , покрывающего с заданной надежностью 0,99

По таблице приложения по = 0,99 и n=15 найдем q = 0,73.

Искомый доверительный интервал

0,12(1-- 0,73) < < 0,12(1+0,73), или 0.03 < < 0,21.

Оценка вероятности (биномиального распределения) по относительной частоте

Интервальной оценкой (с надежностью) неизвестной вероятности p биномиального распределения по относительной частоте w служит доверительный интервал (с приближенными концами p1 и р2)

p1 < p < p2,

где n - общее число испытаний; m - число появлений события; w - относительная частота, равная отношению m/n; t - значение аргумента функции Лапласа, при котором Ф(t) = /2.

Замечание. При больших значениях n (порядка сотен) можно принять в качестве приближенных границ доверительного интервала

Часто оценщику приходится анализировать рынок недвижимости того сегмента, в котором располагается объект оценки. Если рынок развит, проанализировать всю совокупность представленных объектов бывает сложно, поэтому для анализа используется выборка объектов. Не всегда эта выборка получается однородной, иногда требуется очистить ее от экстремумов - слишком высоких или слишком низких предложений рынка. Для этой цели применяется доверительный интервал . Цель данного исследования - провести сравнительный анализ двух способов расчета доверительного интервала и выбрать оптимальный вариант расчета при работе с разными выборками в системе estimatica.pro.

Доверительный интервал - вычисленный на основе выборки интервал значений признака, который с известной вероятностью содержит оцениваемый параметр генеральной совокупности.

Смысл вычисления доверительного интервала заключается в построении по данным выборки такого интервала, чтобы можно было утверждать с заданной вероятностью, что значение оцениваемого параметра находится в этом интервале. Другими словами, доверительный интервал с определенной вероятностью содержит неизвестное значение оцениваемой величины. Чем шире интервал, тем выше неточность.

Существуют разные методы определения доверительного интервала. В этой статье рассмотрим 2 способа:

  • через медиану и среднеквадратическое отклонение;
  • через критическое значение t-статистики (коэффициент Стьюдента).

Этапы сравнительного анализа разных способов расчета ДИ:

1. формируем выборку данных;

2. обрабатываем ее статистическими методами: рассчитываем среднее значение, медиану, дисперсию и т.д.;

3. рассчитываем доверительный интервал двумя способами;

4. анализируем очищенные выборки и полученные доверительные интервалы.

Этап 1. Выборка данных

Выборка сформирована с помощью системы estimatica.pro. В выборку вошло 91 предложение о продаже 1 комнатных квартир в 3-ем ценовом поясе с типом планировки «Хрущевка».

Таблица 1. Исходная выборка

Цена 1 кв.м., д.е.

Рис.1. Исходная выборка



Этап 2. Обработка исходной выборки

Обработка выборки методами статистики требует вычисления следующих значений:

1. Среднее арифметическое значение

2. Медиана - число, характеризующее выборку: ровно половина элементов выборки больше медианы, другая половина меньше медианы

(для выборки, имеющей нечетное число значений)

3. Размах - разница между максимальным и минимальным значениями в выборке

4. Дисперсия - используется для более точного оценивания вариации данных

5. Среднеквадратическое отклонение по выборке (далее - СКО) - наиболее распространённый показатель рассеивания значений корректировок вокруг среднего арифметического значения.

6. Коэффициент вариации - отражает степень разбросанности значений корректировок

7. коэффициент осцилляции - отражает относительное колебание крайних значений цен в выборке вокруг средней

Таблица 2. Статистические показатели исходной выборки

Коэффициент вариации, который характеризует однородность данных, составляет 12,29%, однако коэффициент осцилляции слишком велик. Таким образом, мы можем утверждать, что исходная выборка не является однородной, поэтому перейдем к расчету доверительного интервала.

Этап 3. Расчёт доверительного интервала

Способ 1. Расчёт через медиану и среднеквадратическое отклонение.

Доверительный интервал определяется следующим образом: минимальное значение - из медианы вычитается СКО; максимальное значение - к медиане прибавляется СКО.

Таким образом, доверительный интервал (47179 д.е.; 60689 д.е.)

Рис. 2. Значения, попавшие в доверительный интервал 1.



Способ 2. Построение доверительного интервала через критическое значение t-статистики (коэффициент Стьюдента)

С.В. Грибовский в книге «Математические методы оценки стоимости имущества» описывает способ вычисления доверительного интервала через коэффициент Стьюдента. При расчете этим методом оценщик должен сам задать уровень значимости ∝, определяющий вероятность, с которой будет построен доверительный интервал. Обычно используются уровни значимости 0,1; 0,05 и 0,01. Им соответствуют доверительные вероятности 0,9; 0,95 и 0,99. При таком методе полагают истинные значения математического ожидания и дисперсии практически неизвестными (что почти всегда верно при решении практических задач оценки).

Формула доверительного интервала:

n - объем выборки;

Критическое значение t- статистики (распределения Стьюдента) с уровнем значимости ∝,числом степеней свободы n-1,которое определяется по специальным статистическим таблицам либо с помощью MS Excel ( →"Статистические"→ СТЬЮДРАСПОБР);

∝ - уровень значимости, принимаем ∝=0,01.

Рис. 2. Значения, попавшие в доверительный интервал 2.

Этап 4. Анализ разных способов расчета доверительного интервала

Два способа расчета доверительного интервала - через медиану и коэффициент Стьюдента - привели к разным значениям интервалов. Соответственно, получилось две различные очищенные выборки.

Таблица 3. Статистические показатели по трем выборкам.

Показатель

Исходная выборка

1 вариант

2 вариант

Среднее значение

Дисперсия

Коэф. вариации

Коэф. осциляции

Количество выбывших объектов, шт.

На основании выполненных расчетов можно сказать, что полученные разными методами значения доверительных интервалов пересекаются, поэтому можно использовать любой из способов расчета на усмотрение оценщика.

Однако мы считаем, что при работе в системе estimatica.pro целесообразно выбирать метод расчета доверительного интервала в зависимости от степени развитости рынка:

  • если рынок неразвит, применять метод расчета через медиану и среднеквадратическое отклонение, так как количество выбывших объектов в этом случае невелико;
  • если рынок развит, применять расчет через критическое значение t-статистики (коэффициент Стьюдента), так как есть возможность сформировать большую исходную выборку.

При подготовке статьи были использованы:

1. Грибовский С.В., Сивец С.А., Левыкина И.А. Математические методы оценки стоимости имущества. Москва, 2014 г.

2. Данные системы estimatica.pro

Доверительный интервал. Доверительная вероятность.

ПРИМЕНЕНИЕ ТЕОРИИ ВЕРОЯТНОСТИ К СТАТИСТИКЕ.

Основные понятия.

Математическая статистика - это раздел математики, в котором изучаются методы обработки и анализа экспериментальных данных, полученных в результате наблюдений над массовыми случайными событиями, явлениями.

Наблюдения, проводимые над объектами, могут охватывать всех членов изучаемой совокупности без исключения и могут ограничиваться обследованиями лишь некоторой части членов данной совокупности. Первое наблюдение называется сплошным или полным, второе частичным или выборочным .

Естественно, что наиболее полную информацию дает сплошное наблюдение, однако к нему прибегают далеко не всегда. Во-первых, сплошное наблюдение очень трудоемко, а во-вторых, часто бывает практически невозможно или даже нецелесообразно. Поэтому в подавляющем большинстве случаев прибегают к выборочному исследованию.

Совокупность, из которой некоторым образом отбирается часть ее членов для совместного изучения, называется генеральной совокупностью , а отобранная тем или иным способом часть генеральной совокупности - выборочная совокупность или выборка .

Объем генеральной совокупности теоретически ничем неограничен , на практике же он всегда ограничен.

Объем выборки может быть большим или малым, но он не может быть меньше двух.

Отбор в выборку можно проводить случайным способом (по способу жеребьевки или лотереи). Либо планово, в зависимости от задачи и организации обследования. Для того, чтобы выборка была представительной, необходимо обращать внимание на размах варьирования признака и согласовывать с ним объем выборки.

2. Определение неизвестной функции распределения.

Итак, мы сделали выборку. Разобьем диапазон наблюдаемых значений на интервалы , , …. одинаковой длины . Для оценки необходимого числа интервалов можно использовать следующие формулы:

Далее пусть m i - число наблюдаемых значений , попавших в i -ый интервал. Разделив m i на общее число наблюдений n , получим частоту , соответствующую i -ому интервалу: , причем . Составим следующую таблицу:

Номер интервала Интервал m i
m 1
m 2
... ... ... ...
k m k

которая называется статистическим рядом . Эмпирической (или статистической ) функцией распределения случайной величины называется частота события, заключающегося в том, что величина в результате опыта примет значение, меньшее x :

На практике достаточно найти значения статистической функции распределения F * (x) в точках , которые являются границами интервалов статистического ряда:

(5.2)

Следует заметить, что при и при . Построив точки и соединив их плавной кривой, получим приближенный график эмпирической функции распределения (рис. 5.1). Используя закон больших чисел Бернулли, можно доказать, что при достаточно большом числе испытаний с вероятностью, близкой к единице, эмпирическая функция распределения отличается сколь угодно мало от неизвестной нам функции распределения случайной величины .

Часто вместо построения графика эмпирической функции распределения поступают следующим образом. На оси абсцисс откладывают интервалы , ,…. . На каждом интервале строят прямоугольник, площадь которого равна частоте , соответствующей данному интервалу. Высота h i этого прямоугольника равна , где - длинна каждого из интервалов. Ясно, что сумма площадей всех построенных прямоугольников равна единице.

Рассмотрим функцию , которая в интервале постоянна и равна . График этой функции называется гистограммой . Он представляет собой ступенчатую линию (рис. 5.2). С помощью закона больших чисел Бернулли можно доказать, что при малых и больших с практической достоверностью как угодно мало отличается от плотности распределения непрерывной случайной величины .

Таким образом на практике определяется вид неизвестной функции распределения случайной величины.

3. Определение неизвестных параметров распределения.

Таким образом мы получили гистограмму, которая дает наглядность. Наглядность представленных результатов позволяет сделать различные заключения, суждения об исследуемом объекте.

Однако на этом обычно не останавливаются, а идут дальше, анализируя данные на проверку определенных предположений относительно возможных механизмов изучаемых процессов или явлений.

Несмотря на то, что данных в каждом обследовании сравнительно немного, мы бы хотели, чтобы результаты анализа достаточно хорошо описывали бы все реально существующее или мыслимое множество (т.е. генеральную совокупность).

Для этого делают некоторые предположения о том, как вычисленные на основе экспериментальных данных (выборке) показатели соотносятся с параметрами генеральной совокупности.

Решение этой задачи составляет главную часть любого анализа экспериментальных данных и тесно связано с использованием ряда теоретических распределений, рассмотренных выше.

Широкое использование в статистических выводах нормального распределения имеет под собой как эмпирическое, так и теоретическое обоснование.

Во-первых, практика показывает, что во многих случаях нормальное распределение действительно является довольно точным представлением экспериментальных данных.

Во-вторых, теоретически показано, что средние значения интервалов гистограмм распределены по закону, близкому к нормальному.

Однако следует четко представлять, что нормальное распределение - это лишь чисто математический инструмент и совсем необязательно, чтобы реальные экспериментальные данные точно описывались нормальным распределением. Хотя во многих случаях, допуская небольшую ошибку, можно говорить, что данные распределены нормально.

Ряд показателей, такие как среднее, дисперсия и т.д., характеризуют выборку и называются статистиками. Такие же показатели, но относящиеся к генеральной совокупности в целом, называются параметрами. Таким образом, можно сказать, что статистики служат для оценки параметров.

Генеральной средней называется среднее арифметическое значений генеральной совокупности объема :

Выборочной средней называется среднее арифметическое выборки объема :

(5.4)

если выборка имеет вид таблицы.

Выборочную среднюю принимают в качестве оценки генеральной средней.

Генеральной дисперсией называется среднее арифметическое квадратов отклонения значений генеральной совокупности от их среднего значения :

Генеральным средним квадратическим отклонением называется корень квадратный из генеральной дисперсии: .

Выборочной дисперсией называется среднее арифметическое квадратов отклонения значений выборки от их среднего значения :

Выборочное среднее квадратическое отклонение определяется как .

Для лучшего совпадения с результатами экспериментов, вводят понятие эмпирической (или исправленной) дисперсии :

Для оценки генерального среднего квадратического отклонения служит исправленное среднее квадратическое отклонение, или эмпирический стандарт :

(5.5)

В случае, когда все значения выборки различны, т.е. , , формулы для и принимают вид:

(5.6)

Доверительный интервал. Доверительная вероятность.

Различные статистики, получаемые результате вычислений, представляют собой точечные оценки соответствующих параметров генеральной совокупности.

Если из генеральной совокупности извлечь некоторое количество выборок и для каждой из них найти интересующие нас статистики, то вычисленные значения будут представлять собой случайные величины, имеющие некоторый разброс вокруг оцениваемого параметра.

Но, как правило, в результате эксперимента в распоряжении исследователя имеется одна выборка. Поэтому значительный интерес представляет получение интервальной оценки, т.е. некоторого интервала, внутри которого, как можно предположить, лежит истинное значение параметра.

Вероятности, признанные достаточными для уверенных суждениях о параметрах генеральной совокупности на основании статистик, называются доверительными.

Для примера рассмотрим как оценку параметра .

Теоремы 1 и 2 хотя и являются общими, т. е. сформулированы при достаточно широких предположениях, они не дают возможности установить, насколько близки оценки к оцениваемым параметрам. Из факта, что -оценки являются состоятельными, следует только то, что при увеличении объема выборки значение P (|θ * – θ | < δ), δ < 0, приближается к 1.

Возникают следующие вопросы.

1) Каким должен быть объем выборки п, чтобы заданная точность
|θ * – θ | = δ была гарантирована с заранее принятой вероятностью?

2) Какова точность оценки, если объем выборки известен и вероятность безошибочности вывода задана?

3) Какова вероятность того, что при заданном объеме выборки будет обеспечена заданная точность оценки?

Введем несколько новых определений.

Определение. Вероятность γ выполнения неравенства, |θ *– θ | < δ называется доверительной вероятностью или надежностью оценки θ .

Перейдем от неравенства |θ *–θ | < δ к двойному неравенству. Известно, что . Поэтому доверительную вероятность можно записать в виде

Так как θ (оцениваемый параметр) – число постоянное, а θ * – величина случайная, понятие доверительной вероятности сформулировать так: доверительной вероятностью γ называется вероятность того, что интервал (θ *– δ, θ *+ δ) накрывает оцениваемый параметр.

Определение. Случайный интервал (θ *–δ , θ *+δ ), в пределах которого с вероятностью γ находится неизвестный оцениваемый параметр, называется доверительным интервалом İ , соответствующим коэффициенту доверия γ,

İ= (θ*– δ, θ*+ δ ). (3)

Надежность оценки γ может задаваться заранее, тогда, зная закон распределения изучаемой случайной величины, можно найти доверительный интервал İ . Решается и обратная задача, когда по заданному İ находится соответствующая надежность оценки.

Пусть, например, γ = 0,95; тогда число р = 1 – у = 0,05 показывает, с какой вероятностью заключение о надежности оценки ошибочно. Число р=1–γ называется уровнем значимости. Уровень значимости задается заранее в зависимости от конкретного случая. Обычно р принимают равным 0,05; 0,01; 0,001.

Выясним, как построить доверительный интервал для математического ожидания нормально распределенного признака. Было показано, что

Оценим математическое ожидание с помощью выборочной средней учитывая, что также имеет нормальное распределение*. Имеем

(4)

а по формуле (12.9.2) получаем

Принимая во внимание (13.5.12), получим

(5)

Пусть известна вероятность γ . Тогда

Для удобства пользования таблицей функции Лапласа положим тогда а

Интервал

(7)

накрывает параметр а = М (Х ) с вероятностью γ .

В большинстве случаев среднее квадратическое отклонение σ(Х) исследуемого признака неизвестно. Поэтому вместо σ (Х ) при большой выборке (n > 30) применяют исправленное выборочное среднее квадратическое отклонение s , являющееся, в свою очередь оценкой σ (X ), доверительный интервал будет иметь вид

İ =

Пример. С вероятностью γ = 0,95 найти доверительный интервал для М (Х ) – длины колоса ячменя сорта «Московский 121». Распределение задается таблицей, в которой" вместо интервалов изменения (х i , х i + 1) взяты числа , см. Считать, что случайная величина X подчинена нормальному распределению.

Решение. Выборка большая (n = 50). Имеем

Найдем точность оценки

Определим доверительные границы:

Таким образом, с надежностью γ = 0,95 математическое ожидание заключено в доверительном интервале I = (9,5; 10,3).

Итак, в случае большой выборки (n > 30), когда исправленное среднее квадратическое отклонение незначительно отклоняется от среднего квадратического отклонения значения признака в генеральной совокупности, можно найти доверительный интервал. Но делать большую выборку удается не всегда и это не всегда целесообразно. Из (7) видно, что чем меньше п, тем шире доверительный интервал, т. е. I зависит от объема выборки п.

Английский статистик Госсет (псевдоним Стьюдент) доказал, что в случае нормального распределения признака X в генеральной совокупности нормирования случайная величина

(8)

зависит только от объема выборки. Была найдена функция распределения случайной величины Т и вероятность P (T < t γ ), t γ – точность оценки. Функция, определяемая равенством

s (n , t γ ) = P (|T | < t γ ) = γ (9)

названа t-распределением Стьюдента с п – 1 степенями свободы. Формула (9) связывает случайную величину Т, доверительный интервал İ и доверительную вероятность γ . Зная две из них, можно найти третью. Учитывая (8), имеем

(10)

Неравенство в левой части (13.7.10) заменим равносильным ему неравенством . В результате получим

(11)

где t γ =t (γ ,n ). Для функции t γ составлены таблицы (см. Приложение 5). При n >30 числа t γ и t, найденные по таблице функции Лапласа, практически совпадают.

Доверительный интервал для оценки среднего квадратического отклонения σ x в случае нормального распределения.

Теорема. Пусть известно, что случайная величина имеет нормальное распределение. Тогда для оценки параметра σ х этого закона имеет место равенство

(12)

где γ – доверительная вероятность, зависящая от объема выборки п и точности оценки β .

Функция γ = Ψ (n , β ) хорошо изучена. С ее помощью определяют β = β (γ ,п ). Для β = β (γ ,п ) составлены таблицы, по которым по известным п (объему выборки) и γ (доверительной вероятности) определяется β .

Пример. Для оценки параметра нормально распределенной случайной величины была сделана выборка (дневной удой 50 коров) и вычислено s = 1,5. Найти доверительный интервал, накрывающий с вероятностью γ = 0,95.

Решение. По таблице β (γ , п) для n = 50 и γ = 0,95 находим β = 0,21 (см. Приложение 6).

В соответствии с неравенством (13) найдем границы доверительного интервала. Имеем

1,5 – 0,21·1,5 = 1,185; 1,5 + 0,21·1,5 = 1,185;



Понравилась статья? Поделитесь с друзьями!