3 просмотров

Доверительный интервал для разницы двух долей населения

Формула доверительного интервала для разности двух пропорций

Доверительные интервалы являются частью логической статистики. Основная идея этой темы заключается в оценке значения неизвестного параметра генеральной совокупности с использованием статистической выборки. Мы можем не только оценить значение параметра, но и адаптировать наши методы для оценки разницы между двумя связанными параметрами. Например, мы можем захотеть найти разницу в процентной доле избирателей-мужчин в США, которые поддерживают определенный законодательный акт, по сравнению с избирателями-женщинами.

Мы увидим, как выполнить этот тип расчета, построив доверительный интервал для разницы двух долей населения. В процессе мы рассмотрим некоторые теории, лежащие в основе этого расчета. Мы увидим некоторое сходство в том, как мы строим доверительный интервал для одной доли населения, а также доверительный интервал для разницы двух средних значений населения.

Общие положения

Прежде чем рассматривать конкретную формулу, которую мы будем использовать, давайте рассмотрим общую структуру, в которую вписывается этот тип доверительного интервала. Форма типа доверительного интервала, который мы рассмотрим, задается следующей формулой:

Оценка +/- погрешность

Многие доверительные интервалы относятся к этому типу.Нам нужно вычислить два числа. Первое из этих значений является оценкой параметра. Второе значение — это предел погрешности. Эта погрешность объясняет тот факт, что у нас есть оценка. Доверительный интервал дает нам диапазон возможных значений для нашего неизвестного параметра.

Условия

Мы должны убедиться, что все условия выполнены, прежде чем делать какие-либо расчеты. Чтобы найти доверительный интервал для разницы двух долей населения, нам нужно убедиться, что выполняется следующее:

  • У нас есть две простые случайные выборки из больших популяций. Здесь «большой» означает, что совокупность как минимум в 20 раз превышает размер выборки. Размеры выборки будут обозначаться н1 а также н2.
  • Наши люди были выбраны независимо друг от друга.
  • В каждой из наших выборок есть как минимум десять успехов и десять неудач.

Если последний пункт в списке не устраивает, то может быть способ обойти это. Мы можем изменить построение доверительного интервала плюс четыре и получить надежные результаты. По мере продвижения вперед мы предполагаем, что все вышеперечисленные условия соблюдены.

Выборки и доли населения

Теперь мы готовы построить наш доверительный интервал. Мы начнем с оценки разницы между нашими пропорциями населения. Обе эти доли населения оцениваются по выборочной доле. Эти пропорции выборки представляют собой статистические данные, которые находятся путем деления количества успехов в каждой выборке, а затем деления на соответствующий размер выборки.

Первая доля населения обозначается п1. Если количество успехов в нашей выборке из этой популяции равно к1, то имеем выборочную долю к1 / п1.

Обозначим эту статистику через p̂1. Мы читаем этот символ как «p1-шляпа", потому что это похоже на символ p1 с шапкой сверху.

Аналогичным образом мы можем рассчитать долю выборки из нашей второй совокупности. Параметр из этой популяции равен п2. Если количество успехов в нашей выборке из этой популяции равно к2, а наша выборочная доля равна p̂2 = к2 / п2.

Эти две статистики становятся первой частью нашего доверительного интервала. Оценка п11. Оценка п22. Итак, оценка разницы п1п21 — п2.

Выборочное распределение разницы пропорций выборки

Далее нам нужно получить формулу для погрешности. Для этого мы сначала рассмотрим выборочное распределение p̂1 . Это биномиальное распределение с вероятностью успеха п1 а также н1 испытания. Среднее значение этого распределения есть пропорция п1. Стандартное отклонение случайной величины этого типа имеет дисперсию п1 (1 — п1 )/н1.

Выборочное распределение p̂2 похож на p̂1 . Просто измените все индексы с 1 на 2, и мы получим биномиальное распределение со средним значением p.2 и дисперсия п2 (1 — п2 )/н2.

Теперь нам нужно несколько результатов из математической статистики, чтобы определить выборочное распределение p̂1 — п2. Среднее значение этого распределения равно п1п2. Из-за того, что дисперсии складываются, мы видим, что дисперсия выборочного распределения равна п1 (1 — п1 )/н1 + п2 (1 — п2 )/н2. Стандартное отклонение распределения — это квадратный корень этой формулы.

Есть пара корректировок, которые нам нужно сделать. Во-первых, формула для стандартного отклонения p̂1 — п2 использует неизвестные параметры п1 а также п2. Конечно, если бы мы действительно знали эти значения, то это вообще не было бы интересной статистической проблемой. Нам не нужно было бы оценивать разницу между п1 а также п2.. Вместо этого мы могли бы просто вычислить точную разницу.

Эту проблему можно решить, вычислив стандартную ошибку, а не стандартное отклонение. Все, что нам нужно сделать, это заменить пропорции генеральной совокупности пропорциями выборки. Стандартные ошибки рассчитываются по статистике, а не по параметрам.Стандартная ошибка полезна, потому что она эффективно оценивает стандартное отклонение. Для нас это означает, что нам больше не нужно знать значение параметров п1 а также п2. .Поскольку эти пропорции выборки известны, стандартная ошибка определяется квадратным корнем из следующего выражения:

Второй пункт, на который нам нужно обратить внимание, — это конкретная форма нашего выборочного распределения. Оказывается, мы можем использовать нормальное распределение для аппроксимации выборочного распределения p̂1 — п2. Причина этого несколько техническая, но описана в следующем абзаце.

Оба p̂1 и р̂2 имеют биномиальное распределение выборки. Каждое из этих биномиальных распределений может быть достаточно хорошо аппроксимировано нормальным распределением. Таким образом, p̂1 — п2 является случайной величиной. Он формируется как линейная комбинация двух случайных величин. Каждый из них аппроксимируется нормальным распределением. Следовательно, выборочное распределение p̂1 — п2 также имеет нормальное распределение.

Формула доверительного интервала

Теперь у нас есть все необходимое для построения нашего доверительного интервала. Оценка (p̂1 — п2), а погрешность г* [ п1 (1 — п̂1 )/н1 + п̂2 (1 — п̂2 )/н2.] 0,5 . Значение, которое мы вводим для г* определяется уровнем уверенности С. Часто используемые значения для г* составляют 1,645 для достоверности 90% и 1,96 для достоверности 95%. Эти значения для г* обозначают часть стандартного нормального распределения, где точно С процент распределения находится между -z* а также г*.

Следующая формула дает нам доверительный интервал для разницы двух долей населения:

голоса
Рейтинг статьи
Статья в тему:  Покупка коллекции камней
Ссылка на основную публикацию
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x