Статистика - требуемый размер выборки

Важной частью тестирования является выбор меры теста, то есть количества единиц, которые должны быть выбраны из числа населения для завершения исследования. Не существует однозначного ответа или ответа для характеристики наиболее подходящего размера. Есть определенные ошибочные суждения относительно диапазона теста, например, пример должен составлять 10% населения, или размер образца относительно размера вселенной. Однако, как уже было сказано, это просто ошибочные суждения. Насколько обширным должен быть образец, является способность разновидности в изучаемых параметрах населения и точность оценки, требуемая специалистом.

Решение об оптимальном размере образца может быть принято с двух сторон, а именно. субъективный и математический.

  1. Субъективный подход к определению размера выборки

  2. Математический подход к определению размера выборки

Субъективный подход к определению размера выборки

На выбор размера образца влияют различные факторы, которые обсуждаются ниже:

  • Характер населения - уровень однородности или неоднородности влияет на размер образца. Если существует вероятность того, что население однородно в отношении качеств, представляющих интерес, тогда даже небольшой размер образца является адекватным. Однако в случае разнородности населения потребуется более крупный пример, чтобы гарантировать достаточную репрезентативность.

  • Характер респондента - если респонденты легко доступны и доступны, необходимые данные можно получить из небольшого примера. Если существует вероятность того, что, несмотря на это, респонденты не будут сотрудничать, а вероятность отсутствия реакции будет высокой, тогда потребуется более крупный образец.

  • Характер обучения . Одноразовое исследование может быть проведено на существенном примере. Если должно иметь место проведение экзаменационных исследований, которые носят постоянный характер и должны быть серьезно завершены, маленький образец является более подходящим, так как его трудно отследить и держать небольшой пример в течение длительного времени.

  • Используемая методика отбора проб. Существенной переменной, влияющей на продолжительность теста, является полученная система исследования. Во-первых, система без правдоподобия требует большего образца, чем стратегия правдоподобия. Помимо проверки правдоподобия, если используется прямое нерегулярное исследование, это требует большего примера, чем при использовании стратификации, где достаточно небольшого образца.

  • Сложность составления таблиц. При определении оценки образца специалист должен также учитывать количество классификаций и классов, в которые должны быть собраны и разбиты открытия. Было видно, что чем больше будет произведено классификаций, тем больше будет размер примера. Поскольку с каждым классом должно быть достаточно разговоров, требуется более крупный образец, чтобы дать надежную оценку самой маленькой классификации.

  • Доступность ресурсов - активы и время, доступные специалисту, влияют на продолжительность теста. Экзамен представляет собой период с перераспределением денежных средств, при этом такие упражнения, как готовность инструмента, заключение контрактов и подготовка полевого персонала, транспортные расходы и т. Д., Требуют значительного объема активов. Впоследствии, если ученому не хватит времени и доступных опор, он остановится на небольшом примере.

  • Требуемая степень точности и точности . Из нашего предыдущего дискурса стало ясно, что точность, которая измеряется стандартной ошибкой, будет высокой только в том случае, если SE меньше или размер примера значителен.

Также для получения высокого уровня точности требуется более крупный образец. Кроме этих субъективных усилий, размер выборки также может быть определен математически.

Математический подход к определению размера выборки

В математическом подходе к определению размера выборки сначала указывается требуемая точность оценки, а затем определяется размер выборки. Точность может быть указана как $ {\ pm} $ 1 от истинного среднего значения с уровнем достоверности 99%. Это означает, что если среднее значение выборки равно 200, то истинное значение среднего будет между 199 и 201. Этот уровень точности обозначается термином «с»

Определение размера образца для средних.

Доверительный интервал для среднего значения вселенной определяется как

$ {\ bar x \ pm Z \ frac {\ sigma_p} {\ sqrt N} \ или \ \ bar x \ pm e} $

Где -

  • $ {\ bar x} $ = примерное среднее

  • $ {e} $ = допустимая ошибка

  • $ {Z} $ = значение стандартного нормального изменения при заданном уровне достоверности

  • $ {\ sigma_p} $ = Стандартное отклонение населения

  • $ {n} $ = Размер образца

Допустимая ошибка 'e', т.е. разница между $ {\ mu} $ и $ {\ bar x} $, определяется как

$ {Z. \ frac {\ sigma_p} {\ sqrt N}} $

Таким образом, размер выборки составляет:

$ {n = \ frac {Z ^ 2 {\ sigma_p} ^ 2} {e ^ 2}} $

Или

Если размер выборки является значительным по сравнению с численностью населения, то приведенная выше формула будет скорректирована с помощью конечного множителя населения.

$ {n = \ frac {Z ^ 2.N. {\ sigma_p} ^ 2} {(N-1) e ^ 2 + Z ^ 2. {\ sigma_p} ^ 2}} $

Где -

  • $ {N} $ = численность населения

Определение размера образца для пропорций

Метод определения размера выборки при оценке пропорции остается тем же, что и метод оценки среднего значения. Доверительный интервал для пропорции вселенной $ {\ hat p} $ определяется как

$ {p \ pm Z. \ sqrt {\ frac {pq} {n}}} $

Где -

  • $ {p} $ = выборочная доля

  • $ {q = (1 - p)} $

  • $ {Z} $ = значение стандартного нормального изменения для пропорции выборки

  • $ {n} $ = Размер образца

Так как $ {\ hat p} $ должен быть оценен, следовательно, значение p можно определить, взяв значение p = 0,5, приемлемое значение, давая консервативный размер выборки. Другой вариант заключается в том, что значение p оценивается либо в ходе пилотного исследования, либо на основе личного суждения. Учитывая значение p, допустимая ошибка 'e' определяется как

$ {e = Z. \ sqrt {\ frac {pq} {n}} \\ [7pt] e ^ 2 = Z ^ 2 \ frac {pq} {n} \\ [7pt] n = \ frac {Z ^ 2.pq} {е ^ 2}} $

Если численность населения конечна, то приведенная выше формула будет исправлена с помощью множителя конечной численности.

$ {n = \ frac {Z ^ 2.pqN} {e ^ 2 (N-1) + Z ^ 2.pq}} $

пример

Постановка задачи:

Торговый магазин заинтересован в оценке доли домохозяйств, имеющих магазинную привилегированную карту. Предыдущие исследования показали, что 59% домохозяйств имели кредитную карту магазина. На уровне достоверности 95% с допустимым уровнем ошибки 05.

  1. Определите размер выборки, необходимый для проведения исследования.

  2. Каков будет размер выборки, если известно, что число целевых домохозяйств составляет 1000?

Решение:

В магазине есть следующая информация

$ {p = .59 \\ [7pt] \ Rightarrow q = (1-p) = (1-.59) = .41 \\ [7pt] CL = .95 \\ [7pt] И \ the \ Z \ стандартное \ variate \ for \ CL \ .95 \ is \ 1.96 \\ [7pt] e = \ pm .05} $

Размер выборки можно определить, применив следующую формулу:

$ {n = \ frac {Z ^ 2.pq} {e ^ 2}} $
$ {n = \ frac {(1.96) ^ 2. (. 59). (. 41)} {(. 05) ^ 2} \\ [7pt] = \ frac {.9226} {. 0025} \\ [ 7pt] = 369} $

Следовательно, для проведения исследования достаточно выборки из 369 домохозяйств.

Поскольку известно, что численность населения, т.е. целевые домохозяйства, составляет 1000, а вышеуказанная выборка составляет значительную долю от общей численности населения, поэтому используется скорректированная формула, которая включает конечный множитель населения.

$ {n = \ frac {Z ^ 2.pqN} {e ^ 2 (N-1) + Z ^ 2.pq} \\ [7pt] = \ frac {(1.96) ^ 2. (. 59). ( .41). (1000)} {(. 05) ^ 2 \ times 999 + (1.96) ^ 2 (.59) (. 41)} \\ [7pt] = \ frac {922.6} {2.497 + .922} \\ [7pt] = 270} $

Таким образом, если численность населения ограничена 1000 домохозяйств, то размер выборки, необходимый для проведения исследования, составляет 270.

Из этой иллюстрации видно, что если размер популяции известен, то размер выборки уменьшился.