Статистика - Колмогоров Смирнов Тест

Этот тест используется в ситуациях, когда необходимо провести сравнение между наблюдаемым распределением образца и теоретическим распределением.

KS Один образец теста

Этот тест используется как тест на пригодность и идеален, когда размер образца невелик. Он сравнивает накопительную функцию распределения для переменной с заданным распределением. null гипотеза предполагает отсутствие разницы между наблюдаемым и теоретическим распределением, и значение тестовой статистики «D» рассчитывается как:

формула

$ D = максимум | F_o (X) -F_r (X) | $

Где -

  • $ {F_o (X)} $ = Наблюдаемое кумулятивное распределение частот случайной выборки из n наблюдений.

  • и $ {F_o (X) = \ frac {k} {n}} $ = (количество наблюдений ≤ X) / (общее количество наблюдений).

  • $ {F_r (X)} $ = Теоретическое распределение частот.

Критическое значение $ {D} $ определяется из значений таблицы KS для одного образца теста.

Критерии приемки: если расчетное значение меньше критического, принимайте null гипотезу.

Критерии отклонения: Если вычисленное значение больше, чем табличное значение, отклоните null гипотезу.

пример

Постановка задачи:

В исследовании, проведенном из различных потоков колледжа, было опрошено 60 студентов с равным числом студентов из каждого потока, и было отмечено их намерение присоединиться к Драматическому клубу колледжа.

B.Sc. BA B.Com Массачусетс M.Com
№ в каждом классе 5 9 11 16 19

Ожидалось, что 12 учеников из каждого класса присоединятся к драматическому клубу. Использование теста KS, чтобы определить, есть ли разница между классами учащихся в отношении их намерения вступить в Драматический клуб.

Решение:

$ {H_o} $: нет разницы между студентами разных потоков в отношении их намерения вступить в драматический клуб.

Мы разрабатываем кумулятивные частоты для наблюдаемого и теоретического распределения.

Streams Количество студентов, заинтересованных в присоединении $ {F_O (Х)} $ $ {F_T (Х)} $ $ {| F_O (X) -F_T (X) |} $
Наблюдаемый
(O)
теоретический
(Т)
B.Sc. 5 12 5/60 12/60 7/60
BA 9 12 14/60 24/60 10/60
B.COM. 11 12 25/60 36/60 11/60
Массачусетс 16 12 41/60 48/60 7/60
M.COM. 19 12 60/40 60/60 60/60
Общее количество п = 60

Тестовая статистика $ {| D |} $ рассчитывается как:

$ D = Максимум {| F_0 (X) -F_T (X) |} \\ [7pt] \, = \ frac {11} {60} \\ [7pt] \, = 0,183 $

Табличное значение D при уровне значимости 5% определяется как

$ {D_0.05 = \ frac {1.36} {\ sqrt {n}}} \\ [7pt] \, = \ frac {1.36} {\ sqrt {60}} \\ [7pt] \, = 0.175 $

Поскольку расчетное значение больше критического, следовательно, мы отвергаем null гипотезу и заключаем, что существует разница между учащимися разных потоков в их намерении вступить в Клуб.

KS Два образца теста

Если вместо одной существует две независимые выборки, то для проверки соответствия между двумя кумулятивными распределениями можно использовать тест двух образцов KS. null гипотеза утверждает, что нет разницы между двумя распределениями. D-статистика рассчитывается так же, как и KS One Sample Test.

формула

$ {D = Максимум | {F_n} _1 (X) - {F_n} _2 (X) |} $

Где -

  • $ {n_1} $ = Наблюдения из первого образца.

  • $ {n_2} $ = Наблюдения из второго образца.

Было видно, что когда совокупные распределения показывают большое максимальное отклонение $ {| D |} $, это указывает на разницу между двумя выборочными распределениями.

Критическое значение D для выборок, где $ {n_1 = n_2} $ и ≤ 40, используется таблица KS для двух выборок. Когда $ {n_1} $ и / или $ {n_2} $> 40, следует использовать таблицу KS для больших выборок из двух выборочных тестов. null гипотеза принимается, если вычисленное значение меньше, чем табличное значение, и наоборот.

Таким образом, использование любого из этих непараметрических тестов помогает исследователю проверить значимость его результатов, когда характеристики целевой группы населения неизвестны или не было сделано никаких предположений о них.