Проверка гипотез, p-value

Когда проводится любое исследование, как правило, нет возможности включить в него все интересующие нас объекты.
Допустим, мы ищем лекарство от нового вируса. Мы не можем включить в исследование всех заболевших этим вирусом.

Выборка из генеральной совокупностиИ даже, если бы мы смогли каким-то образом изучить всех существующих пациентов, мы никак не сможем понять, как будет протекать заболевание у будущих пациентов.
Таким образом, лаборатория, которая разрабатывает лекарство от вируса, будет испытывать его не на всех пациентах, а на какой-то группе.
Все заболевшие новым вирусом пациенты образуют генеральную совокупность, а группа, которую отобрали тестирования нового лекарства — это выборка.

Важно! выборка должна быть репрезентативна, т.е. должна полно и достоверно отображать признаки той совокупности, частью которой она является.

В нашем примере группу исследуемых надо подобрать так, чтобы распределение по полу, возрасту и другим признакам было примерно таким же, как и во всей популяции заболевших.

Репрезентативность выборки, так же, как и грамотное планирование, и правильная структура самого исследования — это основные условия для получения достоверных результатов.

Достоверность исследования — это то, насколько структура (дизайн) исследования соответствует поставленным целям и задачам, а полученные результаты справедливы в отношении изучаемого явления.

Допустим, в ходе исследований мы выяснили, что наблюдается взаимосвязь между длительностью приема лекарства и наличием осложнений от болезни.
Можно ли выводы, полученные на исследовании группы пациентов (выборке), перенести на всех заболевших? Ведь есть вероятность того, что при увеличении числа пациентов связь станет не такой выраженной или и вовсе будет отсутствовать. Как же понять наверняка есть связь (зависимость) или нет?

Чтобы выяснить наличие или отсутствие связи нам и понадобится статистическая проверка гипотез.

Гипотеза (hypothesis) — предположение относительно параметров генеральной совокупности, которое подлежит проверке на основе анализа выборки.

Выдвигаем «нулевую гипотезу» H0: взаимосвязь между длительностью приема лекарств и наличие осложнений от болезни отсутствует.

Пояснение: при формулировании нулевой гипотезы действуем от обратного. Если нужно доказать наличие связи, мы предполагаем, что ее нет и пытаемся отвергнуть эту гипотезу.

Соответственно, альтернативная гипотеза H1 будет говорить, что связь есть.


Теперь у нас есть 4 варианта:

— принять нулевую гипотезу, когда в действительности она верна;
— отвергнуть нулевую гипотезу, когда в действительности она неверна — это правильные решения.

Но кроме этого, мы можем и совершить ошибки:

— отвергнуть нулевую гипотезу, когда в действительности она верна — ошибка I рода (вероятность такой ошибки — α — уровень значимости);
— принять нулевую гипотезу, когда в действительности она неверна — ошибка II рода (вероятность совершить такую ошибку обозначается β).

 

Что в реальности Статистическое решение
H не отклоняется H0 отклоняется
H0 верна Правильное решение
Доверительная вероятность
равна 1-α
ошибка I рода
(α — вероятность ошибки I рода)
H0 неверна ошибка II рода
(β — вероятность ошибки II рода)
Правильное решение
Мощность критерия
равна 1-β

Ошибка I рода очень критична, поэтому, чтобы снизить ее вероятность, α задают довольно малым, обычно 0.05 (т.е 5%).

А почему она так критична?
Пусть банк использует систему классификации заёмщиков на кредитоспособных и некредитоспособных. При этом первым кредит выдаётся, а вторые получат отказ.
Любой реальный классификатор совершает ошибки. В нашем случае таких ошибок может быть две:
Кредитоспособный заёмщик распознается моделью как некредитоспособный и ему отказывается в кредите. Данный случай можно трактовать как «ложную тревогу».
Некредитоспособный заёмщик распознаётся как кредитоспособный и ему ошибочно выдаётся кредит. Данный случай можно рассматривать как «пропуск цели».
Несложно увидеть, что эти ошибки неравноценны по связанным с ними проблемам. В случае «ложной тревоги» потери банка составят только проценты по невыданному кредиту. В случае «пропуска цели» можно потерять всю сумму выданного кредита. Поэтому системе важнее не допустить «пропуск цели», чем «ложную тревогу».
https://wiki.loginom.ru/articles/type-i-ii-errors.html

Формулировка «Критически значимым определим уровень α=0.05» означает, что статистически значимыми признаются результаты, когда вероятность совершить ошибку I рода получается не более 5%.

Итак,

статистическая значимость (p-value) — расчетная вероятность ошибки I рода (т.е. ошибочно отвергнуть нулевую гипотезу, когда на самом деле она верна), которая рассчитывается с помощью различных статистических критериев.

Т.е с помощью выбранного критерия мы рассчитываем p-value и сравниваем его с заданным уровнем α.

Статистически значимым считается уровень вероятности меньший, чем критический уровень α, который фиксированно задается для каждого исследования.
Обычно принимают, что должно быть p < 0.05 .


И еще один, довольно не очевидный вывод из всего написанного:

Достоверный — не равно — статистически значимый!
Следует помнить, что статистически значимые результаты не всегда могут быть достоверными (лучше лишний раз перепроверить все этапы исследования!) и наоборот, достоверные результаты не обязаны быть статистически значимыми.

Добавить комментарий