Определение теоремы Байеса и примерыКак использовать теорему Байеса для определения условной вероятности
- Делиться
- флипборд
- Эл. адрес
Мэтт Бак/Flickr/CC BY-SA 2.0
- Доктор биомедицинских наук, Университет Теннесси в Ноксвилле
- Бакалавр физико-математических наук, Гастингсский колледж
Доктор Хельменстин имеет докторскую степень. в области биомедицинских наук и является научным писателем, педагогом и консультантом. Она преподавала научные курсы в средней школе, колледже и аспирантуре.
Теорема Байеса — это математическое уравнение, используемое в теории вероятности и статистике для расчета условной вероятности. Другими словами, он используется для расчета вероятности события на основе его связи с другим событием. Теорема также известна как закон Байеса или правило Байеса.
История
Теорема Байеса названа в честь английского министра и статистика преподобного Томаса Байеса, который сформулировал уравнение для своей работы «Опыт решения проблемы в доктрине вероятностей». После смерти Байеса рукопись была отредактирована и исправлена Ричардом Прайсом перед публикацией в 1763 году. Было бы точнее назвать эту теорему правилом Байеса-Прайса, поскольку вклад Прайса был значительным. Современная формулировка уравнения была разработана французским математиком Пьером-Симоном Лапласом в 1774 году, который не знал о работе Байеса. Лаплас признан математиком, ответственным за развитие байесовской вероятности.
Формула для теоремы Байеса
Есть несколько разных способов записать формулу теоремы Байеса. Наиболее распространенная форма:
P(A ∣ B) = P(B ∣ A)P(A) / P(B)
где A и B — два события, а P(B) ≠ 0
P(A ∣ B) — условная вероятность наступления события A при условии, что B истинно.
P(B ∣ A) — условная вероятность наступления события B при условии, что A истинно.
P(A) и P(B) — вероятности того, что A и B произойдут независимо друг от друга (предельная вероятность).
Пример
Возможно, вы захотите узнать вероятность наличия у человека ревматоидного артрита, если у него сенная лихорадка. В этом примере «сенная лихорадка» является тестом на ревматоидный артрит (событие).
- А будет событием «у пациента ревматоидный артрит». Данные показывают, что 10 процентов пациентов в клинике имеют этот тип артрита. Р(А) = 0,10
- Б это тест "у пациента сенная лихорадка". Данные показывают, что 5 процентов пациентов в клинике страдают сенной лихорадкой. Р(В) = 0,05
- Записи клиники также показывают, что среди пациентов с ревматоидным артритом 7 процентов страдают сенной лихорадкой. Другими словами, вероятность того, что у пациента сенная лихорадка, при условии, что у него ревматоидный артрит, составляет 7 процентов. В ∣ А =0,07
Подставляя эти значения в теорему:
Р(А ∣ В) = (0,07 * 0,10) / (0,05) = 0,14
Таким образом, если у пациента сенная лихорадка, вероятность развития ревматоидного артрита составляет 14 процентов. Маловероятно, что у случайного пациента с сенной лихорадкой ревматоидный артрит.
Чувствительность и специфичность
Теорема Байеса элегантно демонстрирует влияние ложноположительных и ложноотрицательных результатов в медицинских тестах.
- Чувствительность является истинной положительной скоростью. Это мера доли правильно идентифицированных положительных результатов. Например, в тесте на беременность это будет процент беременных женщин с положительным тестом на беременность. Чувствительный тест редко пропускает положительный результат.
- Специфика является истинной отрицательной ставкой. Он измеряет долю правильно идентифицированных негативов.Например, в тесте на беременность это будет процент женщин с отрицательным результатом теста на беременность, которые не были беременны. Конкретный тест редко регистрирует ложноположительный результат.
Идеальный тест должен быть на 100% чувствительным и специфичным. На самом деле тесты имеют минимальную ошибку, называемую коэффициентом ошибок Байеса.
Например, рассмотрим тест на наркотики, который на 99 процентов чувствителен и на 99 процентов специфичен. Если полпроцента (0,5 процента) людей употребляют наркотики, какова вероятность того, что случайный человек с положительным тестом действительно употребляет наркотики?
P(A ∣ B) = P(B ∣ A)P(A) / P(B)
может быть переписано как:
P(пользователь ∣ +) = P(+ ∣ пользователь)P(пользователь) / P(+)
P(пользователь ∣ +) = P(+ ∣ пользователь)P(пользователь) / [P(+ ∣ пользователь)P(пользователь) + P(+ ∣ не пользователь)P(не пользователь)]
P(пользователь ∣ +) = (0,99 * 0,005) / (0,99 * 0,005 + 0,01 * 0,995)
Только около 33 процентов случайного человека с положительным тестом на самом деле были бы потребителем наркотиков. Вывод состоит в том, что даже если у человека положительный результат на наркотик, более вероятно, что он это сделает. нет использовать наркотик, чем они это делают. Другими словами, количество ложных срабатываний больше, чем количество истинных срабатываний.
В реальных ситуациях обычно делается выбор между чувствительностью и специфичностью, в зависимости от того, важнее ли не пропустить положительный результат или лучше не маркировать отрицательный результат как положительный.