Вероятность того что примет значение принадлежащее интервалу


Найти вероятность того, что Х примет значение из интервала (5; 9) — Студопедия

Из 20 экзаменационных билетов 3 содержат простые вопросы. Пять студентов по очереди берут билеты. Найти вероятность того, что хотя бы одному из них достанется билет с простыми вопросами.

Решение:

 

Для начала найдем вероятность того, что ни одному из студентов не достанется билет с простыми вопросами.

Эта вероятность равна

 

Первая дробь показывает вероятность того, что первому студенту достался билет со сложными вопросами (их 17 из 20)

Вторая дробь показывает вероятность того, что второму студенту достался билет со сложными вопросами (их осталось 16 из 19)

Третья дробь показывает вероятность того, что третьему студенту достался билет со сложными вопросами (их осталось 15 из 18)

И так далее до пятого студента. Вероятности перемножаются т.к. по условию требуется одновременное выполнение этих условий.

 

Чтобы получить вероятность того, что хотя бы одному из студентов достанется билет с простыми вопросами надо вычесть полученную выше вероятность из единицы.

 

 

Ответ: 0,6009.

 

 

2. (248) Задана функция распределения F(x) непрерывной случайной величины Х. Требуется:

Найти плотность распределения вероятностей f(x)

Определить коэффициент А

Схематично построить графики F(x) и f(x)

Найти математическое ожидание и дисперсию Х

Найти вероятность того, что Х примет значение из интервала (a , b)

Решение:

 

1. Используем свойство . Получаем:

 


 

2. Используем свойство

 

 

 

3. Ниже показаны графики функции распределения и плотности распределения.

 

 

f(x)

 

 

F(x)

4. Математическое ожидание:

 

 

Дисперсия:

 

 

 

 

5. Вероятность того, что Х примет значение из интервала (0 , 3)

 

 

 

 

3. (258) Заданы математическое ожидание а = 4 и среднеквадратическое отклонение s = 6 нормально распределенной случайной величины. Требуется

Написать плотность распределения вероятностей и схематично построить ее график

найти вероятность того, что Х примет значение из интервала (5; 9)

Решение:

 

Для решения необходимо знать, что нормальным называют распределение вероятностей непрерывной случайной величины, если дифференциальная функция имеет вид:

где а – мат. ожидание; - среднее квадратичное отклонение

Вероятность того, что Х примет значение, принадлежащее интервалу равна:


где - функция Лапласа.

 

Для заданных условий:

 

График функции плотности распределения:

 

 

Вероятность того, что Х примет значение, принадлежащее интервалу равна:

Значения функции Лапласа находятся по таблице.

Непосредственное интегрирование в системе Maple дает более точный результат:

 

 

 

4. (268) Производится некоторый опыт, в котором случайное событие А может появиться с вероятностью р = 0,6. Опыт повторяют в неизменных условиях п раз. Сколько раз надо провести этот опыт, чтобы с вероятностью большей, чем 0,9 можно было ожидать отклонения относительной частоты появления события А от вероятности р = 0,6 не более, чем 0,05?

Решение:

 

Поскольку условия опыта неизменны, то применяется схема независимых испытаний Бернулли.

 

Используется формула:

 

В этой формуле:

e = 0,05 – заданная величина отклонения относительной частоты от вероятности.

p = 0,6 – вероятность появления события А в одном опыте.

q = 1 – p = 0,4 – вероятность непоявления события А в одном опыте.

P1 = 0,9 – граница заданной вероятности появления А в п опытах.

аргумент функции Лапласа для значения

 

 

Получаем:

 

Вероятность охвата доверительных интервалов: подход моделирования

В статье используются этапы SAS DATA и процедуры Base SAS для оценки вероятности охвата доверительного интервала для среднего значения нормально распределенных данных. Это обсуждение основано на разделе 5.2 (стр. 74–77) документа «Моделирование данных с помощью SAS ».

Что такое доверительный интервал?

Напомним, что доверительный интервал (ДИ) - это оценка интервала, которая потенциально содержит параметр совокупности.Поскольку CI - это оценка , она вычисляется по выборке. Доверительный интервал для параметра определяется знанием (или приближением) выборочного распределения статистики. Для симметричных распределений выборки CI часто имеет вид m ± w (α, n ), где m - несмещенная оценка параметра, а w (α, n ) - ширина, которая зависит от уровень значимости α, размер выборки n и стандартная ошибка оценки.

Из-за разброса выборки достоверность интервал для конкретной выборки может не содержать параметра. Доверительный интервал 95% означает, что если вы соберете большое число выборок и построить соответствующие доверительные интервалы, то примерно 95% интервалов будут содержать (или «покрывать») параметр.

Например, хорошо известная формула - это доверительный интервал среднего. Если совокупность распределена нормально, то 95% доверительный интервал для среднего значения совокупности, рассчитанный на основе выборки размером n , равен
. [ xbar - t c s / sqrt ( n ), xbar + t c s / sqrt ( n )]
где

  • xbar - выборочное среднее
  • т c = т 1-α / 2, n -1 - критическое значение статистики t со значимостью α и n -1 степеней свободы
  • с / sqrt ( n ) - стандартная ошибка среднего, где с - стандартное отклонение выборки.
Что такое доверительный интервал? Как вы можете оценить вероятность покрытия? # Статистика #SASTip Нажмите, чтобы твитнуть

Вероятность охвата

Предыдущее обсуждение приводит к методу моделирования для оценки вероятности охвата доверительного интервала. Метод моделирования состоит из трех этапов:

  1. Моделируйте множество выборок размером n из генеральной совокупности.
  2. Вычислить доверительный интервал для каждого образца.
  3. Вычислить долю выборок, для которых (известный) параметр совокупности содержится в доверительном интервале.Эта пропорция является оценкой эмпирической вероятности охвата CI.

Вы можете спросить, зачем это нужно. Разве вероятность охвата всегда (1-α) = 0,95? Нет, это верно только тогда, когда популяция распределена нормально (что никогда не бывает на практике) или размеры выборки достаточно велики, чтобы можно было применить Центральную предельную теорему. Моделирование позволяет оценить вероятность покрытия для небольших выборок, когда совокупность ненормальна.Чтобы увидеть, как асимметрия и эксцесс влияют на вероятность покрытия, вы можете смоделировать из распределений с перекосом или с тяжелым хвостом. (См. Главу 16 в Моделирование данных с помощью SAS .)

Метод моделирования для оценки вероятности охвата

Воспользуемся симуляцией чтобы убедиться, что формула для ДИ среднего действительна при отборе выборок из стандартной нормальной совокупности. Следующий шаг DATA моделирует 10 000 выборок размером n = 50:

% пусть N = 50; / * размер каждой выборки * / % let NumSamples = 10000; / * количество образцов * / / * 1.Моделируйте образцы из N (0,1) * / данные Нормальный (keep = SampleID x); вызовите streaminit (123); сделать SampleID = 1 для & NumSamples; / * цикл моделирования * / сделать i = 1 для & N; / * N набл. В каждом сэмпле * / x = rand ("Нормальный"); / * х ~ N (0,1) * / вывод; конец; конец; бегать; 

Второй шаг - вычислить доверительный интервал для каждого образца. Вы можете использовать PROC MEANS для вычисления доверительных интервалов.LCLM = и UCLM = выводят нижнюю и верхнюю конечные точки доверительного интервала в набор данных SAS. Я также вывожу выборочное среднее для каждого образца. Обратите внимание, что оператор BY - это эффективный способ анализа всех выборок в исследовании моделирования.

 / * 2. Вычислить статистику для каждой выборки * / proc означает data = Normal noprint; по SampleID; var x; output out = OutStats mean = SampleMean lclm = Lower uclm = Upper; бегать; 

Третий шаг - подсчитать долю выборок, для которых доверительный интервал содержит значение параметра.Для этого имитационного исследования значение среднего генеральной совокупности равно 0. На следующем этапе ДАННЫЕ создается индикаторная переменная, которая имеет значение 1, если 0 находится в пределах доверительного интервала для выборки, и 0 в противном случае. Затем вы можете использовать PROC FREQ для вычисления доли интервалов, содержащих среднее значение. Это эмпирическая вероятность охвата. Если вы хотите пофантазировать, вы даже можете использовать опцию BINOMIAL для вычисления доверительного интервала для пропорции.

 / * 3a.Сколько КЭ включают параметр? * / данные OutStats; установить OutStats; метка ParamInCI = "Параметр в CI"; ParamInCI = (нижний <0 и верхний> 0); / * индикаторная переменная * / бегать; / * 3b. Номинальная вероятность охвата 95%. Оцените истинное покрытие. * / proc freq data = OutStats; таблицы ParamInCI / nocum binomial (level = '1' p = 0.95); бегать; 

Выходные данные PROC FREQ говорят вам, что эмпирический охват (на основе 10 000 выборок) составляет 94,66%, что очень близко к теоретическому значению 95%.Выходные данные параметра BINOMIAL оценивают, что истинное покрытие находится в интервале [0,9422,0,951], который включает 0,95. Таким образом, моделирование поддерживает утверждение, что стандартный ДИ среднего имеет 95% охват, когда выборка взята из нормальной генеральной совокупности.

Визуализация имитационного исследования

Вы можете нарисовать график, который показывает, как доверительные интервалы зависят от случайных выборок. На следующем графике показаны доверительные интервалы для 100 образцов.Центр каждого ДИ - это выборочное среднее.

 формат proc; / * отображение 0/1 как «Нет» / «Да» * / значение YorN 0 = «Нет» 1 = «Да»; бегать; ods графика / ширина = 6,5 дюйма, высота = 4 дюйма; proc sgplot data = OutStats (obs = 100); формат ParamInCI ЙорН .; заголовок «95% доверительный интервал для среднего»; title2 «Нормальные данные»; разброс x = SampleID y = SampleMean / group = ParamInCI markerattrs = (symbol = CircleFilled); highlow x = SampleID low = Lower high = Upper / group = ParamInCI legendlabel = "95% CI"; refline 0 / axis = y; yaxis display = (без ярлыка); бегать; 

Контрольная линия показывает среднее значение генеральной совокупности.Выборки, для которых среднее значение генеральной совокупности находится в пределах доверительного интервала, показаны синим цветом. Выборки, для которых среднее значение генеральной совокупности находится за пределами доверительного интервала, показаны красным.

Вы можете увидеть, как изменчивость выборки влияет на доверительные интервалы. В четырех случайных выборках (показаны красным) значения в выборке настолько экстремальны, что доверительный интервал не включает среднее значение генеральной совокупности. Таким образом, оценка вероятности охвата для этих 100 выборок составляет 96/100 = 96%.Этот график показывает, почему используется термин «вероятность охвата»: это вероятность того, что одна из вертикальных линий на графике «покроет» среднее значение для генеральной совокупности.

Вероятность покрытия для ненормальных данных

Предыдущее моделирование подтверждает, что эмпирическая вероятность охвата CI составляет 95% для нормально распределенных данных. Вы можете использовать моделирование, чтобы понять, как эта вероятность изменяется, если вы выбираете ненормальные данные. Например, на этапе DATA, который имитирует образцы, замените вызов функции RAND следующей строкой:

 x = rand («Экспо») - 1; / * x + 1 ~ Опыт (1) * / 

Затем вы можете повторно запустить исследование моделирования.На этот раз выборки взяты из (сдвинутого) экспоненциального распределения, которое имеет среднее значение 0 и единичную дисперсию. Асимметрия для этого распределения равна 2, а избыточный эксцесс равен 6. Результатом PROC FREQ является то, что только около 93,5% доверительных интервалов (с использованием стандартной формулы) покрывают истинное среднее значение генеральной совокупности. Следовательно, формула для CI, которая имеет 95% охват для обычных данных, имеет только около 93,5% покрытия для этих экспоненциальных данных.

Вы можете создать график, который визуализирует доверительные интервалы для экспоненциальных данных.Опять же, показаны только первые 100 образцов. На этом графике ДИ для девяти выборок не содержат среднего значения генеральной совокупности, что предполагает 91% эмпирический охват.

Вы также можете написать программу SAS / IML. Пример использования SAS / IML для оценки вероятности охвата доверительного интервала размещен на SAS / IML File Exchange.

Таким образом, вы можете использовать моделирование для оценки эмпирической вероятности покрытия для доверительного интервала. Во многих случаях формула CI основана на предположении о распределении совокупности, которое определяет выборочное распределение статистики.Моделирование позволяет изучить, как изменяется вероятность охвата, когда совокупность не удовлетворяет теоретическим допущениям.

,

Классные задачи на доверительных интервалах

STAT 101: Классные задачи на доверительных интервалах Статистика 101
Данные Анализ и статистический вывод

в классе проблемы на доверительных интервалах



Ответы на концептуальные вопросы о доверии интервалы

Решите, верны ли следующие утверждения. объяснять ваши рассуждения.

Проблемы:

a) Для данной стандартной ошибки меньше уверенность уровни дают более широкие доверительные интервалы.

Ложь. Чтобы получить большую уверенность, нам нужно сделать интервал шире интервал. Это видно по множителю, который увеличивается с уровнем уверенности.

б) Если вы увеличите размер выборки, ширина доверительных интервалов увеличится.

Ложь. Увеличение размера выборки уменьшает ширину доверительных интервалов, потому что это уменьшает стандартную ошибку.

в) Утверждение «95% уверенность интервал для среднего значения генеральной совокупности равен (350, 400) ", что эквивалентно заявление, "с 95% вероятностью среднее значение для генеральной совокупности составляет от 350 до 400" .

Ложь. 95% уверенность означает, что мы использовали процедуру это работает в 95% случаев, чтобы получить этот интервал. То есть 95% всех интервалы, произведенные процедурой, будут содержать их соответствующие параметры. Для любого конкретного интервала истинный процент населения находится либо внутри интервала, либо вне интервала. В данном случае это либо между 350 и 400, или не между 350 и 400. Следовательно, вероятность того, что процент населения находится между этими двумя точные числа равны нулю или единице.

г) уменьшить ширину уверенности интервал в два раза (то есть вдвое), вы должны в четыре раза размер образца.

Верно, поскольку мы говорим о КИ для населения процент. Стандартная ошибка для процента населения имеет квадратный корень из размера выборки в знаменателе. Следовательно, увеличение размера выборки в раз из 4 (т.е. умножение на 4) эквивалентно умножению стандарт погрешность на 1/2. Следовательно, интервал будет вдвое меньше. Это также работает приблизительно для средних значений населения, пока множитель из t-кривой не сильно меняется при увеличении размер выборки (чего не будет, если исходный размер выборки большой).

д) В предположении центральной предельной теоремы применяется, доверительные интервалы действительны всегда.

Под "действительным" мы подразумеваем, что процедура доверительного интервала имеет 95% шанс создания интервала, содержащего параметр совокупности.

Ложь. Центральная предельная теорема нужна для уверенности интервалы быть действительным.Однако также необходимо, чтобы данные были собраны из случайных выборок. Доверительные интервалы не будут исправить плохо собранные данные.

f) заявление "95% уверенности интервал для среднего генерального значения (350, 400) "означает, что 95% численность населения составляет от 350 до 400.

Ложь. Доверительный интервал - это диапазон вероятных значений для в среднем по населению. Он не обеспечивает диапазон для 95% значения данных от населения.Чтобы найти процент значений в популяции от 350 до 400, нам нужно посмотреть на гистограмму значений данных и определить, какой процент наблюдения составляют от 350 до 400.

г) Если вы брать большие случайные выборки снова и снова из одной и той же совокупности, и сделать 95% доверительный интервал для среднего населения, около 95% интервалов должен содержать среднее значение по совокупности.

Верно. Это определение доверительных интервалов.

ч) Если вы брать большие случайные выборки снова и снова снова из той же популяции и сделайте 95% доверительный интервал для в среднем по совокупности около 95% интервалов должны содержать выборочное среднее.

Ложь. Доверительный интервал - это диапазон для среднего населения, а не для выборочное среднее. Фактически каждый доверительный интервал содержит соответствующее среднее значение по выборке, поскольку ДИ имеют вид: образец средн. +/- множитель SE. Итак, среднее значение по выборке точно в середина CI.

i) Необходимо, чтобы распределение интересующей переменной следует нормальной кривой.

Неверно. Необходимо, чтобы распределение выборочного среднего соответствовало нормальная кривая. Однако значения данных переменной не обязательно следовать нормальной кривой, потому что, если размер выборки достаточно велик, будет применяться центральная предельная теорема для выборочного среднего.

j) Получен 95% доверительный интервал из случайной выборки из 1000 человек имеет больше шансов сдержать процент населения, чем 95% доверительный интервал, полученный из случайная выборка из 500 человек.

Ложь. Все 95% уверенности интервалы обладают тем свойством, что они происходят из процедуры, имеющей 95% шанс дать интервал, содержащий истинное стоимость. Метод доверительного интервала автоматически учитывает размер выборки в стандартной ошибке. 95% доверительный интервал с n = 1000 будет уже, чем 95% ДИ с n = 500, но оба ДИ будет иметь 95% уверенность в содержании процента населения.

k) Если вы делаете жизнь, делая 99% доверительный интервал для всех типов населения означает около 1% от время, в течение которого интервалы не охватывают соответствующие средние значения населения.

Верно. Поскольку 99% интервалов должны содержать соответствующую совокупность значит, 1% из них не будет.


.

(Учебник) Распределения вероятностей в Python

Введение

Вероятность и статистика - основа науки о данных. Фактически, в основе машинного обучения и искусственного интеллекта лежит не что иное, как статистическая математика и линейная алгебра. Часто вы будете сталкиваться с ситуациями, особенно в области науки о данных, когда вам нужно прочитать исследовательскую работу, которая включает в себя много математики, чтобы понять конкретную тему, и поэтому, если вы хотите стать лучше в науке о данных, обязательно иметь сильную математическое понимание.Это руководство посвящено часто используемым распределениям вероятностей в литературе по машинному обучению. Если вы новичок, то это подходящее место для вас. В этом уроке вы:

  • Узнайте о вероятностных жаргонах, таких как случайные величины, кривая плотности, функции вероятности и т. Д.
  • Узнайте о различных распределениях вероятностей и их функциях распределения, а также о некоторых их свойствах.
  • Научитесь создавать и строить эти распределения на Python.

Перед тем, как начать, вы должны познакомиться с некоторыми математическими терминологиями, которые рассматриваются в следующем разделе.

Случайная переменная

Случайная величина - это переменная, возможные значения которой являются числовыми результатами случайного явления. Есть два типа случайных величин: дискретные и непрерывные.

Дискретная случайная величина - это та, которая может принимать только счетное число различных значений и, таким образом, может быть определена количественно.Например, вы можете определить случайную переменную $ X $ как число, которое выпадает, когда вы бросаете справедливые кости. $ X $ может принимать значения: $ [1,2,3,4,5,6] $ и, следовательно, является дискретной случайной величиной.

Распределение вероятностей дискретной случайной величины - это список вероятностей, связанных с каждым из ее возможных значений. Ее также иногда называют функцией вероятности , или функцией массы вероятности. Чтобы иметь математический смысл, предположим, что случайная величина $ X $ может принимать $ k $ различных значений с вероятностью, что $ X = x_ {i} $ определено как $ P (X = x_ {i}) = p_ {i } $.Тогда вероятности $ p_ {i} $ должны удовлетворять следующему:

1: 0 <$ p_ {i} $ <1 для каждого $ i $

2: $ p_ {1} + p_ {2} + ... + p_ {k} = 1 $.

Некоторые примеры дискретных распределений вероятностей: распределение Бернулли, биномиальное распределение, распределение Пуассона и т. Д.

Непрерывная случайная величина - это переменная, которая принимает бесконечное количество возможных значений. Например, вы можете определить случайную величину $ X $ как рост учащихся в классе.Поскольку непрерывная случайная величина определяется на интервале значений, она представлена ​​областью под кривой (или интегралом).

Распределение вероятностей непрерывной случайной величины, известное как функции распределения вероятностей , - это функции, которые принимают непрерывные значения. Вероятность наблюдения любого отдельного значения равна $ 0 $, поскольку количество значений, которые может принимать случайная величина, бесконечно. Например, случайная величина $ X $ может принимать все значения в интервале действительных чисел.Тогда вероятность того, что $ X $ входит в набор исходов $ A, P (A) $, определяется как площадь над $ A $ и под кривой. Кривая, представляющая функцию $ p (x) $, должна удовлетворять следующему:

1: кривая не имеет отрицательных значений $ (p (x)> 0 $ для всех $ x $)

2: Общая площадь под кривой равна 1 доллару США.

Кривая, отвечающая этим требованиям, часто известна как кривая плотности . Некоторые примеры непрерывных распределений вероятностей: нормальное распределение, экспоненциальное распределение, бета-распределение и т. Д.

Существует еще один тип распределения, который часто появляется в литературе, о котором вам следует знать, он называется кумулятивной функцией распределения . Все случайные величины (дискретные и непрерывные) имеют кумулятивную функцию распределения. Это функция, дающая вероятность того, что случайная величина $ X $ меньше или равна $ x $ для каждого значения $ x $. Для дискретной случайной величины кумулятивная функция распределения находится путем суммирования вероятностей.

В следующем разделе вы изучите некоторые важные дистрибутивы и попытаетесь проработать их на Python, но перед этим импортируйте все необходимые библиотеки, которые вы будете использовать.

  # для инлайн-графиков в jupyter % matplotlib встроенный # import matplotlib импортировать matplotlib.pyplot как plt # для латексных уравнений из IPython.display import Math, Latex # для отображения изображений из IPython.core.display импорт изображения  
  # import seaborn импортировать seaborn как sns # настройки для стиля рисования морского дна sns.set (color_codes = True) # настройки размеров морских участков sns.set (гс = { 'figure.figsize' :( 5,5)})  

1.Равномерное распределение

Возможно, одним из самых простых и полезных распределений является равномерное распределение. Функция распределения вероятностей непрерывного равномерного распределения:

Поскольку любой интервал чисел одинаковой ширины имеет равную вероятность наблюдения, кривая, описывающая распределение, представляет собой прямоугольник с постоянной высотой в интервале и нулевой высотой в другом месте. Поскольку площадь под кривой должна быть равна 1, длина интервала определяет высоту кривой.На следующем рисунке показано равномерное распределение в интервале (a, b). Обратите внимание, так как площадь должна составлять 1 доллар США. Высота установлена ​​на $ 1 / (b-a) $.

Вы можете визуализировать равномерное распределение в python с помощью генератора случайных чисел, действующего на интервале чисел (a, b). Вам необходимо импортировать функцию uniform из модуля scipy.stats .

  # импорт равномерное распределение из scipy.stats импортная форма  

Функция uniform генерирует равномерную непрерывную переменную между заданным интервалом с помощью аргументов loc и scale .Это распределение является постоянным между loc и loc + scale . Аргументы размера описывают количество случайных значений. Если вы хотите сохранить воспроизводимость, включите аргумент random_state , присвоенный числу.

  # случайные числа из равномерного распределения п = 10000 start = 10 ширина = 20 data_uniform = uniform.rvs (размер = n, loc = начало, масштаб = ширина)  

Вы можете использовать distplot Seaborn для построения гистограммы только что созданного распределения.Дистрибутив Seaborn принимает несколько аргументов для настройки сюжета. Сначала вы создаете объект графика ax . Здесь вы можете указать количество интервалов в гистограмме, указать цвет гистограммы и указать параметр графика плотности с kde и параметр ширины линии с hist_kws . Вы также можете установить метки для осей x и y, используя аргументы xlabel и ylabel .

  ax = sns.distplot (data_uniform, Бункеры = 100, = True KDE, цвет = 'Skyblue', hist_kws = {"ширина линии": 15, 'альфа': 1}) Топор.set (xlabel = 'Равномерное распределение', ylabel = 'Частота')  
  [Текст (0,0.5, u'Frequency '), Text (0,5,0, u'Равномерное распределение')]  

2. Нормальное распределение

Нормальное распределение

, также известное как распределение Гаусса, широко используется в Data Science. Вы встретите его во многих местах, особенно в вопросах статистического вывода. Это также одно из допущений многих алгоритмов обработки данных.

Нормальное распределение имеет колоколообразную кривую плотности, описываемую ее средним значением $ μ $ и стандартным отклонением $ σ $.Кривая плотности симметрична, центрирована относительно своего среднего значения, а ее разброс определяется ее стандартным отклонением, показывающим, что данные, близкие к среднему, встречаются чаще, чем данные, далекие от среднего. Функция распределения вероятностей нормальной кривой плотности со средним значением $ μ $ и стандартным отклонением $ σ $ в данной точке $ x $ определяется выражением:

Ниже приведен рисунок, описывающий, как выглядит раздача:

Почти 68% данных попадают в пределы одного стандартного отклонения от среднего с обеих сторон и 95% в пределах двух стандартных отклонений.Также стоит упомянуть, что распределение со средним значением $ 0 $ и стандартным отклонением $ 1 $ называется стандартным нормальным распределением .

Вы можете сгенерировать нормально распределенную случайную величину, используя метод norm.rvs () модуля scipy.stats . Аргумент loc соответствует среднему значению распределения. Масштаб соответствует стандартному отклонению, а размер - количеству случайных величин. Если вы хотите сохранить воспроизводимость, включите аргумент random_state , присвоенный числу.

  из нормы импорта scipy.stats # генерировать случайные числа из N (0,1) data_normal = norm.rvs (размер = 10000, loc = 0, масштаб = 1)  

Вы можете визуализировать распределение так же, как вы делали с равномерным распределением, используя функции seaborn distplot . Смысл аргументов остается таким же, как и в последнем случае.

  ax = sns.distplot (data_normal, Бункеры = 100, = True KDE, цвет = 'Skyblue', hist_kws = {"ширина линии": 15, 'альфа': 1}) Топор.set (xlabel = 'Нормальное распределение', ylabel = 'Частота')  
  [Текст (0,0.5, u'Frequency '), Text (0,5,0, u'Нормальное распределение')]  

3. Гамма-распределение

Гамма-распределение - это двухпараметрическое семейство непрерывных распределений вероятностей. Хотя в необработанном виде он используется редко, но другие широко используемые распределения, такие как экспоненциальное, хи-квадрат и распределение эрланга, являются частными случаями гамма-распределения. Гамма-распределение может быть параметризовано с помощью параметра формы $ α = k $ и параметра обратного масштаба $ β = 1 / θ $, называемого параметром скорости., символ $ Γ (n) $ является гамма-функцией и определяется как $ (n-1)! $:

Типичное гамма-распределение выглядит так:

Вы можете сгенерировать случайную переменную с гамма-распределением, используя метод gamma.rvs () модуля scipy.stats , который принимает параметр формы $ a $ в качестве аргумента. Когда $ a $ является целым числом, гамма сводится к распределению Эрланга, а когда $ a = 1 $ - к экспоненциальному распределению. Для смещения распределения используйте аргумент loc , для масштабирования используйте аргумент scale , размер определяет количество случайных значений в распределении.Если вы хотите сохранить воспроизводимость, включите аргумент random_state , присвоенный числу.

  из scipy.stats import gamma data_gamma = gamma.rvs (a = 5, размер = 10000)  

Вы можете визуализировать распределение так же, как вы делали с равномерным распределением, используя функции seaborn distplot . Смысл аргументов остается таким же, как объяснено в разделе о равномерном распределении.

  ax = sns.distplot (data_gamma, = True KDE, Бункеры = 100, цвет = 'Skyblue', hist_kws = {"ширина линии": 15, 'альфа': 1}) Топор.set (xlabel = 'Гамма-распределение', ylabel = 'Частота')  
  [Текст (0,0.5, u'Frequency '), Text (0,5,0, u'Гамма-распределение')]  

4. Экспоненциальное распределение

Экспоненциальное распределение описывает время между событиями в точечном процессе Пуассона, т.е.процессе, в котором события происходят непрерывно и независимо с постоянной средней скоростью. У него есть параметр $ λ $, называемый параметром скорости, и его уравнение описывается как:

Убывающее экспоненциальное распределение выглядит так:

Вы можете сгенерировать экспоненциально распределенную случайную величину, используя scipy.stats - метод expon.rvs () модуля, который принимает в качестве аргумента параметр формы scale , который в уравнении является не чем иным, как 1 / лямбда . Чтобы сместить распределение, используйте аргумент loc , размер определяет количество случайных значений в распределении. Если вы хотите сохранить воспроизводимость, включите аргумент random_state , присвоенный числу.

  из scipy.stats import expon data_expon = expon.rvs (масштаб = 1, местоположение = 0, размер = 1000)  

Снова визуализируя распределение с помощью морского судна, получаем кривую, показанную ниже:

  ax = sns.distplot (data_expon, = True KDE, Бункеры = 100, цвет = 'Skyblue', hist_kws = {"ширина линии": 15, 'альфа': 1}) ax.set (xlabel = 'Экспоненциальное распределение', ylabel = 'Частота')  
  [Текст (0,0.5, u'Frequency '), Text (0,5,0, u'Экспоненциальное распределение')]  

5. Распределение Пуассона

Случайная величина Пуассона обычно используется для моделирования того, сколько раз событие произошло за определенный промежуток времени.Например, количество пользователей, посещенных на веб-сайте за интервал, можно рассматривать как процесс Пуассона. Распределение Пуассона описывается скоростью ($ μ $), с которой происходят события. Событие может произойти 0, 1, 2,… раз в интервале. Среднее количество событий в интервале обозначено $ λ $ (лямбда). Лямбда - это частота событий, также называемая параметром скорости. Вероятность наблюдения $ k $ событий в интервале определяется уравнением:

Отметьте , что нормальное распределение является предельным случаем распределения Пуассона с параметром $ λ → ∞ $.Кроме того, если времена между случайными событиями подчиняются экспоненциальному распределению со скоростью $ λ $, то общее количество событий за период времени длиной $ t $ следует распределению Пуассона с параметром $ λt $.

На следующем рисунке показано типичное распределение Пуассона:

Вы можете сгенерировать распределенную по Пуассону дискретную случайную величину, используя метод scipy.stats модуля poisson.rvs () , который принимает $ μ $ в качестве параметра формы и представляет собой не что иное, как $ λ $ в уравнении.Для смещения распределения используйте параметр loc . Размер определяет количество случайных величин в распределении. Если вы хотите сохранить воспроизводимость, включите аргумент random_state , присвоенный числу.

  из scipy.stats import poisson data_poisson = poisson.rvs (mu = 3, size = 10000)  

Вы можете визуализировать распределение так же, как вы делали с равномерным распределением, используя функции seaborn distplot .Смысл аргументов остается прежним.

  ax = sns.distplot (data_poisson, Контейнеры = 30, KDE = False, цвет = 'Skyblue', hist_kws = {"ширина линии": 15, 'альфа': 1}) ax.set (xlabel = 'Распределение Пуассона', ylabel = 'Частота')  
  [Текст (0,0.5, u'Frequency '), Text (0,5,0, u'Распределение Пуассона »)]  

6. Биномиальное распределение

Распределение, в котором возможны только два результата, например, успех или неудача, выигрыш или проигрыш, выигрыш или проигрыш, и где вероятность успеха и неудачи одинакова для всех испытаний, называется биномиальным распределением.Однако результаты не обязательно должны быть одинаково вероятными, и каждое испытание не зависит друг от друга. Параметры биномиального распределения: $ n $ и $ p $, где $ n $ - общее количество испытаний, а $ p $ - вероятность успеха в каждом испытании. Его функция распределения вероятностей определяется выражением:

где:

Вы можете сгенерировать биномиальную распределенную дискретную случайную величину с помощью метода binom.rvs () модуля scipy.stats , который принимает $ n $ (количество испытаний) и $ p $ (вероятность успеха) в качестве параметров формы.Для смещения распределения используйте параметр loc . размер решает, сколько раз повторять испытания. Если вы хотите сохранить воспроизводимость, включите аргумент random_state , присвоенный числу.

  из scipy.stats import binom data_binom = binom.rvs (n = 10, p = 0,8, размер = 10000)  

Визуализация распределения, которое вы только что создали, с помощью графика распределения seaborn отображает следующую гистограмму:

  ax = sns.distplot (data_binom, KDE = False, цвет = 'Skyblue', hist_kws = {"ширина линии": 15, 'альфа': 1}) ax.set (xlabel = 'Биномиальное распределение', ylabel = 'Частота')  
  [Текст (0,0.5, u'Frequency '), Text (0,5,0, u'Биномиальное распределение')]  

Обратите внимание на , что, поскольку вероятность успеха была больше 0,5 $, распределение смещено в правую сторону. Кроме того, распределение Пуассона является предельным случаем биномиального распределения при следующих условиях:

  1. Количество испытаний бесконечно велико или $ n → ∞ $.
  2. Вероятность успеха для каждого испытания одинакова и бесконечно мала, или $ p → 0 $.
  3. $ np = λ $, конечно.

Нормальное распределение - еще одна ограничивающая форма биномиального распределения при следующих условиях:

  1. Количество испытаний бесконечно велико, $ n → ∞ $.
  2. И $ p $, и $ q $ не бесконечно малы.

7. Bernoulli Distribution

Распределение Бернулли имеет только два возможных результата, а именно 1 доллар (успех) и 0 долларов (неудача), а также одно испытание, например, подбрасывание монеты.Таким образом, случайная величина $ X $, имеющая распределение Бернулли, может принимать значение $ 1 $ с вероятностью успеха $ p $ и значение $ 0 $ с вероятностью неудачи $ q $ или $ 1-p $. Вероятности успеха и неудачи не должны быть одинаковыми. Распределение Бернулли - это частный случай биномиального распределения, когда проводится одно испытание ($ n = 1 $). Его функция массы вероятности определяется выражением:

Вы можете сгенерировать распределенную дискретную случайную величину Бернулли, используя scipy.stats модуль bernoulli.rvs () метод, который принимает $ p $ (вероятность успеха) в качестве параметра формы. Для смещения распределения используйте параметр loc . размер решает, сколько раз повторять испытания. Если вы хотите сохранить воспроизводимость, включите аргумент random_state , присвоенный числу.

  из scipy.stats import bernoulli data_bern = bernoulli.rvs (размер = 10000, p = 0,6)  

Снова визуализируя распределение, вы можете заметить, что у вас есть только два возможных результата:

  ax = sns.distplot (data_bern, KDE = False, цвет = "Skyblue", hist_kws = {"ширина линии": 15, 'альфа': 1}) ax.set (xlabel = 'Распределение Бернулли', ylabel = 'Частота')  
  [Текст (0,0.5, u'Frequency '), Text (0,5,0, u'Bernoulli Distribution')]  

Заключение

Поздравляю, вы дошли до конца этого урока! В этом руководстве вы изучили некоторые часто используемые распределения вероятностей и научились создавать и отображать их на Python.Хотя есть много других дистрибутивов, которые необходимо изучить, этого будет достаточно для начала. Не забудьте проверить библиотеку python scipy , которая имеет другие интересные статистические функции. Удачного знакомства!

Если вы хотите узнать больше о вероятности в Python, пройдите курс DataCamp «Статистическое моделирование в Python».

Список литературы

,

Смотрите также