пусть f есть функция с одним аргументом. пусть аргумент функции - случайная величина с известным распределением вероятностей. тогда
∞
E(f(X)) = ∑ f(Xi) * p(Xi)
i=1
в общем случае
E(f(X)) ≠ f(E(X))
для выпуклой вниз функции g и случайной величины X:
например, это верно для функции g (x) = x²
g (E[X]) ≤ E [g (X)]
неравенство переходит в противоположное для выпуклых вверх функций
если x > 0 тогда E (1/x) ≥ 1 / E(x)
если x > 0 тогда E (ln x) ≤ ln E(x)
единственный (и очевидный) факт, который нужен для доказательства - это то, что любая касательная лежит "ниже" графика, потому что если
g (x) ≥ a + b * xдля любого x, то и
g (X) ≥ a + b * X = a + b * E(X) = a + b * μ = g(μ) = E(X)для любой rv X
для вогнутых функций неравенство теряет всякий смысл
переформулировка неравенства Йенсена: значение функции от среднего на интервале не больше, чем среднее от значений функции на этом интервале
переформулировка неравенства Йенсена: значение функции от матожидания rv не больше, чем матожидание значений функции от rv
Def: for any two events A and B (with Pr (B) > 0), the conditional probability of A, conditional on B, is defined by
Pr (A | B) = Pr (A.B) / Pr (B)
one visualizes an experiment that has been partly carried out with B as the result. then Pr{A|B} can be viewed as the probability of A normalized to a sample space restricted to event B. within this restricted sample space, we can view B as the sample space (i.e., as the set of outcomes that remain possible upon the occurrence of B) and A.B as an event within this sample space. for a fixed event B, we can visualize mapping each event A in the original space to event A.B in the restricted space
когда имеют дело не с дискретными случайными величинами принимающими конечный набор значений, а с непрерывно распределенными на всех действительных числах, то основное препятствие, с которым сталкиваются при желании применить теорему Байеса, — это сложность оценивания вероятности в знаменателе. на практике, задача точного подсчета знаменателя обычно становится невыполнимой, так что приходится довольствоваться различными методами приблизительной оценки вероятности
X - изучаемый феномен с предполагаемой функцией плотности вероятностей f(x) Y - результат опытов ________ X | | Y ------>| f(y|x) |------> f(x) |________| f(y|x=a) f(y|x) = -------- это - модель f(x)нас интересует f(x|y) . тогда
f(y) = ∫ f(x) * f(y|x) dx x f(x) * f(y|x) f(x|y) = ------------- f(y)последнее выражение и есть искомая функция плотности условной вероятности
это можно распространить и на смешанные случаи
f(y) = Σ p(x) * f(y|x) x p(x) * f(y|x) p(x|y) = ------------- f(y)
X = 1, 0 Y = X + Wгде W - белый шум
f(y) = ∫ f(x) * p(y|x) dx x f(x) * p(y|x) f(x|y) = ------------- p(y)
join :
f(x,y) = ∂²F(x,y)/∂x∂y
marginal :
∞ f(x) : ∫ f(x,y) dy -∞ ∞ f(y) : ∫ f(x,y) dx -∞ ∞ ∞ ∫ ∫ f(x,y) dx dy = 1 -∞ -∞
две непрерывные случайные величины X и Y независимы если
f (X , Y) = f (X) * f (Y)т.е. если их join есть произведение их margines
это свойство функции распределения, а не самого стохастического процесса, но очень часто говорят, что сам процесс (не)имеет это свойство
свойство memoryless случайного процесса X заключается вот в чем :
p (X ≥ s+t | X ≥ s) = p (X ≥ t) E (X ≥ s+t | X ≥ s) = E (X ≥ s+t, X ≥ t) / E (X ≥ s) = E (X ≥ s+t) / E (X ≥ s) = exp (-λ*(s+t)) / exp (-λ*s) = exp (-λ*t) = E (X ≥ t) e.g. E (X | X &t; 20) = 20 + E (X)
экспоненциальные процессы - единственные процессы, которые имеют это свойство
если определяющую стохастический процесс экспоненциально-распределенную rv возвести в степень, то процесс потеряет это свойство
пусть есть rv X. тогда M(t) называется "moment generating function" (MGF) если выполняется:
M(t) = E (exp(t*X))т.е. мы берем какую-то переменную t и определяем функцию от нее, где составляющей является изначальная случайная величина X
функция называется "генератором моментов", потому что разлагая в ряд Тейлора
E (exp (t * X)) = E (Σ t * Xn/n!) = Σ E (t * Xn/n!)мы получаем сумму ряда, в котором присутствуют все моменты X
M(n)(0) = E(Xn)
если две случайные величины имеют одинаковую MGF, то они имеют одинаковые функции распределения
если две rv X и Y являются iid, то
MGFX * MGFY = MGFX + Y E (exp (t * X)) * E (exp (t * Y)) = E (exp (t * (X + Y)))
X ~ 𝓑(n,p) | MX(t) = (p*exp(t) + (1-p))^n |
X ~ 𝓝(0,1) | MX(t) = exp (t²/2) |
X ~ 𝓔(1) | MX(t) = 1/(1-t) , t < 1 |
X ~ 𝓟(λ) | MX(t) = exp (λ * (exp (t) - 1)) |
пусть X ~ 𝓝(μ,d) тогда MGF для X есть E(exp (t * X)) = exp (t * μ + t² * d/2)
пусть есть две iid rvs :
X ~ 𝓝(μ₁ , σ₁²) Y ~ 𝓝(μ₂ , σ₂²) MGF(X) = exp (t * μ₁ + t² * σ₁²/2) MGF(Y) = exp (t * μ₂ + t² * σ₂²/2) MGF(X) * MGF(Y) = exp [(t * (μ₁ + μ₂) + t² * (σ₁²/2 + σ₂²/2)] => X + Y ~ 𝓝(μ₁ + μ₂ , σ₁² + σ₂²)
пусть есть две rv X и Y с известными, но разными, распределениями вероятностей
требуется найти распределение вероятностей для rv T = X + Y
дискретный случай:
p (T = t) = Σ p (X = x) * p (Y = t - x) x
непрерывный случай:
∞ fT (t) = ∫ fX(x) * fY(t - x) dx -∞
пусть есть дифференцируемая возрастающая функция g и случайная величина X с изестной функцией распределения вероятностей f
требуется найти функцию распределения для случайной величины Y=g(X)
если положить значения X и fY в виде двух векторов, то
fY = J * Xгде J - это определитель матрицы Якоби для функций f и g :
( ∂f₁/∂g₁ ... ∂fₙ/∂g₁ ∂f₁/∂gₙ ... ∂fₙ/∂gₙ )
существует обобщение равномерного распределения в диапазоне [0,1], так же ограниченного, но в общем случае - уже неравномерного. оно называется β-распределением:
Βeta(a,b) a>0 b>0 f(x) = c * x^(a-1) * (1 - x)^(b-1) , 0<x<1где c - константа нормализации
это очень гибкое семейство распределений для rv в диапазоне (0,1)
например, если b=1 и a=2, то получим линейное распределение
#generate the r.v.'s p = rbeta(1000, 2, 1) hist(p)
#generate the r.v.'s p = rbeta(1000, 1, 2) hist(p)
если a=b=1/2, тогда график распределения будет U-формы,
#generate the r.v.'s p = rbeta(1000, 0.5, 0.5) hist(p)
а если a=b=2, то график будет перевернутой U-формы:
#generate the r.v.'s p = rbeta(1000, 2, 2) hist(p)
и т.д.
но ведь распределение на интервале (0,1) задает вероятностую меру! т.о. бета-распределение есть семейство различных вероятностных мер
пусть есть n равномерно распределнных rv U1,U2,...,Un. тогда
proof в R софте
x=seq(1,100,1) y=rep(NA,100) for (j in 1:100) { y[j] = beta (j, 100-j+1) } plot (x, y)
gamma-функция - функция от одной строго положительной переменной, обозначается буквой Γ(a) и имеет вид:
∞ Γ(a) = ∫ x^(a-1) * exp(-x) dx a>0 0
Γ(n) = (n-1)!, n ∈ ℕ
Γ(x+1) = x * Γ(x)
Γ(0.5) = √ π
Βeta(a,b) = Γ(a) * Γ(b) / Γ(a+b) . proof (СКА Максима):
(%i17) x : beta(3,4) ; 1 (%o17) -- 60 (%i18) a : gamma(3) ; (%o18) 2 (%i19) b : gamma(4) ; (%o19) 6 (%i20) c : gamma(3+4) ; (%o20) 720 (%i21) d : a * b / c ; 1 (%o21) -- 60
константа нормализации для распределения Βeta(a,b) : c = Γ(a+b) / (Γ(a) * Γ(b))
пусть Z1,Z2,...,Zn - iid rvs, Zj ~ 𝓝(0,1). тогда
χ²(n) ~ Z1² + Z2² + ... + Zn²
χ²(1) = Γ(.5, .5)
χ²(n) = Γ(.5 * n, .5)
пусть rv Z ~ 𝓝(0,1) и rv V ~ χ²(n), причем Z и V - независимы. тогда
𝓣(n) = Z/(√(V/n))
𝓣(1) ~ Couchy
𝓣(n) имеет симметричное распределение
𝓣 имеет более "толстые хвосты", чем 𝓝, особенно - для малых n
при больших n (n → ∞) 𝓣(n) стремится к 𝓝
стохастический процесс - это набор (семейство) случайных величин
функции sin , cos и const - не являются функциями l₂ поскольку их интегралы - не сходятся
"случайная прямая" - прямая линия со случайным наклоном, определяемым коэффициентом, имеющим Гауссово распределение (0,1)
например Пуассоновский процесс нестационарен, с независимыми стационарными приращениями и не самоподобный
интуитивное определение стационарного процесса такое: у вас есть ряд смежных случайных величин с каким-то распределением и если процесс стационарен, то сдвигая все точки вперед или назад вы получите то же самое распределение
Dev (X) < ∞ a : T → ℝ a (t) = E (Xt) матожидание k : T x T → ℝ k (t₁,t₂) = E( (Xt₁ - E(Xt₁)) * (Xt₂ - E(Xt₂)) ) = Cov (Xt₁, Xt₂) ковариация
теорию, которая использует для описания процессов эти две функции: a(t) и k(t₁,t₂) называют "теорией случайных процессов второго порядка"
если заданы функции a(t) и k(t₁,t₂), то случайный процесс вполне определен. например, Винеровский процесс имеет a(t)=0 и k(t₁,t₂)=|t₁-t₂|
при конечном числе координат вектора X, если ковариационная матрица K(xi,xj) имеет неотрицательный определитель, то случайный процесс имеет нормальное распределение
a(t) = 0
k(t₁,t₂) = min (t₁,t₂)
Винеровский процесс - это процесс с независимыми стационарными приращениями. это Гауссовский процесс и если две величины некоррелированы, то они независимы
Винеровский процесс самоподобен и нестационарен
Винеровскому процессу свойственна инверсия времени, т.е. поведение процесса в нуле определяется его поведением на бесконечности и наоборот
траектория Винеровского процесса непрерывана и нигде не дифференцируема
траектории процессов возвратны
lim Wt / √ (2 * t * ln ln t) = ±1 t→∞т.е. процесс "бегает" от нижней ветви "лежащей на боку" параболы к ее верхней ветви и по дороге "забегает" в ноль
определен на интервале [0,1]
a(t) = 0
k(s,t) = min(s,t) - s*t
процесс начинается и завершается в нуле, а максимальное значение принимает где-то посередине интервала
из Винеровского процесса можно получить Броуновский мост делая линейную интерполяцию с точками по оси t равными 0 и 1 - принимая за процесс ошибку интерполяции на всем этом интервале. на самом деле Броуновский мост можно получить делая интерполяцию по концам любого интервала Винеровского процесса - воспользовавшись самоподобием и стационарностью приращений Винеровского процесса
рассматривается пространство оснащенное сигма-алгеброй и мерой Лебега. затем из сигма-алгебры рассматриваются только множества с конечной Лебеговской мерой - получается хоть и ограниченная, но алгебра. тогда белый шум представляется как Гауссовский случайный процесс с Лебеговой мерой контроля
матожидание у всех интегралов по "белому шуму" равно нулю
все Винеровские процессы можно представить как интегралы по "белому шуму" от различных функций с различными константами. часто их просто сразу выражают в виде таких интегралов, а уже потом проводят рассуждения
Гауссовский белый шум - это частный случай случайной меры с некоррелированными значениями