оглавление     вперед


ващета непрерывная случайная величина - она "не случайна" и "не величина", потому что она - морфизм из пространства событий Ω в вещественную прямую ℝ

необходимо отметить, что если пространством событий является сама прямая ℝ, то отдельной точке вещественной прямой ℝ соответствует нулевая вероятность, хотя если вас попросят выбрать (случайным образом) вещественное число - то вы какое-то число выберете - и это несмотря на то, что вероятность этого вашего выбора теоретически равна нулю


  • плотность вероятностей
  • энтропия непрерывной случайной величины
  • распределение вероятностей
  • матожидание и дисперсия
  • мода и медиана
  • независимость двух rv - joint, margins
  • ограничение Маркова
  • ограничение Чебышева
  • ограничение Чернова
  • равномерное распределение
  • нормальное распределение
  • экспоненциальное распределение
  • характеристическая функция
  • неравенство Cauchy-Schvarz

  • непрерываная случайная величина - это отображение из пространства событий Ω на действительную ось ℝ

    Law of Total Probability

    for two events B and A, you can find the overall probability of A using the following formula:

        P(A) = P(A|B) * P(B) + P(A|B^c) * P(B^c)

    we are simply parsing down A into two cases: when B occurs and when B does not occur. we take the conditional probabilities of each case, and then weight them by the probability that we are in that space (P(B)) and (P(B^c))). you can think of LOTP as a weighted average!

    in this case, we consider two cases (when B occurs and when B does not occur) but we can continue to split the probability into more cases if necessary

    Story

    each distribution has a Story. beyond all of the math, what really makes distributions interesting is a summary of what is actually going on in plain english; what kind of random process is occurring. the Story of the Binomial is we perform n independent trials, each with only two outcomes (usually we think of these two outcomes as success or failure) and with a probability of success p that stays constant from trial to trial

    Support

    the Support of a distribution is simply the set of possible values that the random variable can take on. for example, if you had a random variable that could only spit out negative numbers or 0, then the support would be negative infinity to 0

    supports seem trivial, but they are often very useful and important in fundamentally understanding a distribution

    плотность вероятности

    для непрерывной случайной величины X плотностью вероятности называется всюду положительная функция f(x), такая, что:

            +∞
            ∫ f(x) dx = 1
           -∞

    такая функция f(x) называется Probability Density Function (pdf)

    для примера - плотность нормального распределения Гаусса, код в Octave:

            quad ( @(x) exp (- x^2 / 2), -120, 120 ) / sqrt ( 2 * pi )
            ans = 1.000

    pdf есть образ "меры на пространстве событий" при проекции на вещественную прямую

    Th: при сложении независимых случайных величин с плотностями вероятности f1 и f2 получается случайная величина с плотностью вероятности

                 ∞
       f(x)  =   ∫ f1(t) * f2(x−t) dt.
                −∞ 

    энтропия rv

    если f - плотность вероятности, тогда мера неопределенности есть энтропия, которая вычисляется по формуле:

                    +∞
             H(x) = ∫ f(x) * log f(x) dx 
                   -∞
    

    распределение вероятностей

    функции плотности вероятности f(x) ставится в соответствие функция распределения F(t):

                    t
            F(t) =  ∫ f(x) dx 
                   -∞

    функция распределения есть непрерывная монотонно неубывающая (от 0 до 1) функция

    такая функция F(t) называется Commulative Distribution Function (cdf)

    ващета F рассматривается как функция, задающая вероятность случайной величины на интервалах. интервалу [a,b] соответствует вероятность:

                              b
            p = F(b) - F(a) = ∫ f(x) dx
                              a

         

    производная от cdf показывает вероятность того, что случайная переменная окажется в положительной окрестности точки x


    матожидание и дисперсия

    a distribution function is a function from the whole sample space into the real numbers. and that's a very complicated thing in general. distribution function of a random variable often says more than you're really interested in

                +∞
        E(x) =  ∫ x * f(x) dx
               -∞
    
                +∞                             +∞
        V(x) =  ∫ [x - E(x)]² * f(x) dx    =   ∫ x² * f(x) dx   -   E²(X)
               -∞                             -∞
    
    and the expectation is just one simple number. and with that one simple number, you get an idea of what that random variable is all about

    как теперь искать матожидание? если распределению F вероятностей для x соответствует плотность f, и есть величина ξ(x), то

                  ∞                 ∞
          E(ξ) = ∫ ξ(x) * f(x) dx = ∫ ξ(x) dF(x)
                -∞                 -∞
        
    при правильном понимании интеграла с dF(x). правильное понимание — что мера отрезка равна разности значений F на его концах

    мода и медиана

    модой непрерывной случайной величины называется такое ее значение x, при котором плотность вероятности f(x) максимальна. т.е. это абсцисса максимума функции pdf

    медианой непрерывной случайной величины называется такое ее значение M, что

          p(x ≤ M) = p(x > M)    
    т.е. это такая точка, которая бьет площадь под графиком функции cdf ровно попалам

    независимость двух непрерывных случайных величин

    они независимы, если выполняется равенство:

           F(x, y) = F(x) * F(y)  

    пусть X1,...,Xn - iid rvs. тогда

        p (X1 ≤ x1, ... , Xn ≤ xn) 
    называется joint
        p (X1 ≤ x1) , ... , p (Xn ≤ xn)   
    называются margines


    LoTUS

    turns out that for a rv X with PDF f(x), we can find the expectation just by integrating x multiplied by the PDF. this is called LoTUS

    LoTUS, or “Law of The Unthinking Statistician,” is an extremely useful tool that sometimes suposes as an area of confusion. it is the ‘lazy’ way to find the expectation of a random variable and, by some miracle, also a correct way. in fact, LoTUS says that instead of just being able to find E(X), you can find the expectation of any function of X in a similar fashion

    what does this mean and why is it important?

    well, say that you had a rv X and a PDF f(x), and someone wanted you to find the average of your rv squared, E(X^2). in that case, E(X) is just some number; we’re just squaring the average of X. in the E(X^2) case, we’re creating a new rv, X^2, and taking the expectation of that new random variable. in most cases, you might be a little stumped on how to figure this out and LoTUS comes to the rescue: since X^2 is just a function of X, you plug it in:

                   ∞  
          E(X^2) = ∫ x^2 * f(x) dx
                  -∞ 

    variance calculation is a very common application of LoTUS. say that you had to find the variance of a rv, and you knew its PDF. you could use LoTUS to find both E(X) and E(X^2) - you would just multiply the PDF by x or x^2 and integrate


    неравенство Маркова

    если Y положительная rv и если ее матожидание - конечно, то для любого положительного значения y, вероятность того, что Y>y eсть E(Y)/y

    для доказательства воспользуемся графиком pdf. площадь под графиком больше матожидания E(Y), поскольку rv положительна и только увеличивает интеграл

    устремляя y→∞, легко увидеть, что серая область становится исчезающе малой частью площади под кривой, и значит

        lim y * p(Y>y) = 0 
        y→∞ 
    при условии, что E[Y] < ∞, т.е. определено

    пример

    предположим, что средний рост популяции города 1.6 метра. тогда Марков утверждает, что рост выше 3.2 метров может быть не более чем у половины жителей

        E[Y] / y  =  1.6 / 3.2  =  0.5  ≥  p(Y > 3.2) 
    очень слабый критериум

    неравенство Чебышева

    Чебышев использует девиацию и оценка убывает как 1/σ² при увеличении расхождения со средним значением

    важно отметить, что неравенство Маркова верно лишь для "верхнего хвоста" функции распределения и применимо только к неотрицательным rv, тогда как неравенство Чебышева верно для обоих "хвостов" функции распределения и применимо также и к отрицательным rv

    гораздо более важное различие заключается в том, что Чебышево ограничение стремится к нулю обратно с квадратом расстояния от матожидания, в то время как Марково ограничение стремится к нулю обратно с расстоянием от нуля (ассимптотически - с расстоянием от матожидания)

    неравенство Чернова

    неравенство Чернова - это ограничение на генераторную функцию

    MGF - the moment generating function of a rv Z. it's a function g of a real number r. and that function g is the expected value of exp(r*Z). it's called the "generating function" because if you start taking derivatives of this and evaluate them, that r equals 0, what you get is the various moments of Z

    Chernoff (or exponential) bounds are another variation of the Markov inequality in which the bound on each tail of the distribution function goes to 0 exponentially with distance from the Mean

    for any given rv Z, let I(Z) be the interval over which the MGF

        g(r) = E[exp (Z*r)]
    exists. letting Y=exp(Z*r) for any r∈I(Z), the Markov inequality applied to Y is

    this decreases exponentially with Z and is useful in studying large deviations from the Mean

    this decreases exponentially with Z, and that's why it's useful. the Markov inequality only decays as 1/y. the Chebyshev inequality decays as 1/y². this decays exponentially with y. and therefore, when you start dealing with large deviations, trying to talk about things that are very, very unlikely when you get very, very far from the Mean, this is a very useful way to do it. and it's sort of the standard way of doing it at this point

    WLLN

    let X₁,X₂,..,Xₙ be IID rv’s with mean X, variance σ²
    let Sₙ=X₁+...+Xₙ
    then σS² = n * σ²

    the Mean of the distribution varies with n and the standard deviation varies with √n

    the fact that Sₙ/n converges in Mean² to X doesn’t tell us directly what might be more interesting: what is the probabilility that |Sn/n − X| exceeds ε as a function of ε and n?

    one can get an arbitrary accuracy of ε between sample average and Mean with probability 1−σ²/nε, which can be made as close to 1 as we wish, by increasing n. this gives us the "weak law of large numbers" (WLLN):

    CLT

    the Central Limit Theorem says that that happens not only for the Bernoulli case, but it happens for all random variables, which have a variance. and the convergence is relatively good if the random variables have a certain moment that can be awful otherwise

    this says that a lot of random variables, which are sums of large numbers of little things, in fact are close to Gaussian

    код на R

    if you look at what happens for a discrete random variable, which is not binary, you have the most awful distribution if you try to look at the pmf. it is just awful. and the only thing which looks nice is the distribution function. the distribution function looks relatively nice. and why so - is hard to tell. and if you look at proofs of it, it goes through Fourier transforms. in probability theory, Fourier transforms are called "characteristics functions", but it's really the same thing. and you go through this very complicated argument

    so anyway, the Central Limit Theorem does apply to the distribution function. namely, exactly what that says. the distribution function of this normalized sample average does go into the distribution function of the Gaussian. the PMFs do not converge at all. and nothing else converges, but just that one thing


    равномерное распределение

    распределение вероятностей называется равномерным, если на интервале, которому принадлежат все возможные значения случайной величины, плотность вероятностей имеет постоянное значение

            f(x) | x ∈ [a , a+Δ] = 1 / Δ 
                 | x ∉ [a , a+Δ] = 0

    тогда

            F(t) = (t - a) / Δ,    t ∈ [a , a+Δ] 
            F(t) = 0,              t < a 
            F(t) = 1,              t > a+Δ 

    матожидание μ

                +∞                                 b
        E(x) =  ∫ [x / (b - a)] dx = (1/(b - a)) * ∫ x dt = (b + a) / 2 
               -∞                                  a
    

    пример: ожидание автобуса

    если вы всегда прибываете на автобусную остановку, не сверяясь с расписанием, а интервал между прибытием автобусов составляет 15 минут, то время, проведенное вами на остановке будет равномерно распределено между 0 и 15 минутами, а матожидание будет равно 7.5 минуты

    пример: иголка Баффона

    на плоскости есть сетка параллельных линий с шагом d. есть иголка длинны l, l < d. какова вероятность того, что случайным образом брошенная на плоскость иголка пересечет (коснется) линии?

    пусть x - расстояние от ближайшей линии до центра иголки. пусть Θ - (острый) угол между направлениями линии и иголки. тогда

            0 ≤ x ≤ d/2             p(x) = 2/d
    
            0 ≤ Θ ≤ π/2             p(Θ) = 2/π
      
    иголка пересечет линию, если x ≤ (l/2) * sin Θ

    две равномерно распределенные случайные величины x и Θ - независимы, значит распределение вероятностей общего события (joint probability) есть произведение распределения вероятностей отдельных событий:

         F(x,Θ) = F(x) * F(Θ) = ∫ f(x) dx * ∫ f(Θ) dΘ = ∫∫ f(x) * f(Θ) dxdΘ
    
                 π/2 l/2 * sin Θ                             l/2           π/2
         f(x,Θ) = ∫  ∫ [(4/(d * π))] dx dΘ = [4/(d * π)] * (x |) * (- cos Θ |)
                  0  0                                        0             0
    
                  2 * l
         f(x,Θ) = ----- 
                  d * π
    

    задача

    диаметр круга x измерен приближенно, причем a ≤ x ≤ b

    рассматривая диаметр как случайную величину, распределенную равномерно в интервале [a,b], найти числовые характеристики площади круга

    TODO

    Universality of Uniform

    even though the Uniform is a very simple distribution, it has a very interesting and valuable property. ironically, this concept of ‘Universality’ is one of the hardest to grasp

    Universality of the Uniform has two separate results that apply to continuous distributions

    the first is that you can generate any random variable you would like using just a CDF and the standard Uniform distribution. let’s say you want to create a random variable that has some crazy, strangely defined CDF. the Theorem goes that if you plug U into the inverse CDF, then that new random variable (the U plugged into the inverse CDF; this is a random variable because it is a function of a random variable) will be distributed according to the original CDF. mathematically, it’s as if you want to create a distribution X that has CDF F. if you then just let

        X = F⁻(U)
    then X has the CDF F

    the bottom line here is that if you start with any CDF you want (provided it’s increasing and continuous), then plug in U to the inverse CDF, you have just created a random variable that follows the original CDF

    an example. say that you have a CDF that’s defined F(x)=1-exp(-x). say that you want to create a random variable that follows this CDF, but your computer doesn’t know how to generate random values with this structure. how would you do it? well, if we follow the Universality of the Uniform, all we have to do is plug U into the inverse CDF. the easiest way to do this is to set the CDF equal to U and solve for x:

        1- exp(-x) = U     =>     -ln(1 - U) = x
    from here, Universality says that the LHS of the equation on the right, or -ln(1-U), is a random variable with the CDF F. since CDFs determine distributions, this also means that this new random variable we created, -ln(1-U), has the same distribution as the distribution we were trying to mimic. let’s confirm this result by generating random values in R:
    #set grid
    par(mfrow = c(1,2))
    
    #Exponential
    hist(rexp(1000), col = rgb(1, 0, 0, 1/2),
         main = "Exponential Distribution",
         xlab = "")
    
    #transformed Uniform
    hist(-log(1 - runif(1000)), col = rgb(0, 1, 0, 1/2),
         main = "-ln(1 - U)", xlab = "")    
    

    this result is the first major result of Universality

    the second result says something pretty similar, but essentially going in the opposite direction: given a random variable X that has a CDF F, then F(X) (plugging X into it’s own CDF) follows a Standard Uniform Distribution Unif(0,1). that is, mathematically, F(X)~Unif(0,1). it’s intuitive that F(X) can only take on values 0 to 1, since the CDF returns a probability, but it is incredible that it is Uniform. you might be confused about what it looks like to plug a random variable into it’s own CDF: consider the example above. plugging in X would just make the CDF look like 1-exp(-X). it’s key here again to remember the difference between X and x. as usual, X is random, while x is simply a constant that the random X crystallizes to

    let’s consider an example in R. we can generate many values from Exponential distribution (which takes one parameter, (lambda) with rexp function, and then plug this vector of values into the CDF with the pexp command

    #generate the r.v., an Expo(1)
    X = rexp(1000, 1)
    
    #plot F(X)
    hist (pexp(X, 1), col = rgb(0, 0, 1, 1/2), main = "F(X)", xlab = "") 

    the resulting graph, incredibly, is Uniform on the interval 0 to 1

    средняя дистанция между двумя rv с равномерно распределеными единичными мерами

    R:

    x = runif (1000, 0, 1)
    y = runif (1000, 0, 1)
    z = rep (NA, 1000)
    
    for (j in 1:1000) 
    {
      z[j] = max (x[j], y[j]) - min (x[j], y[j])
    }
    
    mean (z)  

    распределение Гаусса

    для непрерывной случайной величины x функцией плотности вероятности pdf будет функция

        f(x) = exp [-(x - μ)²/(2 * σ²)] / (σ * √ (2 * π)) 
    где μ - матожидание, σ - стандартное отклонение

    при μ = 0 и σ = 1 получаем частный случай распределения Гаусса - "нормальное распределение"

    итак, при нормальном распределнии случайной величины ее ожидаемое значение равно нулю, а дисперсия не равна нулю, ибо в противном случае величина была бы константой, а вовсе не rv

    энтропией непрерывной rv с гауссовским распределением будет

        H(x) = log (σ * √ 2πe)

    график функции плотности вероятности:

    а график функции распределения:

    нормальное распределение возникает например тогда, когда случайная величина является суммой очень многих независимых малых по значению случайных величин, безотносительно к тому, какое распределение было у всех этих малых случайных величин (т.н. "белый шум")

    для распределения Гаусса маленькая σ соответствует "узкому колоколу с длинными хвостами", большая - "широкому с короткими", а μ соответствует абсциссе вершины колокола

    rv Y = a * X + b имеет Гауссово распределение, если rv X имела Гауссово распределение

    интеграл

          a 
          ∫ exp [-(x² / 2)] dx
         -∞
      
    не выражается аналитически (первообразная не может быть выражена через элементарные функции). пользуются численным интегрированием или же для начала нормализуют случайную переменную, а затем берут табличные данные, ориентируясь на значение σ. ниже приведена такая таблица

    значения функции нормального распределения Fμ,σ с параметрами μ, σ
    вычисляются по формуле
    Fμ,σ(x) = F((x - μ) / σ)
     0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
    0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
    0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
    0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
    0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
    0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
    0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
    0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
    0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
    0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
    0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
    1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
    1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
    1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
    1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
    1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
    1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
    1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
    1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
    1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
    1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
    2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
    2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
    2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
    2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
    2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
    2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
    2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
    2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
    2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
    2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
    пример

    есть нормально распределенная rv X c матожиданием 2 и ско 4. какова вероятность того, что значение переменной окажется меньше 5

       F (X < 5)      =   F (X - 2 < 5 - 2)
    
       F (X - 2 < 3)  =   F ((X - 2) / 4 < .75)
    теперь смотрим таблицу для 0.75 и находим вероятность. ответ: p = 0.7734


    экспоненциальное распределение

    параметр λ - вероятность события, рейт

         f(x) | x ≥ 0  = λ * exp (- λ * x)
              | x < 0  = 0

    PDF :

         F(t) | t ≥ 0  = 1 - exp (- λ * t)
              | t < 0  = 0

    CDF :

    у экспоненциально-распределенной rv матожидание и дисперсия одинаковы

    пример

    если сервер получает n запросов за час, (n << 3600) то распределение вероятностей не получить запрос за означенный промежуток времени будет пуассоновским


    переход к бесконечным сериям от конечных

    now, let's look at the strange aspect. and this is where things get very peculiar

    let's look at the Bernoulli case. let ω is the event from Ω space. so we consider a Bernoulli process. all moments of X exist. moment-generating functions of X exist. X is about as well-behaved as you can expect because it only has the values 1 or 0. so it's very nice

    E(X) is going to be equal to p in this case

    the set of sample paths for which "Sn(ω)/n is equal to p" has probability 1

    in other words, with probability 1, when you look at a sample path and you look at the whole thing from n equals 1 to infinity, and you take the limit of that sample path as n goes to infinity, what you get is p. and the probability that you get p is equal to 1

    well, now, the thing that's disturbing is, if you look at another Bernoulli process where the probability of the 1 is p' instead of p. what happens then?

    with probability 1, you get convergence of Sn(ω)/n, but the convergence is to p' instead of to p

    the events in these two spaces are exactly the same. we've changed the probability measure, but we've kept all the events the same. and by changing the probability measure, we have changed the set of probability 1 into a set of probability 0. and we changed another set of probability 0 into set of probability 1

    so we have two different events here. on one probability measure, this event has probability 1. on the other measure, it has probability 0. so that's a little disturbing

    you can pick p in an uncountably infinite number of ways. and for each value of p, you have one event of probability 1 for that p. so as you go through this uncountable number of events, you go through this uncountable number of p's, you have an uncountable number of events, each of which has probability 1 for its own p

    and now the set of sequences that converge is, in fact, a rather peculiar sequence to start with. so if you look at all the other things that are going to happen, there are an awful lot of those events also. so what is happening here is that these events that we're talking about are indeed very, very peculiar events. all the mathematics works out. the mathematics is fine. there's no doubt about it. people like Kolmogorov went to great efforts to make sure that all of this worked out. but then he wound up with this peculiar kind of situation here. and that's what happens when you go to an infinite number of random variables. and it's ugly, but that's the way it is

    when you go from finite n to infinite n, and you start interchanging limits, and you start taking limits without much care and you start doing all the things that you would like to do, thinking that "infinite" is sort of the same as "finite n". in most places in probability, you can do that and you can away with it. as soon as you start dealing with the Strong Law of Large Numbers, you suddenly really have to start being careful about this

    so from now on, we have to be just a little bit careful about interchanging limits, interchanging summation and integration, interchanging all sorts of things, as soon as we have an infinite number of random variables


    характеристическая функция

    наша цель — доказать, что если взять одинаково распределённые независимые случайные величины с конечной дисперсией, то зная только среднее и дисперсию можно довольно точно оценивать вероятность принятия средним из этих величин значений в заданном интервале

    Def : для случайной величины ξ характеристической функцией называется

        χξ (t) = M * exp (i * t * ξ) , i ∈ ℂ 

    Th : характеристическая функция среднего n независимых ограниченных случайных величин, одинаково распределённых с ξ, имеющей математическое ожидание 0 и дисперсию 1, сходится при n→∞ к exp(−t²/2). при этом сходимость равномерная по t на каждом отрезке

    в чём польза от характеристической функции? характеристическая функция — ожидание мнимой экспоненты от t*ξ, т.е. матожидание синуса и косинуса от значения ξ. но через синусы и косинусы можно приблизить любую непрерывную функцию; а через ожидания кусочно-линейных функций, быстро возрастающих от нуля до единицы и через некоторое время быстро спадающих обратно, можно выразить ожидание индикатора промежутка, т.е. вероятность попадания в него. но это и есть то, что требовалось!

    самый простой способ показать, что именно нормальное распределение обладает указанной характеристической функцией, такой: предел не зависит от исходного распределения, а усреднение нормального распределения опять даёт нормальное распределение — тогда для этого распределения мы знаем предел. на самом деле, одинаковость распределения не обязательна, как и ограниченность (достаточно существования среднего и дисперсии), но это требует более аккуратного рассмотрения

    рассмотрим сначала простейшую ситуацию. у нас есть некоторая случайная величина ξ, для которой существуют E(ξ), D(ξ). в эксперименте измеряются n независимых случайных величин, распределённых так же, как и ξ. мы хотим (хотя бы приблизительно) узнать, каково матожидание ξ. естественное построение: просто рассмотрим среднее из всех полученных значений. теперь определим, что мы должны построить в общем случае, и как проверить осмысленность построения

    неравенство Cauchy-Schvarz

        | E (Y*X) | ≤ √ (E(X²) * E(Y²))   

    и если X и Y независимы друг от друга, то

        | E (Y*X) | = E(X) * E(Y)   


    оглавление     вперед