автор: shkrobious

Назовите любое число. Вероятность, что я его угадаю, равна нулю - чисел бесконечно много. И вероятность, что вы выберете какое-то конкретное число - тоже нуль. Но ведь выбираете же как-то... И вы не выберете ЛЮБОЕ число. Уверен, что большинство с ходу выберет двузначное число, меньшинство - трехзначное, и совсем ничтожное количество - другие числа.

Теория вероятности - раздел математики. Математика - пример дедуктивной системы, где утверждения доказуемы и верны. Статистика имеет дело с моделями реальности в условиях неопределенности. Далее работает стереотип. Все обстоит, как в известном изречении про нормальное распределение: физики думают, что оно следует из статистики, математики - из физики, статистики - из математики.

Математики так не думают, извините. Существует ЦПТ, хотите с ней спорить - милости прошу.

Зачем спорить? Но ДОКАЗАТЬ, что конкретный случай подходит под условия этой теоремы. ... Вы так рассуждаете, как будто никогда не слышали о погрешностях, малых отклонениях, сходимости и т. п.

Слышал. Но какое это имеет отношение к нормальному распределению и ЦПТ?

Допустим, рост индивидумов в популяции распеределен примерно по Гауссу. И что, он определяется большим количеством одинаково распределенных независимых случайных величин, чье число стремится к бесконечности? Меня терзают сомнения. Хотелось бы каких-нибудь доказательств.

Есть же такая вещь, как сходимость функции к другой функции. Она (сходимость) может быть достаточно быстрой и малочувствительной к отклонениям от начальных условий. В случае нормального распределения одинаковость распределения и бесконечность количества случайных величин не так уж и важны, на глаз кривая выглядит гауссовой.

[ входит математик ]

ЦПТ - математическая теорема, утверждающая, что сумма независимых одинаково распределённых случайных величин при некоторых дополнительных предположениях (конечность моментов) после правильной нормировки сходится в пределе к нормальному распределению. Тут прорва нюансов. Во-первых, должна быть идеология, объясняющая, почему что-то суммируется. В случае, скажем, распределения особей одного и того же вида по размеру/массе НЕТ АБСОЛЮТНО НИКАКИХ ОСНОВАНИЙ что-либо суммировать. Классический случай, когда суммирование осмысленно, - броуновское движение, когда пылинке передают импульс молекулы при случайных столкновениях. А рассеяние при стрельбе уже требует более точных моделей. Я уже не говорю о том, что даже при оправданности суммирования, условия одинаковой распределенности и НЕЗАВИСИМОСТИ - отнюдь не всегда выполнены (скажем, флуктуациии биржевых индексов). Ну, а в самом конце цепочки, - пресловутый предел. Скорее поразительно, насколько часто гауссиана всё же встречается в природе. Гораздо чаще, чем можно проверить выполнение условий ЦПТ. Думаю, в этом и состоит смысл "парадокса" Липпмана.

Ничего поразительного. Отклонения "не важны".

ЦПТ не утверждает, что суммирование бесконечного числа одинаково распределенных фукнций - это единственный способ получения гауссианы. Но, да, некоторый парадокс виден.

ЦПТ - в некотором смысле "главный" собственный вектор некоего интегрального преобразования в подходящем пространстве, связанного с суммированием случайных величин. Если настоящая гауссиана (а не абы какая колокообразная кривулька) появляется в задаче, где суммирование никаким боком не должно быть причастно, - это повод задуматься, всё ли мы понимаем правильно про МОДЕЛЬ. Скажем, пресловутая "верим-гауссу-не-верим-чурову" кривая (корреляция между процентом явки и количеством голосов за одного из кандидатов) никакой гауссианой быть не обязана - вот не обязана и все тут!

Мне кажется, Р. намекает на случайные блуждания, стохастику, цепи и проч. Я думаю, это ближе к истине. Какие же поросята эти демонстранты - хоть бы одно теплое слово о де Муавре на этих плакатах написали...

Мне всегда казалось, что нормальное распределение - это фонарь, под которым удобно искать, и все это понимают. Тем более, что оказывается, что теряют вещи часто не так уж далеко от фонаря.

Казалось бы. Но мне предлагают более интересную теорию. Что отклонения "не важны".


Скажем, если говорить не о расовом, а религиозном аспекте - все сразу вспомнят Вебера и т. д., про эмпирическую связь религии с темпами развития капитализма. Множество авторов такие наблюдения делало, множество - предлагало объяснения, далеко не всегда оказавшиеся верными, но в любом случае никто, как мне кажется, не спешит обзывать изучение этой проблематики "дрянью" и прочими обидными словами. А вот если кто-то из вовлеченных в это изучение займется ранжированием и заявит, что, дескать, "буддисты превосходят мусульман", потому что его наука это доказала - это будет уже основанием для наших оценок.

Это заявление само по себе останется не более чем его личным мнением. А вот когда (и если) оно станет использоваться как "научное" обоснование государственной политики по дискриминации мусульман в пользу буддистов - вот только тогда.

Есть и другая разница. Статистика - средство убеждения в отсутвие ПОНИМАНИЯ ИСТИННЫХ ПРИЧИН. Такой инструмент притягателен для дряни, так как не-дрянь имеет целью понимание, а не правдоподобие. В этом смысле, как инструмент, она - модернизированная риторика. Это же объясняет ее позднее появление. Статистика расцвела после осознания того, что такое понимание м.б. в принципе недоступно. Когда физика отказалась от детерминизма, круги пошли по всему корпусу знаний. Сразу во многих областях начали остро чувствовать пределы познаваемого.

Я понимаю вашу мысль насчет того, что статистика - это очень хорошее средство убеждения в отсутствие понимания истинных причин. Прежде всего - именно в экономике. И, тем не менее, это ошибочное и вредное использование статистики не исчерпывает всех направлений ее использования. Я твердо стою на том, что идеи не бывают вредными. С одной стороны, они бывают верными или ошибочными. С другой стороны, верные (работающие) идеи можно использовать ради достижения целей, которые мы осуждаем. Но сами по себе они, идеи - всегда полезны, потому что пополняют общий объем знания. И тогда обнаружится, что даже если топор, допустим, был изначально придуман для того, чтобы раскроить бошку соседу - это никак не мешает использовать его для заготовки дров.

Статистика - не топор. Даже от самого благородного и полезного применения остается осадочек. А. использует хитрые методы, чтобы искать гены заболеваний. Это полезно. Однако, с каждым успехом укореняется представление, что таких методов достаточно, а ПОНИМАНИЯ, как работает геном не нужно, "это слишком сложно и дорого". Стандарты "сигналов", которые они ищут, все время снижаются, так как не так уж много болезней, определяющихся одним-двумя невзаимодействующими генами. Затраты на перемалывание и сбор данных экспоненциально растут, а "выхлоп" все меньше. Сейчас применение статметодов уже, возможно, тормозит эту область, а не двигает ее вперед. Такое происходит во множестве областей. Мы не знаем и, по большому счету, не хотим знать, ЧТО ДЕЛАЕТ вещества токсичными, предпочитая миллиардные затраты на испытания и биостатистику. Цена лекарств и экономика биомедицины завязана на тупой перебор. Это как методом проб и ошибок строить небоскребы. Именно статистика вдохновляет подобный подход и делает его возможным. Разница в том, что в XVIII-м веке в такую идеологию познания не верили, и взяли на себя труд РАЗОБРАТЬСЯ в предмете по-настоящему, создав сопромат. Это заняло долгое время, но в результате нам не надо строить 10,000 моделей зданий и смотреть, какая из них не развалится. Я уверен, что и в экономике таких примеров масса. Понять, как вычленить в сложном простое, и как взаимодействия этих блоков порождают сложность и трудно и хлопотно. Статистика предлагает shortcut. Он всегда чего-то стоит. Вы намеренно отказываетесь от знания и зачастую от самих попыток его получения. Это наркотик. Сначала все хорошо, подъем, парение; как раз в этой фазе идет речь о большой пользе статистического подхода, и это справедливо. С каждой новой дозой приход уменьшается, пока не начинается застой. С иглы все равно придется слезать, нельзя продолжать до бесконечности - а возможности тем временем уже упущены.

Сказать нечего, потому что согласен. Весь этот перебор генов - как они любят щас говорить - Big Data - вызывает отторжение при первом взгляде на цветные картинки - которые выглядят слишком пестрыми чтобы я им безоговорочно поверил.

Боюсь, что на текущий момент я не могу придумать ни одного примера отрасли, в которой статистика применялась бы для того, чтобы нивелировать незнание. И, боюсь, сознательное применение статистических методов в том случае, когда известно, что закономерность существует, но ее закон непонятен, есть профнепригодность исследователя. Законным является именно применение статистики для исключения истинно случайной составляющей из ответа, и только.

Вы, наверно, не задумывались, как получилось, что в западных университетах факультеты статистики отделены от факультетов математики. Вот потому и. Потребовалось на определенном этапе развития дисциплины - чтобы не сблевнуть.

То, что, статистика создана дрянными людьми с дрянными целями прочно связано с этой особенностью статистики. Эта же особенность притягивает к ней новые когорты таких людей. Но эта фундаментальная особенность никуда не девается и в других случаях. Например: работы Госсета (он больше известен как Стюдент), имели вполне практическую побудительную причину: улучшить ячмень для пивного дома Гиннесса. Пишут, что Карла Пирсона скорее всего раздражала методика Госсета, да и Пирсона-младшего Госсету-ячменеведу так и не удалось убедить, что "статистическая значимость" абсурдна.

Что пишут-то: улучшил он ячмень для Гинесса или не улучшил?

Об этом наука умалчивает, хотя наверное улучшил. Наука больше поражается размаху таланта Госсетта, который, как пишут, первым применил методы Монте Карло на практике, а также изобрел методы постановки индустриального эксперимента. Сам он говорил, что открыл то, что все равно бы открыл Фишер. Тот и впрямь был башковит.

Госсетт был необычайно скромным человеком, а с Фишера вся дрянь с современной статистикой и началась. Мужик был башковитый, спору нет.

Злые языки утверждают, что Фишер придумал дисперсионный анализ, чтобы доказать, что от курения нет вреда.

На всех этих отцах-основателях, вроде Пирсона, клейма негде ставить.


Если вопрос: почему 70% Х ковыряют в носу? - что именно подразумевает подобный вопрос, если к нему хоть как-нибудь серьезно относиться? Надо сразу сделать большое число допущений. Х принимают независимые решения поковырять в носу, мотивация нам не известна, но она всегда одна и та же. Заранее составить список возможных ответов в надежде, что они покрывают диапазон мнений. Уже это проблематично, этих мнений может быть столько, сколько Х. Далее надо организовать репрезентативный опрос. Узнать сколько % и как ответило. Поверить или проверить, что ответы искренние, независимые, воспроизводимые, и т.д. Из этих многих ответов выбрать, скажем, два наиболее частых и сказать: "13% из тех, кто ковыряют в носу, думают так, 8% - эдак". Вот так выглядит статистический ответ на статистический вопрос. Я не занимаюсь опросом общественного мнения. Более того, ценность такого ответа в моих глазах равна нулю.

на одинаковом наборе фактов, умеющие думать люди должны бы выстраивать одинаковые версии. ну, или вернее, присваивать разным версиям сходные вероятности. это убеждение - одна из основ логики научного мышления. людей, умеющих думать непредвзято - нет. все, что мы можем оценивать - это степень и направленность их предвзятости. "спираль убежденности" укрепляет человека в моделях мира, в которые он верит: факты, противоречащие им - подергаются сомнению, а факты, подтверждающие - нет, хотя должно было бы быть наоборот, поэтому любая достаточно сложная модель мира в конце концов превращается в систему верований

<<< этот тип мышления - когда берется одна деталь и на её основании строится глобальный вывод, несмотря на тысячи других соображений - и стал методологической базой фоменкизма. и многие мои знакомые, которые говорили: "ну мало ли что там раскопали и в книжках написали, вот про затмение-то аргумент железный!" - были как раз физиками. awareness воспитывается не только естественнонаучным образованием. в тот момент когда одному понятно, что этого не может быть, потому что этого не может быть (потому что тип данных string, потому что закон сохранения массы, потому что учётная запись блокируется только на 15 минут, помому что валентность нулевая, etc.), второй продолжает строить завиральные теории. но я бы назвал это не "физика" и "лирика", а скорее "рацио" и "эмо"

а ведь именно такие оценочные методы позволяют хоть как-то ориентироваться в современных информационных потоках. на бытовом уровне. и если бы большинство ими владело, то не была бы так эффективна геббельсовская пропаганда. многие подобные случаи сводятся к тому, что человек должен оценить насколько как раз мала вероятность какого-то события. частенько в полемике "физики" прибегают к этому аргументу, в то время как "лирики" часто пытаются аргументировать события большой величиной вероятности