"в городе завелся деревенский идиот. ему однажды предложили выбрать между бумажками в двадцать баксов и пятьдесят баксов. он выбрал двадцать баксов. с тех пор в город постоянно приезжают люди и предлагают идиоту снова сделать выбор. он продолжает выбирать двадцать баксов. люди продолжают приезжать в город с целью изучения данного феномена"

тверские конеманы блогера Ужаса

Linda

participants are presented with a description of "Linda" as a young woman who, in college, was neat, precise, good with mathematical arguments, and also a political activist on the extreme liberal side

participants are then asked which is more likely, that:
(a) Linda is a feminist
(b) Linda is an accountant
(c) Linda is a feminist and an accountant

a substantial number of participants choose answer (c). such a selection violates one of the axioms of the probability calculus, which states that for any two events, A and B:

p(A·B) = p(A) p(B|A) = p(B) p(A|B)

implying that

p(A·B) =< Min { p(A), p(B) }

why might someone commit the conjunction fallacy?

the usual argument is that instead of answering the question by recourse to the probability calculus people apply a representativeness strategy. they ask "Is Linda's description typical of a person who might be an accountant and a feminist?"

фишка в случае с кассиршей Линдой такова, что стоило изменить вопрос конкретно так:

How many out of 100 cases that fit the description of Linda are
[a] accountants and
[b] accountants and feminists

как вся эта "ошибка суждения" моментально из экспериментов исчезла. причем это было показано практически одновременно с работами конеманов; более того - сами конеманы феномен тоже обнаружили, но в литературе Линда по сей день в первозданной своей глупости ходит

вообще пример с Линдой имхо из разряда детских загадок "что делал слон когда пришел на_поле_он". испытуемому нужно знать заранее в чем подвох чтобы ответить правильно. для определения кем является Линда [по негласному условию эксперимента] он должен применять матлогику, правила построения высказываний в которой отличаются от обыденной речи. обычно если человек видит в меню "чай" и "чай с сахаром", то он считает что в первом случае ему предлагают чай без сахара (а не чай то ли с сахаром, то ли без), и он в этом случае абсолютно прав. формализм же в обычной жизни ("а в меню не написано, что чай горячий!") называется "включить дурачка". т.о. дурак скорее экспериментатор, а не исследуемый

an cars accident

in a certain city 85% of the cabs are painted blue and 15% painted green. an accident occurs, and a witness to the accident states that the cab involved was green. experiments show that under the conditions of visibility at the accident site the witness is able to identify the color of a cab correctly 80% of the time. what is the probability that the cab was green?

        ---------------------------------------------------------
          car     |  right seen in site  |  wrong seen in site
        ---------------------------------------------------------
          green   |  0.8 * 0.15 = 0.12   |  0.2 * 0.15 = 0.03
        ---------------------------------------------------------
          blue    |  0.8 * 0.85 = 0.68   |  0.2 * 0.85 = 0.17
        ---------------------------------------------------------


         p(G|E) =  0.12 * 0.15 / (0.12 * 0.15 + 0.03 * 0.85) = .414

это неправильный ответ

а как на самом деле правильно подсчитать вероятность по тому же Байесу в этом случае? очень просто - начинать цепочку надо с того, что мы знаем точно, а именно: СЛУЧИЛОСЬ ПРОИСШЕСТВИЕ. обозначим его E. E по условиям задачи верно

далее: мы знаем что свидетель с вероятностью 80% верно определил цвет машины как зеленый. по Байесу мы должны помножить это на вероятность того, что машина в случае E была зеленой

что делают конеманы? они считают почему-то что эта АПРИОРНАЯ вероятность должна быть рассчитана исходя из густоты зеленых такси в городе. НО С КАКОЙ СОБСТВЕННО СТАТИ? ведь в условиях задачи АПРИОРИ не сказано, что и синие и зеленые такси с вероятностью равной пропорции их количества в городе попадают в случай E. то есть априорную вероятность зеленой машины попавшей в случай E можно абсолютно по Байесу полагать В ДИАПАЗОНЕ ОТ НУЛЯ ДО ЕДИНИЦЫ. еще лучше просто игноривать априорную частотность зеленой машины в случае E (полагать ее равной 50%)

равномерность распределения – очень полезное качество. из всех распределений СООТВЕТСТВУЮЩИХ ЭМПИРИЧЕСКИМ ДАННЫМ, следует выбирать распределение обладающее наибольшей равномерностью (и, как следствие, наибольшей энтропией). то бишь принцип блондинки, несправедливо подвергаемый осмеянию, это самое то в случаях, когда априори мы мало что знаем про пространство реализации возможного СОБЫТИЯ. более того, это намного более правильный метод в сравнении с конеманским использованием априорной якобы "информативной" вероятности которая ВООБЩЕ не имеет никакого отношения к СОБЫТИЮ и должна быть категорически вычеркнута из суждений

p(G|E) = p(E|G) p(G) / ( p(E|B) p(B) + p(E|G) p(G) ) = 0.8 * 0.5 / ( 0.8 * 0.5 + 0.8 * 0.5 ) = 0.5

еще раз: "частотные" цифры в данном случае как раз ВЕРНО ИГНОРИРОВАТЬ совсем, поскольку никаких ДАННЫХ о частоте попадания синих и зеленых такси в СЛУЧАЙ E по факту нет. и это никакая не "ошибка суждения", а ИСТИННО ВЕРНЫЙ ХОД МЫСЛИ

постериор пропорционален лайклихуду, умноженному на прайор. Голос считает, что тут "Анинформатив Прайор" лучше, Канеман-Тверски считают, что "Информатив Прайор" лучше. выбор Прайора - это всегда джаджмент колл

нет! конеманы считают что их метода - ЕДИНСТВЕННО правильная. а это, разумеется, не так. допустим, вероятность для 13-летней москвички быть изнасилованной и убитой узбеком в тыщу раз меньше вероятности погибнуть при переходе дороги. у вас есть схожего профиля дочь и вы только что узнали, что по соседству была изнасилована и убита другая девочка. что в один голос твердят конеманы? что надо запретить девочке переходить дорогу, а на опасность узбека не стоит реагировать. правильно же, и чисто по-житейски, и прямо по Байесу, предположить что где-то поблизости завелся маньяк-насильник и девочку на некоторое время от узбека охранять особо

в условиях задачи появится тогда ВАЖНАЯ оговорка: "ПО СОСЕДСТВУ была изнасилована и убита девочка". НЕ ГДЕ-НИБУДЬ. этo - новая информация, существенно влияющая на расклад событий, не так ли? очевидно - Канеман должен был бы её учесть

между тем это опять же классический случай от конеманов. типа вы выбираете между Фордом и Хондой с таким-то процентом проблем согласно статистике, а тут ваш хороший знакомый делится с вами опытом недавно обнаруженных проблем в Хонде. согласно конеманам этот апдейт по Байесу ничтожен в сравнении со всей накопленной миллионной статистикой и его можно игнорировать - нужно опять исходить из частнотного априори, он типа терминально устойчив. очевидно что это ОШИБКА. КРИТИЧЕСКИ важное для человека СОБЫТИЕ (придется ли выбросить машину) не может и не должно быть рассмотрено как независимо случайная выборка из того же класса событий, на котором накоплена статистика

они совершенно последовательно пользуют Байеса для модели своих подопытных, но исключительно Фишера-Пирсона для самих себя, своих тезисов - без всяких апдейтов согласно новой информации

вот нам и раз. для догоняющих, можно попросить более подробно расписать по Байесу:

for proposition A and evidence E


p(A)      the PRIOR        is the initial degree of belief in A
p(A|E)    the COND PROB    represents the support that E provides for A 
p(E|A)    the POSTERIOR    is the degree of belief having accounted for E

                   p(E|A) = p(A|E) p(A) 

где Канеман зарылся?

Байес не накладывает никаких ограничений на априорные вероятности: ЛЮБОЕ распределение p(A) может быть использовано, если вероятности верно, согласно азам тервера, перенесены на гипотезу. конеманы фиксируют ОДИН конкретный вид априрного распределения - частотный, и считают, что все прочие априори - ОШИБОЧНЫ

была такая мысль: выяснить, какова статистика нарушений для водителей голубых и зеленых такси

фишка в том, что стоило в условия задачи добавить, что такой-то процент от синих машин исторически попадает в E - и люди прекрасно апдейтят вероятности с учетом таких априори данных, т.е. никаких "ошибок суждения" не наблюдается. но конеманы об этом ни гу-гу

пусть, к примеру, на основании данных за последние годы, вероятность для машины попасть в ДТП совпадает с частотной распределенностью машин. тогда


                p(G|E) = p(E|G) * p(G) / ( p(E|B) * p(B) + p(E|G) * p(G) )

                p(G|E) = .8 * .15 / (.2 * .85 + .8 * .15) = .41
как и было получено в начале. но чтобы этот ответ был "правильным" необходимо частотную вероятность попадания машин в ДТП прямо прописать в условиях. покуда этого не сделано "более правильным" является ответ .5

стрики

еще конеманы любят так называемые "стрики", т.е. существующие якобы только в воображении людей субъективные предпосылки. дальше в ход идет опять же Байес вкупе с тривиальными формулами испытаний Бернулли

берем средний выпуск MBA размером 500 человек и смотрим за их карьерой после выпуска 10 лет. мы всех их видим. все идут путем броуновского движения куда попало (либо за год в плюс, либо - в минус, c вероятностью 50/50). какова вероятность СЛУЧАЙНО не проиграть в эту лоторею ПОДРЯД НЕ МЕНЕЕ ВОСЬМИ ЛЕТ из десяти? конеманы устанавливают, что большинство людей считают такую вероятность невозможно малой и потому лузеры приписывают успешным людям некие качества типа "любимец богов", "невиданный талант" и т.д.

дальше посчитывается индивидуальная вероятность случайно выйграть НЕ МЕНЕЕ 8 РАЗ ПОДРЯД из 10

a = (0.5)^10 + 2 * (0.5)^9 + 3 * (0.5)^8 = .0166

в классе 500 человек, считаем вероятность что такой случай мы все же будем наблюдать, получаем:

1 - (1 - 0.0166)^500 = .9997682061

то есть вероятность чисто случайно в классе произвести топ-менеджера 99.977%. конеманы прыгают от счастья и пишут популярные статейки

но мы теперь чуток изменим расклады и предположим, что реально талант есть.

допустим, что пять процентов в классе МОГУТ изменить вероятность в свою пользу с шансами 60/40. остальные 95% по прежнему идут с 50/50

b = (0.6)^10 + 2 * (0.6)^9 + 3 * (0.6)^8 = .0766

s = .95 * a + .05 * b = .0196

это конкретно в данном случае производит вероятность 0.0196 кому-то выйграть восемь (или более) лет подряд - больше предыдущей ЗНАЧИТЕЛЬНО (на 18%)

тогда для класса в целом вероятность родить финансового гения:

1 - (1 - 0.0196)^500 = .9999496903

отличие от предыдущей вероятности в четвертой цифре после запятой: в классе реально ЕСТЬ пять процентов талантов, но из общей статистики группы это не очевидно. конечно, стало 99.99995%, но ведь и было 99.97682%. если же взять всех успешных, то вычленить таланты не представится возможным

а что будет с априорными вероятностями при таких раскладах после апдейта по Байесу?

допустим, что изначально мы имеем двух экстремистов

один считает что таланты существуют с вероятностью 0.1 - все типа чисто удача. ну и что у него выйдет по Байесу:

.9999995 * .1 / ( .9999995 * .1 + .9997682 * .9 ) = .10002

поверья сдвинулись в более правильную сторону, но сдвинулись совсем чуть-чуть

для комплиментарного случая человека, считающего что есть объективные данные для успеха (типа все заслужено) с уверенностью .9, по Байесу будет:

.9999995 * .9 / ( .9999995 * .9 + .9997682 * .1 ) = .90002

то есть и он укрепится в своих поверьях, но тоже довольно незначительно

часто в жизни апдейты бывают в раскладах Байеса и такие, что люди один раз (хватает), убеждаются в Истинности и далее уже пребывают с Истиной всю жизнь. ну, а что делают конеманы? они берут и устанавливают НОРМУ на основе частотных распределений, не имеющих никакого касательства к обстоятельствам конкретных случаев