golos-dobra

как делать правильные выводы из статистики и не делать неправильные

Допустим, что ученые где-то набрали данных следующей структуры и поделились с нами такими примерно оценками.

Десять процентов россиян больных болезнью Х поехали лечиться за границу и 75% из них полностью вылечились. Оставшиеся больные россияне лечились в России и 60% из них полностью вылечились.

Какой вывод из таких данных можно сделать о вероятности для россиянина вылечиться при лечении за границей (А) и, соответственно, о вероятности для россиянина вылечиться в России (Б)?

Очевидно что:
минимальная вероятность для россиянина вылечиться за границей будет получена умножением доли больных, кто реально поехал лечиться за границу на долю тех из них кто вылечился: 0.1 * 0.75 ≤ A
максимальное же возможное значение получается если бы все, кто не поехали за границу, поехали туда и вылечились: А ≤ 0.075 + 0.9

0.075 ≤ А ≤ 0.975

Соответственно, получаем про вероятность для россиян вылечиться в России, с поправкой на тех, кто уехал и лечился за границей, но в принципе мог бы вылечиться и в России: 0.6 * 0.9 ≤ Б
максимально же: Б ≤ 0.54 + 0.1

0.54 ≤ Б ≤ 0.64

Что в итоге мы знаем?

Про эффективность лечения россиян за границей данной конкретно болезни мы просто на самом деле НИЧЕГО практически не знаем, вероятность накрывает весь интервал от ничтожно малой, значительно меньше даже внутренне российской, до практически гарантированного результата.

Зато про вероятность излечения россиян в России мы знаем довольно неплохо.

И это все основано на базовой, так сказать, статистике, не ухудшая наш мыслительный процесс дальнейшей конкретизацией процессов, генерирующих данные, путем расписывания наших собственных фантазий про эти процессы.

Надо хорошо понимать, что практически ВСЕ, что мы знаем из области продвинутой медицины, и значительная часть из того, что мы думаем, что мы знаем из области социологии, основано на примерно подобных раскладах статистики.


comments

...
Где-то более развёрнуто излагается вопрос хотя бы приблизительно в таком стиле?

'''
Gerd Gigerenzer, "Adaptive Thinking : Rationality in the Real World"

...
Спасибо. Я на него тоже подумал, но в "Evolution and Cognition" он, вроде, именно на этой теме не останавливался, а остальное я покa не смотрел.

thunder_potamus
Прекрасно.
Что такое минимальные и максимальные вероятности, о которых вы пишете?
Что значит "максимальное же возможное значение получается если бы все кто не поехали за границу поехали туда и вылечились".

Почему это число не равно 75%? По условию 10 процентов больных россиян выезжает, идёт лечиться и выздоравливает 75% из этих 10. А если бы выехало 20%?

golos_dobra
А мы про это ничего не знаем.
Поэтому для оценки МАКСИМАЛЬНОЙ границы мы должны принимать во внимание возможность того, что все дополнительно уехавшие - вылечатся.

thunder_potamus
Но тогда тотчас возникает следующий вопрос. Вы при поиске максимальной границы считаете, что она определяется так:
1) 10% лечатся на 75% (это по условию).
2) А остальные 90 лечатся на 100% (ну внезапно лечение стало юбер-эффективным).
Отсюда получается 0.975.

Так?

golos_dobra
Нет, не так.

Мы не знаем НИЧЕГО про результат лечения остальных 90%, который в тупой медицинской трактовке теорвера обычно принимается ТАКИМ ЖЕ как и для 10%.

Совершенно очевидно что это довольно бессмысленно.

Например, дальше можно рассусоливать долго что за границу едут люди с более тяжелым состоянием болезни, а если бы туда поехали все остальные с легким состоянием, то их заведомо бы вылечили итд итп, но это все пустопорожнее.

Факт один: что с ними было бы, мы НЕ ЗНАЕМ, принципиально не можем узнать.

thunder_potamus
"который в тупой медицинской трактовке теорвера обычно принимается ТАКИМ ЖЕ как и для 10%.
Ну да. 10% это типа достаточно много, поэтому переносим на остальные 90, всё там перемешано гомогенно.

что с ними было бы, мы НЕ ЗНАЕМ, принципиально не можем узнать

Вот к этому и есть моя не то чтобы претензия, а вопрос. Если вы считаете, что для оценки максимума надо считать, что 90% вылечатся все тотально (то есть игнорируете информацию о том, что 10% вылечились на 75%), то почему бы не пойти дальше и не считать, что 10% в следующей итерации вообще не вылечатся?

Ну то есть сейчас сделали замер - 10% лечатся на 75%. Добавляем оценку сверху для следующего года, едут остальные 90%, лечатся на 100%.

Давате теперь для оценки снизу предположим, что следующие 10% поехавших вообще не вылечатся.

golos_dobra
с(А)*р(А) <= с(А)*р(А) + 0*0.1

Оценка снизу, естественно, НЕ ИЗМЕНИТСЯ.

thunder_potamus
Ну тады добавьте слова "если считать, что 10% будут выбираться из всех больных таким же образом, как они выбирались раньше".

Иначе не ясно, почему вы форсите тезис "нельзя 90% считать равными 10%", а тезис "эти 10% в следующем замере будет не теми, что в этом замере" топите.

Как только вы говоирите, что 90% это не 10%, и там возможно всё, в том числе и полное излечение, то тотчас надо сделать и предположение, что те 10%, которые выезжали и лечились на 75%, теперь выедут, но вылечатся на 0%

golos_dobra
Акей, в Украине уже не понимают что нуль умноженный на любое число останется нулем и таким образом сместить НИЖНЮЮ оценку, полученную на основе конкретного набора данных НЕ МОЖЕТ.

thunder_potamus
Вижу, что у вас в Иллинойсе своя протестантская математика.
***

Когда вы говорите, что у вас 10% из всех больных поехали за бугор, и там вылечились 75%, вы тем самым неявно сообщаете следующее
1) Эти 10% могут быть взяты из 100% больных любым способом, хоть по алфавиту, хоть случайной выборкой, хоть по весу, хоть по возрасту, хоть по инкаму.
2) Оставшиеся 90% ничем не отличаются от тех, кто поехал.
3) Если какое угодно количество раз каким угодно способом выбирать 10%, 20%, любое число процентов, то и из них тоже вылечатся 75%.

Как только вы делаете предположение, что группа негомогенная, вы тотчас должны отказаться от данных про 75 рейт у 10% уехавших, потому что это получается фольклорная "средняя температура по больнице"

golos_dobra
lol, no

Это классический пример бегемотского мышления

Ничего подобного из этого бреда разумеется в исходном посту сказано не было

//вы тем самым неявно сообщаете
orly?

ljagg
люто, бешенно ненавижу теорвер и матстатистику именно за вот такие задачи. какая-то запредельная бесмысленность. грешу на совок и колмогоровщину (геометрическое место точек, буэ)

thunder_potamus
Давайте с другого конца. Вы согласны, что ваша идея об оценке сверху может быть переформулирована так:
** эти 10% могли бы быть выбраны по-другому, и тогда, чем чёрт не шутит, там в принципе могло бы быть стопроцентное излечение **

golos_dobra
Да.

thunder_potamus
Верно и обратное - среди поехавших на радостях за бугор 90% может оказаться, что никто не вылечится вообще, отсюда получаем оценку снизу, так?

golos_dobra
Нет.
Мы знаем достоверно, что из десяти процентов вылечилось 75%.
Это константа.
Прибавлять ноль, умноженный на что угодно, к константе - бессмысленно.

thunder_potamus
Возможны случаи
1) Едет 10%, из них лечится 75%, остальные не едут и не лечатся, оценка снизу, 0.1*0.75 = 0.075
2) Едет 100%, из них лечится [ 75% из 10% ] плюс [ 100% из 90% ]. Это оценка сверху, 0.075 + 0.9 = 0.975.
Так?

golos_dobra
Нет.
У нас есть определенный срез данных, с определенной частотой случаев.
Нижняя граница по предсказаниям на основе среза данных считается по формуле А, верхняя граница по формуле Б.
Все.

thunder_potamus
Ваши слова:
Очевидно что минимальная вероятность вылечиться за границей будет получена умножением доли населения кто реально поехал лечиться за границу на долю тех из них кто вылечился с(А)*р(А)
с(А)*р(А) <= А
0.075 <= А
Мои слова:
Едет 10%, из них лечится 75%, остальные не едут и не лечатся, оценка снизу, 0.1*0.75 = 0.075
****************************
Ваши слова:
максимальное же возможное значение получается если бы все кто не поехали за границу поехали туда и вылечились.
А ≥ с(А)*р(А)+c(Б)
А ≥ 0.975
Мои слова:
Едет 100%, из них лечится [ 75% из 10% ] плюс [ 100% из 90% ]. Это оценка сверху, 0.075 + 0.9 = 0.975.

golos_dobra
Найдите 10 отличий.
Не надо пытаться говорить "своими словами", своими словами говорить не надо пытаться.
Терпение мое бесконечно - могу в пятый раз объяснить, что ноль помноженный на любое число дает ноль.

thunder_potamus
Где в своих рассуждениях я утверждал противоположное?

golos_dobra
"Давате теперь для оценки снизу предположим, что следующие 10% поехавших вообще не вылечатся."

thunder_potamus
Вы сначала перебираете возможные случаи, а потом уже под каждый случай пишете уравнение. И как только вы допускаете случай "из 10 процентов вылечилось 75%, а из 90% вылечилось 100%", тем самым допуская, что 10 процентов были Рубинчики, а 90 процентов Хачикелли, так сразу можно допустить, что ваши 0.075 вероятности снизу можно реализовать двумя способами по меньшей мере:
1) Едут только Рубинчики (10%), Хачикелли остаются дома, из 10% Рубинчиков лечится 75%, получается 0.075.
2) Едут и Рубинчики и Хачикелли, но из Хачикеллей вообще никто не лечится, а Рубинчики вылечиваются опять на 75%.

golos_dobra
А, понимаю, теперь от концепции умножения на нуль мы перешли к разъяснению понятия "транзитивности", да? Если а и бэ положительные числа, то a плюс бэ не будет меньше а.

thunder_potamus
Вы могли бы просто сказать следующее:
"Я считаю, что случай, когда
[10% поехавших лечатся на 75%] + [90% поехавих лечатся на 100%] допустим, а случай, когда
[10% поехавших лечатся на 75%] + [90% поехавших лечатся на 0%] недопустим",
и всё! Не в том же дело, что [10% поехавших лечатся на 75%] + [90% поехавших лечатся на 0%] = [10% поехавших лечатся на 75%]...

golos_dobra
omg… Еще раз.
На НИЖНЮЮ оценку, полученную перемножением доли вылечившихся на число лечившихся там, никакой альтернативный сценарий с участием контингента уехавших, что бы там с ним не случилось , НЕ ВЛИЯЕТ.

if min(x) = a, a>0
then min(x+b) = a, b>0

thunder_potamus
Ну да! Но этот минимум может реализоваться НЕ ТОЛЬКО при условии "10% уехали, 75% вылечились", но и при условии "10 уехали, 75 вылечились, но ещё уехали 0...90, и из них никто не вылечился".

golos_dobra
Прекрасно, вы открыли для себя понятие "мощность континуума".

thunder_potamus
При вычислении минимума вы путаете два случая.
Первый - когда едут только те, кто ездили всегда, то есть Рубинчики, потому что про них мы знаем, что они ездили, их 0.1, и лечатся из них 0.75. Хачикелли не едут вообще.
Второй - когда едут и Рубинчики, и Хачикелли, но Хачикелли совсем не вылечиваются, а Рубинчики лечатся как обычно.
То, что и там, и там получается 0.075, не освобождает вас от необходимости второй случай проговаривать явно.

golos_dobra
бгг. ноль, помноженный на любое число, остается нулем

thunder_potamus
А тут промблема возникает. Там не совсем ноль, вот ведь в чём дело. Вы, пропуская случай с 90 процентами отъехавших, это заметаете под ковёр.
Вам бы хотелось и случай с 90 процентами вылечившихся в оценке максимума тоже замести, но тогда всё развалится совсем.

golos_dobra
omg…

if min(x) = a, a > 0
then min(x+b) = a, b > 0

also

if max(x) = a, a > 0
then max(x+b) = a+b, b > 0