Как обманывает статистика // Vital Math
Вставка
- Опубліковано 25 лис 2024
- Данные одни, а выводы разные! Парадокс! Представьте, смотрите на каждую часть по отдельности - результат один, объединяете - результат другой. Как такое может быть? Как нельзя смотреть на данные? И при чем здесь все-таки Симпсон?
Парадокс Симпсона описывает ситуацию, когда из одного набора данных делают разные выводы. Результат по подгруппам один, а при объединении - уже совсем другой. Как такое может быть? Как нельзя смотреть на данные? И при чем здесь все-таки Симпсон?
Полезно начать ru.wikipedia.o...
Самое понятное объяснение • Simpson's Paradox
Несколько примеров intellect.icu/...
Ещё примеры blog.revolutio...
И ещё примеры towardsdatasci...
Music: Upbeat Hip Hop - AShamaluevMusic.. Music Link: • Upbeat Hip Hop - by AS...
Завёл телеграм канал. Подписывайтесь: t.me/vitalmath
Ещё один пример -- знаменитый миф о том, что малые дозы алкоголя улучшают здоровье.
Было исследование на большой выборке, где мерили зависимость продолжительности жизни от потребления алкоголя. И получалось, что максимум был не при нуле потребления, а чуть выше. Выходило, что потреблять ноль алкоголя как будто вреднее, чем потреблять небольшое количество.
В итоге, это была ошибка. Потому что были люди, которые не принимали алкоголь уже из-за проблем со здоровьем. Тем самым снижали статистику по продолжительности жизни как раз в зоне нуля потребления.
потрясающе, как можно объяснить так, что непонятное стало ещё более непонятным ))))
Соболезную вам.....
Нет , просто до этого вы об этом не задумывались и знали об статистике поверхностно , а вам дали более углубл5нную инфорамацию
В том-то и дело, что информацию, а не знание.
Да не, я не в претензии - каждый объясняет, как умеет. И каждый понимает, как умеет.
Но лично для меня это не объяснение, а два примера на заданную тему. Если не понимал до этого, то и после не прймешь
@@Poyka90себе пособолезнуй. Если никто не умер-сочувствуют
Заседание в колхозе.
Председатель:
-В этом году мы собрали урожай в 21 тонну пшеницы, в среднем 3 тонны с гектара.
-А как это в среднем?
-Ну допустим с одного поля мы собрали 4 тонны, а с другого две, в среднем получается три.
-Это что же получается, если Машка спит с тремя мужиками по очереди, Катька не спит ни с кем,а я со своим никому не изменяю то получается, что в среднем мы все шл*хи?
Твой пример гораздо лучше обеснят тему чем дебильная таблица автора.
Это наверно самый наглядный пример того, как статистика может извратить факты :) Я когда в институте учился на 4 курсе у нас был подобный случай, институт проверяли из минобразования и мы писали какую-то проверочную работу на качество образования (т.е. оценивали не нас, а институт), ну и мы значит из 100 баллов пишем 97,96,94,92,91, ну и все в таком духе все выше 90, и пришел один парень который не в зуб ногой, причем он вообще на лекции не ходил и его уже давно хотели отчислить, а тут он приперся и сразу на такое ответственное мероприятие, и набрал он 14 баллов :) Соответственно наш средний бал ушел на уровень 80+ :) За что потом все мы дружно получили огромный пистон...
Для этого есть медиана @@СергейГромов-ф9я
Большинство пешеходов, попавших в ДТП попадают в него на пешеходных переходах. Избегайте пешеходных переходов - по статистике они небезопасны.
Среди 95-летних за день до смерти 90% ели огурцы. Вывод очевиден, огурцы - яд.
@@leoleo3119 только если тебе 95 лет:)
Богатые едят мясо, а бедные капусту, а вместе они едят голубцы. Статистика.
Жена председателя дает всем подряд, доярка никому не дает. По статистике обе давалки
Какая свежая мысль! Ты лучший, бро!
Это не статистика,это среднее значение. В статистике лучее использовать медиану
Это не статистика,это среднее значение. В статистике лучее использовать медиану
Богатые едят мясо, а бедные капусту, в вместе они едать капусту с крохами мяса. Статистика.
Согласен что не статистика обманывает, а люди которые не умеют исползовать статистику
Ну да. А те которые умеют конечно не обманывают, лол.
Или наоборот, люди, которые слишком хорошо умеют :)
Поживём ещё лет 20 и люди уже ничего не будут решать и кого-то обманывать, всем займётся искуственный интеллект.
По моим расчётам, 120% статистических расчётов ошибочны.
Хорошее видео. Лайк.
Если подытожить -- это следствие нерелевантности выборок. Есть параметр, который влияет на результат эксперимента. И выборки формируются с разным распределением этого параметра. Примеры: возраст влияет на действие лекарства, выбор факультета -- на вероятность поступления, образование на доход. Конечно, в модельных примерах всё будет очевидно. На то они и модельные.
В реальном мире всё сложнее, потому что никогда не знаешь, есть ли в выборке скрытый параметр, который влияет на результат. Спасает рандомизация выборки, если есть такая возможность. Если нет возможности формировать выборку -- тут только анализировать данные в надежде, что скрытого параметра нет.
Мне очень интересны ваши объяснения. Не всё понятно, есть пробелы в базовых знаниях, но концептуальные блоки ясны. Огромное спасибо!!
Так получается потому, что исследование поставлено неправильно, численности групп должны быть одинаковыми для однородности, плюс, на таких малых группах статистика себя не проявляет точно, поскольку математическая база статистики это закон больших чисел. Далее сводка и группировка должна быть проведена грамотно, мухи с котлетами мешать не нужно, если это не дает нужный показатель.
Да все что он рассказал проходят еще в начальной школе.
@@sergeynoob8olvl626 Нет, не проходят. Даже в универе.
Спасибо за здравомыслие. Я поражаюсь, что столько хвалебных комментариев. Я когда слушал эту чушь думал, что зайду в комменты и здесь будут автора в говно тыкать. А нет.
Там по всем примерам чушь. С вероятностью вытащить черный камень еще и лож. Можно просто посчитать вероятности, что автор не сделал, хотя привел условия задачи как доказательство. Понятно почему не расчитал вероятности, в надежде что никто проверять не будет.
Ну ладно автор или дебил или хайпожер, но те кто это слушает и хавает...
@@alextsitovich9800 в универе на статистике проходят
@@alextsitovich9800Учебник за 4 старший класс открой, wiskunde 4B - бивариативная статистика, стр.21, изучается то как проверять релевантны ли данные получаемые статистикой.
Какое же удовольствип смотреть твои видео!) Спасибо!!!
Вам спасибо! Скоро будет ещё!
Вот это правда полезный ролик в наше время.
Часто встречается во многих опросах!
Очень интересное и понятное обьяснение. Спасибо
Нет слов. Автор выступил очень познавательный ролик!
Пример с камнями очень похож на джерримендеринг - в США способ разбиения на избирательные округа, чтобы у одной партии или кандидата был перевес в большем числе округов, хотя если при этом считать суммарно по всему населению, то эта партия не имеет большинства
Там тоже есть свои приколы. Что-то типо чем больше штат по населению, тем больше у него "голосов". Короче, прям сильно искажённых результатов там не будет, хотя и было, что избирали человека, у которого менее 50% голосов суммарно.
Теперь буду использовать постоянно на работе, так как постоянно начальство объединяет и спрашивает, а почему по группам так, а всего иначе
Музыка мешает. Перематываешь назад постоянно, материалы достаточно серьезные, есть над чем подумать. Неужели мне одному мешает. В других роликах тоже есть такой эффект. Мне бы лучше заходило на фоне тишины, объясняет автор прекрасно!
И музыка, и эхо помещения. Звуковая дорожка отстойная.
Плохой монтаж, где просто наложили до уровня: слышно. Проблема многих авторов, где не могут выравнять звуковой ряд
Блин, чувак, у тебя качественная обложка, качественные видео, я очень сожалею, что у тебя мало просмотров. Понимаю, вроде бы следуешь всем законам ютуба - а ничего не получается... Очень надеюсь что однажды ты выстрелишь, и станешь топовым научпоп каналом, наравне с СайУан, Шарифовым, Побединским, потому что контент супер))
У него не лучшая подача. Речь слабая, не привлекающая. Контент хороший, но есть слабости, которые никогда не позволят раскрутиться. К сожалению
Согласен
@@Breghnev не всё сразу. Пожелаем удачного развития 😉
Видео супер, смотреть всем, кто работает с данными! Новички часто забивают на разделение мух и котлет, что сводит на ноль все труды. И самое страшное, что такие ошибки сложно отследить. Результат: ложные вычисления подаются как истинные... Беда, если опираешься на них при стратегическом планировании
разделяй и делай со статистикой все что хочешь...
Очень классный ролик! Спасибо!
Комментарий в поддержку канала. Отличные видео и доступное объяснение) Давайте про парадокс двух конвертов, там ещё интереснее :)
Спасибо Евгений Баженов за хороший видеоролик
А я то думаю, почему моя левая нога не похожа на шлагбаум. Оказывается их нельзя сравнивать! Вы гений!
Крутой и качественный контент. Так как не деградантского содержания и лишнего пафоса, ожидаемо, просмотров меньше. Но, нам же, зрителям такого контента, лучше, ибо за статистикой - настоящее и будущее.
Оказывается у сравнения тёплого с мягким есть своё название)
По статистике люли которые едят свинину реже взрываются. Мой любимый пример
Теперь понятно, спасибо вам!
Так в первом примере все правильно, обычно только 1/5 молодых принимает лекарства, а 4/5 пожилых)
А про кошек - чем счастливее хозяин, тем меньше проблем у кошек)
Ну то есть если ты не понимаешь математики, то тебе лучше не трогать статистику. Удивительный/шокирующий, свежий/внезапный вывод!
Очень круто объясняешь
Спасибо за хороший контент. Смотрел с удовольствием.
8:39 Согласно принципу Арнольда, открытия (и всякие штуки) обычно называют не в честь первооткрывателя.
А том числе и принцип Арнольда.
Отлично рассказал! Я бы ещё какой-нибудь сложный пример добавил, ведь проблема с этим парадоксом возникает тогда, когда заранее не группы не разбивают и не очень понятно как можно разбить.
Вы удивительный расказчик.
Райкин-Жванецкий "90% умерших ели огурцы"...
100% умерших пили воду
@@KToTo_iz_GdeTo подписка ок
@@KToTo_iz_GdeTo Дигидрогена монооксид - опаснейший наркотик. 100% зависимость. 100% смертность.
@@camradrip3730 Диоксиген гораздо опаснее.
Если бы статистика собиралась не один раз, а множество, пусть даже с тем же соотношением по людям, то картина была бы более правдоподобной.
Если дизайн изначально неправильный, то нет, не была бы.
Парадокс Симсона очень хорошо заметен на выборах, когда кто-то, кого все хаят, набирает под 80% голосов. Как так? Очень просто: вы, кто хаит, не идете голосовать (потому что вас убедили, что "голосуй не голосуй все равно получишь ... шайбу"), а те, кто является админ.ресурсом идут голосовать, т.к. их жестко контролируют. Вот и получается, что на выборы пришло всего 25% избирателей, из которых 80% проголосовали за "кого надо".
Итог: реальная поддержка 20%, а по итогам выборов 80%.
Или одной и групп скармливают кривую статистику. 😊
Парадокс неудачника в соц. опросах: если провести опрос в Сетях, то мы скорее всего получим результат, что у большинства нет работы или она плохая, нет девушки или она ... плохая, нет друзей, нет хобби, и вообще жизнь отстой! Причина в том, что когда у тебя есть интересное занятие, друзья, хобби, и интерес в жизни - отвечать на вопросы скучно и некогда.
Такие темы надо объяснять, не походят, а основательно, иначе ещё больше запутываете.
Если бы в школе и институте уделяли бы больше времени теории размерностей, то ошибок было бы меньше. Приписывая числам некий параметр как размерность проще контролировать, не допустили ли мы ошибку в вычислениях.
Как говорил мой препод: дифференцировать слонов по табуреткам.
Сделайте видео про тоерию размерностей - многим будет полезно.
Классное видео. Жаль,что так мало просмотров
та ладно, а теперь давайте про "самый безопасный вид транспорта"
А еще не надо забывать, что статистика это просто ориентир, а не доказательство чего либо. И в конце концов с современным вычислительным оборудованием, мне будет интересна не статистика принятия лекарства, а статистика применения лекарства индивидуумами, максимально похожими на меня.
чем больше котов складываешь рядом с человеком, тем больше его счастье
А в чем парадокс то?
Что если неправильно обрабатывать информацию получится неправильный ответ? Вот так дааа…
Это и есть парадокс. Неверное вычисление, ведущее к противоречивому ответу. Разве есть что-то другое, что называют парадоксом?
@@RedGallardo а что тут не понятного? В одной группе красное и синее, а в другой горячее и холодное. Если смешать неправильно, то красное будет холодным, а синее горячим.
@@ViktorV1980 Мне лично всё понятно, мне объяснять не нужно.
@@RedGallardo просто поддержал
@@ViktorV1980 в примере с камнями это не очевидно. и там и там и черные, и белые камни
Тот, кто хотя бы немного дружит с математикой давно это понял. А некоторых ролик окончательно запутал. Парадокс Vital Math
С камнями неловко как-то вышло. По факту сложенные кучки с наибольшими вероятностями на примере именно что дают БОЛЬШУЮ вероятность вытащить черный камень, чем остальные сложенные.
Последние 30 секунд каждого видел самый сок, статистика
При статистической исследовании необходимо использовать коэфицент достоверности (критерий Стюдента) и исходя из необходимго уровня достоверности подбирать необходимое количество наблюдаемых в группах
А как определяется этот уровень достоверности?
@@BukhalovAVгугл в помощь
Это не парадокс, а неверно сделанная выборка, вот и всё
Подробнее бы про котов и людей хотя бы и о том как получилось 15% в первом примере)
Контент классный, но фоновая музыка в этом видео подобрана не удачно - отвлекает..
Спасибо, будем исправлять
Очень круто!
Про статистике 15 процентов аварий происходит по вине пьяных водителей, а остальные 85 по вине трезвых.. )))
По статистике женщины за рулем в 6 раз реже попадают в ДТП...
8:34 это закон Стиглера: Ни одно научное открытие не было названо в честь его первооткрывателя
Странно... Почему упоминая о не правильности выводов из статистики о принимавших и не принимавших лекарство, ты не упомянул, что для всех 4ёх груп нужно равное кол-во испытуемых?
Кто плохо смотрел видео - объяснили итоговую интерпретацию уже полученных данных - это раз, а также объяснили, что при разном количестве испытуемых нужно использовать веса, для уравновешивания их разности в количестве - это два
2:41
Среди 95-летник 90% за день до смерти ели огурцы.
Напишу комментарий для продвижения качественного контента!
Парадокс скорее в том, что статистика как наука вообще не может обманывать. Это просто формулы. А вот их применение и интерпретация результатов в руках умелых и задорных может приводить к забавным итогам.
Тервер вообще весёлая штука, взять те же нетранзитивные кубики.
Это обманывает не статистика, а люди составляющие странные выборки
Кажется, что тема достойна того, чтобы разжевать чуть глубже. Хотя бы те же примеры стоило разобрать детальнее, на пальцах.
Сейчас при просмотре видео всё понятно только тем, кто и до этого понимал о чём речь)
Если проверять и подходить критически, то фраза про наглую ложь и статистику не принадлежит Марку. Он ссылается на премьер-министра Дизраели, а достоверных источников что Бенджамин говорил эту фразу так и вовсе нет ;)
Вопрос если в кучка где шанс вытащить чёрный камень больше то как их там меньше
Меньше, чем в другой кучке.
Когда работал в консалтинге, приходилось часто пользоваться, чтобы ввести клиента в заблуждение...
А насчет суммирования статистики - так есть простой прикол: Я съем 2 обеда, а ты на это посмотришь. В среднем мы оба будем сыты.
Спасибо!
а вообще статистика - штука очень нестабильная, если размер данных маленький
никто не отменял различные сторонние факторы, от которых избавиться в большинстве случаев получится только когда собираются данные не со 100 человек, а со 100 миллионов
На самом деле количество лайков на этом видео не такое маленькое, это частный случай парадокса Симпсона
Надо изменять сами данные и рассмотры
В офисе работает 10 человек и 4 женщины, должны ли люди поднимать стульчак в туалете. Ведь по статистике женщина писают сидя и люди какают сидя. Получается, что как минимум 14 раз в день стульчак должен быть опущен. Но тут парадокс Симпсона, ведь люди писают стоя, и их число больше.
5:02 не понял графика. Если просто сложить две кривые получится не так.
Что это за идиотская статистика, в которой разное количество людей в каждой из групп? Какая-то изначальная манипуляция от автора. Дальше не смотрел
Такое часто встречается. Нужно отловить момент и правильно отнормировать, но это отдельная операцию, смысл которой тоже понимать надо.
Надо было дальше смотреть
Мм, полезно!
Наверно очень близко парадокс "среднестатистического пилота", когда кабина самолета, разработанная под такого пилота, была неудобна абсолютно всем
Все парадоксы в парадоксальных головах учёных:) В природе парадоксов не бывает, иначе природа не может существовать. Парадоксы в математике кроются некорректно сформулированных исходных условиях или некорректными выводами, противоречащими логике и здравому смыслу.
Да все просто, чем больше людей тем точнее статистика , по нескольким человекам смешно делать стату)))
Первая мысль, почему ты взял разное количество людей, так ведь результат будет неверным... Потом понял, что это специально... Только парадокс был бы в том случае, если везде взять по 100 человек (400 в сумме), и если результаты будут противоположными, то это парадокс. А так это просто бред. Я возьму 1000 конфет, мой друг возьмет 1 конфету. У него будет невкусная конфета, а у меня 800 невкусных. Но в общем у него 100 проц невкусных, а у меня 80 проц невкусных. То есть у него больше невкусных, хотя на деле у меня в 800 раз больше таких. И я назову это парадоксом (хотя на самом деле я просто взял идиотские цифры). ПАРАДОКС.
Статистика не выводится из такой маленькой выборки, для чего это видео сделано?
Что то я не понял как при сложении двух гипербол (условно) была получена парабола. (Это про котов и людей).
Если на 8:04 тот самый пример, то ты немного обосрался
Статистику желательно считать по ВСЕМ случаям, ну или хотя бы по значительной их части. А когда мы, к примеру, рассмотрели 1 миллион людей принимавших лекарства.. Из 7 миллиардов жителей Планеты.. то вероятность что данная статистика верна - 0,014%. ))
Интересно, но необходимо конкретно вдумываться.
Аа так это про систему выборщиков в США)
спасибо
Сама по себе выживаемость у людей младше 60 лет больше чем у тех кому за 60!!! Тоже мне парадокс!
уже лучше!
0:49 почему количество принимало/не принимало в разных группах разное? Какой же это парадокс, если тупо неправильно поставленный эксперимент, да и про выживаемоесть надо учитывать сопутствующие факторы и причину смерти.
Супер!! Собственно, пора пересмотреть азы социологии и внести корректировки, чтобы количество ошибок минимизировать. Или саму статистику аннулировать!
Как такая идея вам?
Нормальные социологи это проходят в институте и все учитывают. А диванные - рассказывают что им нужно делать.
Камушки не правильно подсчитаны 😅
Ужасное эхо сделайте с этим что то . Поясню все остальные факторы великолепны , но всю прелесть руинит звук (хотя видео уже год и возможно уже исправили)
Со статистикой нужно уметь работать. Просто тупые цифры ничего не скажут
Чет фигня какая-то с весами если честно, они наоборот картину вообще меняют в неправильную сторону. Может возникнуть ситуация когда если так же складывать %, как в примере с лекарствами получится вообще больше 100%. Либо это супер контр-интуитивно, либо ты что-то напутал
Либо математика сходящихся рядов не работает.
Так, если суммы рядов {а} и {б} равны 1, то сумма их поэлементного произведения {аб} тоже равна 1.
почему вы скалдываете вероятности взвешанные, а не взвешиваете количество и только потом считаете вероятность в финале
Чем более вы счастливый тем более вы кот.
Если подытожить, то математики не смогли сосредоточиться и назвали это парадоксом симпсона, чтобы на них бочку не катили.
Сколько примерно времени уходит на создание такого ролика?
Много!
👍👍
Рок Ли, ты ли это?
С сожалением констатирую, что вы не умеете объяснять сложные вещи простым языком.
«Тщательней надо»©
С первым примером понятно, а вот дальше пошла какая-то неубедительная муть.
Вот именно у каждого свое здоровье и каждому свое счастье, никакого пародокса нет! Опять математики пытаются смотреть на несовместимые вещи через призму сложения, вычитания, деления и умножения. Горе от ума в народе говорят
Опять эти нематиматики "смотрят в книгу и видят фигу". На графике были проблемы и счастье.