Как и зачем оценивать размер выборки для A/B теста?

karpov.courses

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 7 січ 2025

КОМЕНТАРІ • 60

@ИванГорбык 3 роки тому ⁺¹¹²
Наверное, лучший лектор по аналитике
@alexei_noskov 2 роки тому
поддерживаю
@maximryazantcev4173 2 роки тому ⁺¹
Наверное тут лишнее)
@beorb2b 2 роки тому ⁺⁵
Хотел посмотреть вечером сериал, но забыл про него. Невероятно, но факт: от этой лекции по статистике невозможно оторваться! Спасибо!
@vo_sk 3 роки тому ⁺¹⁰
Большое спасибо за такой хороший и понятный разбор темы, вроде бы слышал это много раз, но у Вас получилось объяснить это легко и наглядно. Очень ждём продолжения на тему более сложных кейсов.
@Astronomka 3 роки тому ⁺¹²
Спасибо огромнейшее за это видео!!! Я наконец-то поняла про mde! Анатолий - лучший
@kattynia5956 3 роки тому ⁺⁶
пришлось переслушивать несколько раз, но наконец поняла, что такое мощность и двухсторонняя гипотеза! спасибо Анатолию :)
@gikis1 2 роки тому ⁺²
Прям кайфанул, детально разбирая код на питоне и оценил всю мощь ЦПТ симулируя подвыборки и глядя на увеличение чувствительности критерия) спасибо!
@2443121z 3 роки тому ⁺⁶
Как и ожидалось, отличное видео!
@ИлонаИнч 2 роки тому ⁺²
Анатолий, вы🔥☺ сейчас прохожу курс и параллельно смотрю ваши другие видосы
@alexpanimash8155 3 роки тому ⁺⁴
Круто! жду следующие серии!
@MaraLearns Рік тому ⁺⁹
Спасибо большое за контент❤ (я фанатка)
но где обещанное продолжение с темой "как тестировать, если какие-то очень хитрые метрики с непонятными распределениями"🙃
@alexostudin4940 3 роки тому ⁺²
Чуть лайк не забыл поставить. Что недопустимо!)))
@LVGavr 8 місяців тому
Посмотрел, супер, интересно и полезно
@artborovik Рік тому ⁺³
Ничего не понял, но оч интересно
@Amidamarruu 8 місяців тому
и правда все супер понятно!
@КириллЧе-я5ы 2 роки тому
Все правильно по интерпретации незначимости результата - ав тест условие необходимое, но если он не прокрашен, надо дальше работать, а не принимать сходу одну из гипотез… имхо
@ИгорьПашков-п8к 2 роки тому ⁺⁴
Отличное видео! Я прямо в своём познании преисполнился. Подскажите, пожалуйста, где найти продолжение этого вебинара, которое вы анонсировали? Буду очень признателен, а то на ютубе никак не могу найти
@evgenialakeeva2189 4 місяці тому
Спасибо за трансляцию, очень интересно!
Подскажите, пожалуйста, правильно понимаю, что в данном случае мы используем одновыборочный критерий? Соответственно для NormalIndPower/TTestIndPower необходимо использовать ratio=0, тогда и результат ручных расчетов через систему уравнений приблизительно равен результату NormalIndPower(ratio=0, ...)?
@АндрейТимонин-ч6к Рік тому
Здравствуйте! Пожалуйста, подскажите, кто знает из гостей канала или ее автор - почему мы сигму делим на корень из 16, находя стандартную ошибку. Ведь, если я правильно понимаю, сигма - это стандартное отклонение генеральной совокупности, как и 100 в данном примере - средняя арифметическая генсовокупности, что в рамках ЦПТ говорит о постоянстве этих величин. Ее не надо по идее делить на 4, находя стандартную ошибку, т.к. эта операция проводится для выборки с целью экстраполяции на генсовокупность, т.к. точечная оценка несмещенности для стандартного отклонения не выполняется и для приближенного вычисления следует как раз стандартное отклонение ВЫБОРКИ и делить на корень из ее размера. А в этом примере, насколько я понял, сигма - это уже параметр генсовокупности. Поэтому z-трансформация делается в лоб через параметры. Я правильно понимаю?
@andreykorotkiy3397 3 роки тому
25:06 для т-распределения, которое мы применяем чаще всего так как не знаем сигму (отклонение генеральной совокупности), а знаем только отклонение выборки, будет точно такая же логика расчетов, верно?
@karpovcourses 3 роки тому ⁺²
Да, идея абсолютно такая же, просто будем использовать критические значения для t распределения.
@МаксимГригорьев-ь6х 3 роки тому
Подскажите пожалуйста как решить уравнение с 1:01:00)
@МихаилБеляков-э4н 2 роки тому
Sp - объединенное стандартное отклонение по Коэну считается немного по другой формуле, какую формулу использовали вы ?
s = sqrt(((n1 - 1) . s1^2 + (n2 - 1) . s2^2) / (n1 + n2 - 2))
@mlpython1089 3 роки тому
Спасибо за лекцию.
59:49 -0.86 было же определено для среднего в 105 а не 101.
@mlpython1089 3 роки тому
понял. вопрос снят.
@МихаилБеляков-э4н 2 роки тому
Добрый день, а при расчёте в питоне размера выборки, что бы получить общий размер мы должны домножить на 2 ?
и 2ой вопрос, формула для подсчета размера эффекта для разницы, справедлива при условии что выборки одного рзмера ?
@hipotalamus 3 роки тому ⁺²
Благодарю за подробный разбор. Появился вопрос, вы рекомендовали калькулятор, учитывающий размер выборки, разницу, мощность. А если не учиитывается оценочная выборочная дисперсия разве можно доверяться калькулятору?
@karpovcourses 3 роки тому ⁺¹
В размер эффекта неявно зашита выборочная дисперсия, посмотрите на формуле cohen d, например!
@hipotalamus 3 роки тому ⁺¹
@@karpovcourses да увидел. Cohens d это апостериорный метаанализ. В подсчёте необходимого размера выборки перед АБ тестом тоже как то вшита дисперсия через размер эффекта?
@raisky5479 2 роки тому
Не получается найти видео со следующего занятия((
@mukhtarbimurat5106 Рік тому
Круто, спасибо!
А что если дизайнер скажет 110 когда у нас есть сигма, получается больше вероятность отменить нулевую гипотезу? Но тогда дизайнер может сказать еще больше 120 чтобы получить больше вероятности, что делать в таком случае?
@sevlant 2 роки тому ⁺²
Анатолий говорит про следующий раз. Этот раз так и не наступил или он где-то всё-таки лежит?
@karpovcourses 2 роки тому ⁺¹
пока ждем)
@rengai Рік тому ⁺²
@@karpovcourses Все еще ждем, все никак не дождемся))
@Booogieman Рік тому
увлекательно!
@КириллЧе-я5ы 2 роки тому
Кстати два одинаковых распределения могут дать FP. Такой интересный эффект…
@АлександрЕфимов-щ3и 3 роки тому
Анатолий, спасибо! Шикарный материал.
Уточните, пожалуйста, как правильно трактовать результаты:
- правильно я понял, что, если перед тестом мы не рассчитывали его продолжительность, и получили, например, не стат. значимый результат (pvalue > 0.05) и мощность 0.7, это означает, что мы не набрали нужное количество измерений?
- а если получили pvalue < 0.05) и мощность 0.7, можем считать, что все хорошо и можем принять h1?
Или, в любом случае, при мощности ниже нашего порога (консенсусного 0.8) будет не очень правильно принимать окончательное решение, а правильным будет тест, где мощность не ниже порога, т.е. перезапустить или продлить?
@karpovcourses 3 роки тому ⁺³
Да, в целом верно, если мы получили незначимый результат, тогда смотрим на мощность теста. Если мощность скажем 0.1, то понятное дело, скорее всего нам просто нужно было закладывать больший размер выборки.
Со значимыми результатами все проще, если мы получили значимый результат, то отклоняем нулевую гипотезу. Но и тут анализ мощности может помочь, если у нас мощность опять же очень низкая, то высока вероятность, что при повторении эксперимента с таким же размером выборки мы не сможем реплицировать значимый результат.
@АлександрЕфимов-щ3и 3 роки тому
@@karpovcourses Спасибо
@АлексейТаганрогов 2 роки тому ⁺¹
Очень интересно.
Но я не понял, почему как альтернатива начальному значению 100 для анализа было выбрано значение 105, а не, например, 104 или 106. Тогда бы и вместо 80% получили другое значение вероятности.
@sirscare555 Рік тому ⁺¹
Смысл в том, что в зависимости от задачи, которая перед нами стоит, мы должны сами заранее понимать, ошибки какого рода мы боимся больше всего.
Например, у нас есть гипотеза Н0: пациент не болен раком. Тут лучше лишний раз сказать, что рак есть и ошибиться (ошибка первого рода альфа), чем сказать, что с человеком все в порядке, и он после этого умрет (ошибка второго рода бета). В данном случае нам нужно минимизировать ошибку бета, так как на кону жизнь человека.
С другой стороны, может быть ситуация, что, например, у компании проблемы с онлайн продажами и мы понимаем, что нужно что-то менять. У нас есть идея поменять наполнение на странице информации о товарах, чтобы выросла конверсия в покупку. То есть, у нас есть гипотеза Н0: если мы поменяем наполнение, то ничего не изменится. Тут нам важна вероятность ошибки при принятии решения отвергнуть H0, когда на самом деле она была верна (то есть вероятность, что мы решим менять наполнение, хотя этого делать было не надо и разницы нет). В данном случае нам достаточно важно не ошибиться при смене наполнения, ведь мы потеряем время, деньги и клиентов, если просто так разработаем новое наполнение и дизайн, а окажется, что конверсия упала или осталась такой же.
К чему все это: альфа и бета невозможно уменьшить одновременно. Единственный случай, как это можно сделать, это увеличить размер выборки, что зачастую очень затратно по ресурсам. Поэтому, мы должны выбирать такую альфа, чтобы она нас устроила и потом искать минимальное бета. Понять, что альфа и бета зависимы очень просто. Допустим, что мы опустили альфа с 0,05 до нуля. Тогда мы будем принимать абсолютно все гипотезы Н0, неважно, верные они или нет. В таком случае вероятность ошибки принять неверную гипотезу Н0 очевидно возрастет.
Поэтому, еще раз, главное - это понимать в конкретной ситуации, какая ошибка для нас более важна, и пытаться выбрать допустимый для нас уровень этой ошибки (например, альфа), попутно подбирая оптимальную (в данном случае минимальную) вероятность совершить другую ошибку (бета).
P.S. Это все я писал по большей мере для себя, чтобы структурировать информацию в своей голове. Если что-то я написал неверно, то извиняйте, я не претендую на истину в последней инстанции, хотя, как мне кажется, написал я вещи, которые должны быть верными. Надеюсь, что это кому-то будет полезным :)
@gikis1 3 роки тому ⁺²
Спасибо за вебинар!
А разве Z-score для 95% confidence будет не 1.96?
@klimmy. 3 роки тому ⁺⁴
Это для двустороннего (то есть по 2.5% с каждой стороны), а в видео был односторонний.
@gikis1 3 роки тому ⁺¹
@@klimmy.круто, спасибо)
@yurablablabla3395 3 роки тому
Спасибо!
@viskas11 2 роки тому
где же продолжение?
@alexei_noskov 2 роки тому ⁺²
лектор пьян🤣🤣🤣 38:48
@КсенияСавенкова-э2ж Рік тому
Что-то сильно не сходится.
Методом бумажки и ручки получили n=400.
Теперь берем TTestIndPower.
Считаем MDE = (101-100) / sqrt((64+64) / 2) = 0.125
result = analysis.solve_power(effect = MDE, power=0.8, nobs1=None, ratio=1.0, alpha=0.5)
И получаем n=1005.615 - это сильно отличается от 400. :(
Что я делаю не так?
@КсенияСавенкова-э2ж Рік тому
Точнее так... Почему не сходится - понятно. n=400 мы получили с помощью Z-преобразования.
А TTestIndPower расчитывает с помощью t-теста.
Непонятно почему различия настолько велики, и как сделать так, чтобы все сошлось
@romandvoryankov2276 3 роки тому
Если график синий, то какого цвета Анатолий?)
@glebvasilyev2374 2 роки тому
-0.86 - это ведь для среднего 105, почему мы его берем для 101?
@dmitriish.350 2 роки тому
Если усреднить те предположения о величине выборки, которые давали в чате, то получится примерно правильный ответ. Вот вам и статистика. Хе-хе.
@vagon4uk 10 місяців тому
Много слов про то какая получится выборка если размер взять не тот, а нас в универе учили и я не в Москве училась, но преподы были сильные. Так есть генеральная совокупность, есть выборка, есть репрезентативная выборка и формула по которой мы можем посчитать сколько обьектов с генсовокупности взять и чтобы она отражала ее. Все! Спасибо моим преподам 20 лет, а я все помню, только формулу численности выборки нет. У одного из преподов есть канал здесь и уже под несколько слтен тысчч подписчиков, лекции по электротехнике.
@eugene9271 3 роки тому
А разве на синем графике распределения мы не должны брать только 90% диапазона вероятностей? Края по 5% же нас не устраивают, и следовательно ошибка второго рода будет нет 80%, а 75/90 = 83,3%
@karpovcourses 3 роки тому
Край в 5 процентов выбран для простоты, в разбираемом примере мы проверяем одностороннюю гипотезу.
@КириллЧе-я5ы 2 роки тому
Когда я получаю FN, я задаюсь вопросом - а на хрена я работаю?..
@КириллЧе-я5ы 2 роки тому ⁺³
Единственный вариант, где в реальности можно увидеть нормальное распределение генеральной совокупности - ядерные реакции…
@temirlanzhunusbekov5177 7 місяців тому
Хоть кто-то нормально объяснил зачем нужна мощность, а не просто "бенчмарк 80%"
@virtu_ozz Рік тому
Спасибо!

Наступне

Автоматичне відтворення

Тонкости A/B тестирования: проблема подглядывания | Вебинар Анатолия Карпова | karpov.courses