00:07 Эффектное появление 00:22 Сколько АВ тестов ты провел? 01:05 Сколько АВ тестов ты провел хорошо? 01:56 Какие ошибки допускал? 03:13 Как объяснить профану? 04:38 Как понять, что аналитик тебя обманывает? 06:09 Что обязательно должно быть в АВ тесте? 08:14 Как научиться оценивать результаты теста непредвзято? 08:58 Чего не понимают большинство кандидатов? 10:19 Где и как научиться делать АВ тесты??! 11:08 А дома можно практиковаться? 11:46 Посоветуй литературу.
Результатом абтеста может быть конкретная величина типа в результате внедрения новой фичи продажи поднимутся на 2-4% или 10-11 миллионнов. Можно ли с этой точки зрения оценивать успешность теста - насколько внедрение принесло предсказанный результат с течением времени?
Спасибо Валерий, уверен курс крутой, может позже куплю! Ты говорил про калькуляторы АВ, но в них всех надо вводить % конверсии, а если мы хотим смотреть revenue или arpu, как тогда посчитать размер выборки ?
@@ValeriiBabushkin Спасибо, дай бог здоровья! Хотел уточнить, если мы посчитаем для А и В теста avg(revenue) и se, то мы ведь сможем сравнить т-тестом две выборки?
Ютуб не позволяет нафигачить большой комментарий, а мне есть что сказать, поэтому буду бить его почастям. Я конечно не такой крутой математик как господин Бабушкин. Скажу как практик из Х5, который сидел с ребятами Валерия по другую сторону стола/монитора. В моем проекте проводились десятки а/б тестов для валидации результата и оправдания инвестиций с его командой и на их платформе. В оффлайн ритейле (но думается, что также везде) есть несогласие с методами А/В тестов в практической области. Причина довольно простая, это сферические исследования в вакууме, которые ставят высокую обоснованность результатов во главе угла. С первого взгляда это даже неплохо, но давайте рассуждать дальше.
В его примерах фигурировало, что "если мы проводим исследование с 40 летними мужчинами то... " продолжим мысль. Успешным считается аб тест в котором на все 100% мужчин участвовавших в исследовании результат дал отклонение в положительную область с разной степенью успеха и результат имеет низкую ошибку. Если 10% мужчин не отреагировали или по другим причинам отреагировали негативно, то этот эксперимент получает от команды Валерия негативное заключение. С точки зрения практики этот результат надо интерпретировать как 90% успех, но бинарная логика платформ аб-тестирования отвечает одной из граней монетки - да или нет. И тут ответ будет - нет. Бизнес не может решать комплексные (сложные) задачи всегда с успехом на 100%. Это вам не кирпичный цвет кнопки, это система органических стимулов влияющая на мотивацию десятков умов, которые должны принять однозначное (с точки зрения платформы) решение. Давайте приведу пример. Вы автопроизводитель и запускаете новый вариант автомобиля на замену существующему (ну допустим новая версия ауди а4). Краш-тесты старого автомобиля это контрольная группа, краш-тесты нового это тестовая. И вот вы получаете результат, звучит он следующим образом в 90% случаев в краш тесте нового автомобиля повреждения водителя были меньше чем в старом (остаются конечности, выживаемость). Но в одном типе тестов результаты хуже, водитель изуродован больше чем в старой версии авто, потому что балка безопасности спасающая теперь 90% водителей, расположена под таким углом, что в аварии с 32% перекрытием, под углом 65 градусов при скорости 93-96 км в час по законам физики не успевает уйти влево и входит водителю в грудь и это подтвердилось много раз при аналогичных условиях. В то время как в старом автомобиле именно этот кейс обеспечивает более высокую выживаемость. Несмотря на то, что эти пропорции безопасности сильно лучше чем в предыдущей модели заключение Валерия на этот тест будет - нет, продолжайте улучшать новый авто, так как не 100% случаев лучше чем старые авто. Задайте себе вопрос как потребитель - что в этой ситуации правильнее? Вы могли бы получить завтра более совершенный автомобиль, но вынуждены довольствоваться старым более опасным в целом, потому что не найдено решение для этих 10% случаев, когда стало хуже. Абсурд, верно? Нет, конечно во имя добра, надо и этот кейс решать, (даешь 100% безопасность автотранспорта!!!), но система АБ-тестов так не работает, она дает заключение только когда найдено "абсолютное" решение (как у ситхов).
Теперь применительно к ритейлу. Проводим мы тест, когда меняется выкладка товара на полку, ну например хороший кофе ставили на верхнюю полку, теперь начали ставить на среднюю. В 70% случаев покупатели отреагировали положительно и продажи кофе улучшились, в 20% нет никаких изменений, а в 10% случаев ухудшились по разным причинам, вплоть до непредсказуемых. Влияние на покупателя это комплексная задача. Этот эксперимент оценивает платформа Бабушкина и дает заключение - нет подтвержденного эффекта. Идите думайте дальше бизнес эксперты. Хороший кофе возвращают на верхнюю полку, эксперты от бизнеса идут думать как сделать так, чтобы повлиять на 30% оставшихся потребителей. Не придумали? - значит опцию видеть хороший кофе на средней полке бизнес потерял навсегда. Когда такого рода претензии высказываются коллегам Валерия их ответ прост. Мы просто написали заключение и поставили оценку (и даже показали распределение результатов те самые 70-20-10), решение принял топ-менеджмент. Если у вас есть идеи как это оценивать лучше чем наша платформа, сделайте и защитите у руководства, мы свою платформу у топов защитили. Но руководство, также как и я, не математики, а практики, и текущая религия - "биг дата это новый колосс" по сути не оставляет им выбор на принятие гибких решений. Им проще заставить не-математиков попрыгать вокруг математиков чтобы математики снизошли до индивидуальных настроек оценки или не тратить деньги на эксперименты. К чему это все пришло. Спустя 2-3 года с тех пор как появилась эта платформа (по моей СУБЪЕКТИВНОЙ оценке) количество экспериментов упало в десятки раз. Где то дело текущей скорости - надо делать 10 итераций теста, а где то бизнесу проще заниматься повседневной операционной работой по поддержанию "как есть", чем заниматься десятками и сотнями разных экспериментов. Сейчас инициатива имеет инициатора через выплясывание вокруг математиков в смешных шляпах, чтобы тем было весело гонять туда сюда свои датасеты. Если ты недостаточно забавен в глазах согласовантов, то твои результаты будут иметь отрицательное заключение. Такой новый вариант вахтерства. Я знаю что говорю (стыдливо отводит глаза).
Ну и нечестным по отношению к Валерию было бы на бинарное заявление выдавать бинарную критику. Конечно плюсы от ввода аб тестов есть. Есть ситуации когда заключение отсеивает однозначно негативные результаты или пограничные результаты в стиле 50 на 50. Таких шарлатанов выдающих себя за экспертов от бизнеса тоже хватает, а может даже и большинство. Но сейчас этот шлагбаум слишком жесткий и рано или поздно колосс падет. Топ менеджмент конечно будет смотреть в рекомендации платформы тестирования, но оно будет лишь подсказкой, а не ЗАКЛЮЧЕНИЕМ как сейчас. Надо просто подождать, когда за год пройдет всего 2-3 успешных теста и количество внедренных инноваций упадет раз в 5 - 10, тогда вопросы появятся ко всем, включая математиков. Я бы от всех практиков рекомендовал начать с простого - система должна выдавать пограничные заключения, не светофор да, нет, непонятно (что трактуется топами как нет). А все таки руководствоваться некоей нечеткой логикой интерпретации. В стиле "не идеально, но точно лучше чем раньше". Я понимаю, что в результате так и будет, но сегодня бигдата для бизнеса, скорее зло через призму моего 20 летнего практического опыта. Многие минорные улучшения отправляются в помойку, а весь взрослый бизнес выживает не за счет революций ,а именно эволюционными изменениями. Ну и спасибо за интересный рассказ, смотреть как профессионал рассказывает о своем опыте и знаниях это всегда впечатляет.
@@1566696 аб тесты оценивают общий эффект (будь то средний, медианный, перцинтильный и тп). Я не знаю откуда взялось утверждение что требуется 100% случаев для принятия решения, но этого конечно же не так. Думаю вам нужно выдать то, что здесь написано, команде Саши Сахнова, завязать дискуссию - чтобы они выяснили почему и откуда у вас неправильное понимание и объяснили как же это работает, чтобы в дальнейшем не возникало ложного понимания
@@1566696 Все верно. Если в 70% случаев стало лучше на 1%, в 20% не изменилось, а в 10% стало хуже на 7%, общий эффект будет: 0.7 * 0.01 + 0.2 * 0 - 0.1 * 0.07 = 0 В этом случае, изменение не имеет смысла, поскольку оно не приносит выгоды, а наоборот, может привести к потерям, учитывая затраты на его реализацию. Платформа предоставила вам распределение результатов. Теперь ваша задача - найти способы либо уменьшить потери в 10%, либо увеличить прибыль в 70%. Что касается уменьшения количества экспериментов, возможно, это даже хорошо. Ведь каждый эксперимент требует значительных ресурсов, особенно в офлайн-ритейле. Возможно, раньше, когда большинство экспериментов считались успешными, не все было в порядке. В развитом бизнесе процент успешных экспериментов не может быть высоким, иначе зачем экспериментировать - сразу внедряйте на всех. Мне помнится, процент успешных экспериментов был на уровне 90+%, что вызывает сомнения в их достоверности. Более того, платформа - инструмент - решения принимает топ менеджмент, хочет рисковать - пусть рискует, измерительный прибор лишь говорит что видит
00:07 Эффектное появление
00:22 Сколько АВ тестов ты провел?
01:05 Сколько АВ тестов ты провел хорошо?
01:56 Какие ошибки допускал?
03:13 Как объяснить профану?
04:38 Как понять, что аналитик тебя обманывает?
06:09 Что обязательно должно быть в АВ тесте?
08:14 Как научиться оценивать результаты теста непредвзято?
08:58 Чего не понимают большинство кандидатов?
10:19 Где и как научиться делать АВ тесты??!
11:08 А дома можно практиковаться?
11:46 Посоветуй литературу.
спасибо за выпуск, господа!
Одна просьба: зачитывайте вопросы тоже, пожалуйста.
Хотел послушать в машине, в итоге не понимал о чем речь))
больше профессионалов в аналитике) спасибо за ответы!)
Очень интересно, я понимаю о чем говорит этот молодой специалист)
Как убедиться, что перед вами крутой аналитик?
На неконкретные вопросы он просит уточнить термин или дать систему оценку.
Бабушкин красавчик!
Результатом абтеста может быть конкретная величина типа в результате внедрения новой фичи продажи поднимутся на 2-4% или 10-11 миллионнов. Можно ли с этой точки зрения оценивать успешность теста - насколько внедрение принесло предсказанный результат с течением времени?
Деньги - пожалуй лучшая метрика
Спасибо Валерий, уверен курс крутой, может позже куплю! Ты говорил про калькуляторы АВ, но в них всех надо вводить % конверсии, а если мы хотим смотреть revenue или arpu, как тогда посчитать размер выборки ?
через симуляцию
@@ValeriiBabushkin Спасибо, дай бог здоровья! Хотел уточнить, если мы посчитаем для А и В теста avg(revenue) и se, то мы ведь сможем сравнить т-тестом две выборки?
С учётом того что это метрика отношения
@@ValeriiBabushkin под отношением, имеете ввиду, считать статистику для каждой его составляющей по отдельности ?) Надеюсь не исчерпал лимит вопросов 🙏
@@BoQbL1k имеется ввиду специальная обработка в случае наличия метрики отношения
Сможет ли Chat GPT запускать A/B тесты, когда будут плагины с интеграцией?
проделать интеграцию - гигантская работа, но пока проверяли - чат гпт обманывает в аб, причем заметить это синьор не смог, а обман был
@@ValeriiBabushkinчто за обман такой и в чём он заключался? Интересно, если есть ещё и видео на эту тему. Спасибо
Комментарий для продвижения больше 5 предложений думаю хватит всем спасибо
Светлая голова
Дима Лунин топ, если ты про его статьи. Спасибо за видео!
Валера уже получил почетное звание иногента или нет пока?
валерон просто везде
Машина
Ютуб не позволяет нафигачить большой комментарий, а мне есть что сказать, поэтому буду бить его почастям.
Я конечно не такой крутой математик как господин Бабушкин. Скажу как практик из Х5, который сидел с ребятами Валерия по другую сторону стола/монитора. В моем проекте проводились десятки а/б тестов для валидации результата и оправдания инвестиций с его командой и на их платформе. В оффлайн ритейле (но думается, что также везде) есть несогласие с методами А/В тестов в практической области. Причина довольно простая, это сферические исследования в вакууме, которые ставят высокую обоснованность результатов во главе угла. С первого взгляда это даже неплохо, но давайте рассуждать дальше.
В его примерах фигурировало, что "если мы проводим исследование с 40 летними мужчинами то... " продолжим мысль. Успешным считается аб тест в котором на все 100% мужчин участвовавших в исследовании результат дал отклонение в положительную область с разной степенью успеха и результат имеет низкую ошибку. Если 10% мужчин не отреагировали или по другим причинам отреагировали негативно, то этот эксперимент получает от команды Валерия негативное заключение. С точки зрения практики этот результат надо интерпретировать как 90% успех, но бинарная логика платформ аб-тестирования отвечает одной из граней монетки - да или нет. И тут ответ будет - нет. Бизнес не может решать комплексные (сложные) задачи всегда с успехом на 100%. Это вам не кирпичный цвет кнопки, это система органических стимулов влияющая на мотивацию десятков умов, которые должны принять однозначное (с точки зрения платформы) решение.
Давайте приведу пример. Вы автопроизводитель и запускаете новый вариант автомобиля на замену существующему (ну допустим новая версия ауди а4). Краш-тесты старого автомобиля это контрольная группа, краш-тесты нового это тестовая. И вот вы получаете результат, звучит он следующим образом в 90% случаев в краш тесте нового автомобиля повреждения водителя были меньше чем в старом (остаются конечности, выживаемость). Но в одном типе тестов результаты хуже, водитель изуродован больше чем в старой версии авто, потому что балка безопасности спасающая теперь 90% водителей, расположена под таким углом, что в аварии с 32% перекрытием, под углом 65 градусов при скорости 93-96 км в час по законам физики не успевает уйти влево и входит водителю в грудь и это подтвердилось много раз при аналогичных условиях. В то время как в старом автомобиле именно этот кейс обеспечивает более высокую выживаемость. Несмотря на то, что эти пропорции безопасности сильно лучше чем в предыдущей модели заключение Валерия на этот тест будет - нет, продолжайте улучшать новый авто, так как не 100% случаев лучше чем старые авто. Задайте себе вопрос как потребитель - что в этой ситуации правильнее? Вы могли бы получить завтра более совершенный автомобиль, но вынуждены довольствоваться старым более опасным в целом, потому что не найдено решение для этих 10% случаев, когда стало хуже. Абсурд, верно? Нет, конечно во имя добра, надо и этот кейс решать, (даешь 100% безопасность автотранспорта!!!), но система АБ-тестов так не работает, она дает заключение только когда найдено "абсолютное" решение (как у ситхов).
Теперь применительно к ритейлу. Проводим мы тест, когда меняется выкладка товара на полку, ну например хороший кофе ставили на верхнюю полку, теперь начали ставить на среднюю. В 70% случаев покупатели отреагировали положительно и продажи кофе улучшились, в 20% нет никаких изменений, а в 10% случаев ухудшились по разным причинам, вплоть до непредсказуемых. Влияние на покупателя это комплексная задача. Этот эксперимент оценивает платформа Бабушкина и дает заключение - нет подтвержденного эффекта. Идите думайте дальше бизнес эксперты. Хороший кофе возвращают на верхнюю полку, эксперты от бизнеса идут думать как сделать так, чтобы повлиять на 30% оставшихся потребителей. Не придумали? - значит опцию видеть хороший кофе на средней полке бизнес потерял навсегда.
Когда такого рода претензии высказываются коллегам Валерия их ответ прост. Мы просто написали заключение и поставили оценку (и даже показали распределение результатов те самые 70-20-10), решение принял топ-менеджмент. Если у вас есть идеи как это оценивать лучше чем наша платформа, сделайте и защитите у руководства, мы свою платформу у топов защитили. Но руководство, также как и я, не математики, а практики, и текущая религия - "биг дата это новый колосс" по сути не оставляет им выбор на принятие гибких решений. Им проще заставить не-математиков попрыгать вокруг математиков чтобы математики снизошли до индивидуальных настроек оценки или не тратить деньги на эксперименты.
К чему это все пришло. Спустя 2-3 года с тех пор как появилась эта платформа (по моей СУБЪЕКТИВНОЙ оценке) количество экспериментов упало в десятки раз. Где то дело текущей скорости - надо делать 10 итераций теста, а где то бизнесу проще заниматься повседневной операционной работой по поддержанию "как есть", чем заниматься десятками и сотнями разных экспериментов. Сейчас инициатива имеет инициатора через выплясывание вокруг математиков в смешных шляпах, чтобы тем было весело гонять туда сюда свои датасеты. Если ты недостаточно забавен в глазах согласовантов, то твои результаты будут иметь отрицательное заключение. Такой новый вариант вахтерства. Я знаю что говорю (стыдливо отводит глаза).
Ну и нечестным по отношению к Валерию было бы на бинарное заявление выдавать бинарную критику. Конечно плюсы от ввода аб тестов есть. Есть ситуации когда заключение отсеивает однозначно негативные результаты или пограничные результаты в стиле 50 на 50. Таких шарлатанов выдающих себя за экспертов от бизнеса тоже хватает, а может даже и большинство. Но сейчас этот шлагбаум слишком жесткий и рано или поздно колосс падет. Топ менеджмент конечно будет смотреть в рекомендации платформы тестирования, но оно будет лишь подсказкой, а не ЗАКЛЮЧЕНИЕМ как сейчас. Надо просто подождать, когда за год пройдет всего 2-3 успешных теста и количество внедренных инноваций упадет раз в 5 - 10, тогда вопросы появятся ко всем, включая математиков.
Я бы от всех практиков рекомендовал начать с простого - система должна выдавать пограничные заключения, не светофор да, нет, непонятно (что трактуется топами как нет). А все таки руководствоваться некоей нечеткой логикой интерпретации. В стиле "не идеально, но точно лучше чем раньше". Я понимаю, что в результате так и будет, но сегодня бигдата для бизнеса, скорее зло через призму моего 20 летнего практического опыта. Многие минорные улучшения отправляются в помойку, а весь взрослый бизнес выживает не за счет революций ,а именно эволюционными изменениями.
Ну и спасибо за интересный рассказ, смотреть как профессионал рассказывает о своем опыте и знаниях это всегда впечатляет.
@@1566696 аб тесты оценивают общий эффект (будь то средний, медианный, перцинтильный и тп). Я не знаю откуда взялось утверждение что требуется 100% случаев для принятия решения, но этого конечно же не так. Думаю вам нужно выдать то, что здесь написано, команде Саши Сахнова, завязать дискуссию - чтобы они выяснили почему и откуда у вас неправильное понимание и объяснили как же это работает, чтобы в дальнейшем не возникало ложного понимания
@@1566696 Все верно. Если в 70% случаев стало лучше на 1%, в 20% не изменилось, а в 10% стало хуже на 7%, общий эффект будет:
0.7 * 0.01 + 0.2 * 0 - 0.1 * 0.07 = 0
В этом случае, изменение не имеет смысла, поскольку оно не приносит выгоды, а наоборот, может привести к потерям, учитывая затраты на его реализацию. Платформа предоставила вам распределение результатов. Теперь ваша задача - найти способы либо уменьшить потери в 10%, либо увеличить прибыль в 70%.
Что касается уменьшения количества экспериментов, возможно, это даже хорошо. Ведь каждый эксперимент требует значительных ресурсов, особенно в офлайн-ритейле. Возможно, раньше, когда большинство экспериментов считались успешными, не все было в порядке. В развитом бизнесе процент успешных экспериментов не может быть высоким, иначе зачем экспериментировать - сразу внедряйте на всех. Мне помнится, процент успешных экспериментов был на уровне 90+%, что вызывает сомнения в их достоверности. Более того, платформа - инструмент - решения принимает топ менеджмент, хочет рисковать - пусть рискует, измерительный прибор лишь говорит что видит
Почему Валерий моргает не до конца?
Так это же только первая часть. Во второй он уже доморгает все остальное
Проводит А/В тест морганий1
Экономит время) достаточно не до конца могюргать
Чтобы ничего не упустить 😮
Аудио оформление на уровне 1 апреля. Пожалуйста, не делайте так! Ощущение квн с отбивками
Так видео и вышло первого апреля :)
Какого это торговать лицом и продавать модельки с реколом в 0.01 ?
Это какие модели с реколом в 0.1?
жиза
Очень громко музыка, мешает слушать
Если даже Валерий так слабо отвечает про АБ тестирование, то очевидно что АБ тесты это по большому счету скам.