К вопросу об усреднении CTR. В задачах машинного обучения похожая ситуация возникает при использовании метрики для многоклассовой классификации. Перенося проблему на пример с объявлениями есть: (1) Микроусреднение 1. Берем просто общий CTR (общие клики разделить на общие показы) Логика применения: чем больше показов на какое-то отдельное объявление, тем нам важнее CTR именно на нем. То есть сдвигает целевой показатель (CTR) в сторону преобладающего класса (объявления с большим числом показов) (2) Макроусреднение 1. Считаем для каждого объявления его собственный: CTR_k (не общие клики и показы, а отдельно для каждого объявления) 2. Усредняем показатели по всем классам (делим каждый CTR_k на количество объявлений): CTR = CTR_k / K Логика применения: вне зависимости от количества показов на отдельных объявлениях, мы получаем CTR с поправкой на несбалансированные показы. Например, если у нас 2 объявления, и на одном гораздо больше показов/кликов чем на другом, то при микроусреднении мы получим CTR, смещенный в сторону CTR большого класса. То есть для каждой задачи аналитик сам решает, ему больше надо оценить CTR по каждому классу (например, найти более крутое объявление) или общий CTR на всю кампанию для подведения итогов.
Про открытый вопрос на 35 минуте (считать CTR суммарно по всем объявлениям или считать CTR по отдельным объявлениям, а потом усреднять), так какой же способ проверки правильно было бы использовать и почему?
35 минута это не ru.wikipedia.org/wiki/%D0%9F%D0%B0%D1%80%D0%B0%D0%B4%D0%BE%D0%BA%D1%81_%D0%A1%D0%B8%D0%BC%D0%BF%D1%81%D0%BE%D0%BD%D0%B0 или я ошибаюсь?
35 минута: CTR по сути нормирует(взвешивает, исправляет) показания кликов для каждого объявления согласно числу его показов. Чем больше показов - тем большее число кликов требуется для высокого ctr. То, что нормирование всех кликов по всем показам это совершенно другая вещь - едва ли должно требовать пояснений. Приведу пример: Допустим, есть норма сытости двух животных: у козлика это 8 яблок в день, а у кролика 3 яблока в день. У нас есть 10 яблок. Неужели не очевидно, что индекс голода будет радикально отличаться от того, лишим мы недостающего яблока козлика или кролика? Лишаем козлика: Голод козлика = 1/(7/8), а кролика 1/(3/3). Средний (1,14+1)/2 = 1,07 голода Лишаем кролика: Голод козлика = 1/(8/8), а кролика 1/(2/3). Средний (1+1,5)/2 = 1,25 голода Некорректно: Общий индекс голода: 10/(8+3) = 1,1 Непоказательно совершенно. Забавно, что, будь у нас не 10, а 8 яблок, мы могли бы заморить голодом кролика или накормить кролика 2-мя, а козлика 6-ы яблоками и не показательный способ подсчета не увидел бы разницы. Я надеюсь понимание ситуации мне удалось вывести за предела математики? Обожаю разбираться в таких вопросах... может тоже пойти в анализ? С чего начать, если есть опыт программирования, работы с нампи, пандас, если преподавал в вузе матстат и матан?
Так не, там же доказывается именно то, что рейтинг изменяется в процентах, а не в единицах. Т.е. изменение со 100 до 110 - это 10 единиц, 10% и рейтинг увеличился на 1 А с 1000 до 1010 - это тоже 10 единиц, но уже 1% и, соответственно, рейтинг увеличился не на 1, а на 0,1
Классный доклад, но как-то стремно от того, что вы не понимаете, почему нельзя усреднять проценты CTR, чтобы оценить средний результат по фиче. Как минимум мы не определили, что это вообще за параметр такой - средневзвешенный процент, где каждой группе выдан равный вес, независимо от её вклада в общий результат. Почему группа объявлений тут играет роль более важную, чем влияние фичи на результат? А раз мы не определили, что это за показатель мы считаем, то ясное дело, мы не знаем, о чем он нам говорит.
CTR - это доля (те процент), но сумма CTR(процентов) элементов - не равна общей СTR(процентов). Например: 50/100 (50%) + 5/10 (50%) == 1(100%) и это не равно (50+5)/(100+10) = 0.5 (50%). Другими словами от долей и процентов нельзя считать сумму имхо
возможно там не совсем про сумму CTR, в качестве процентов, а про сравнение среднего значения по показателю среди объявлений и простым делением суммы всех кликов на сумму всех показов
Зашел посмотреть про а б тесты.... а тут какие-то непорометрики и логорифмирование переменных. Люди пишут что очень ясно изложенно.. может это тонкий сарказм... В любом случае извините, я наверно ахуенно тупой.
Очень ясно изложил, прям как на своих курсах на степике. Спасибо!
К вопросу об усреднении CTR. В задачах машинного обучения похожая ситуация возникает при использовании метрики для многоклассовой классификации. Перенося проблему на пример с объявлениями есть:
(1) Микроусреднение
1. Берем просто общий CTR (общие клики разделить на общие показы)
Логика применения: чем больше показов на какое-то отдельное объявление, тем нам важнее CTR именно на нем. То есть сдвигает целевой показатель (CTR) в сторону преобладающего класса (объявления с большим числом показов)
(2) Макроусреднение
1. Считаем для каждого объявления его собственный: CTR_k (не общие клики и показы, а отдельно для каждого объявления)
2. Усредняем показатели по всем классам (делим каждый CTR_k на количество объявлений): CTR = CTR_k / K
Логика применения: вне зависимости от количества показов на отдельных объявлениях, мы получаем CTR с поправкой на несбалансированные показы.
Например, если у нас 2 объявления, и на одном гораздо больше показов/кликов чем на другом, то при микроусреднении мы получим CTR, смещенный в сторону CTR большого класса. То есть для каждой задачи аналитик сам решает, ему больше надо оценить CTR по каждому классу (например, найти более крутое объявление) или общий CTR на всю кампанию для подведения итогов.
Божественное выступление! И бесплатно! спасибо вам, ребята!!
Обалденно. Человек нашел себя, любит статистику и проявляет себя в этом. И это самое великолепное!
Спасибо большое за выступление. Очень доступно и понятно.
А в этом видео есть что-нибудь про A/B тестирование?
Насколько же он хорош!)
Узнала много интересного и полезного! Круто! Спасибо большое за доклад👍
Да круто) как фильм остросюжетный посмотрел)
На графике с CTR от нуля до 200 у меня ни одной идеи, что за значения на оси x. CTR меряется в процентах о нуля до 100% (ну или от нуля до единицы).
Лучший!
Про открытый вопрос на 35 минуте (считать CTR суммарно по всем объявлениям или считать CTR по отдельным объявлениям, а потом усреднять), так какой же способ проверки правильно было бы использовать и почему?
Загадка с CTR - может, просто парадокс Симпсона? Когда при объединении групп отличается поведение, чем если их по отдельности считать
вроде оно и есть
Гениальный шахматист
35 минута это не ru.wikipedia.org/wiki/%D0%9F%D0%B0%D1%80%D0%B0%D0%B4%D0%BE%D0%BA%D1%81_%D0%A1%D0%B8%D0%BC%D0%BF%D1%81%D0%BE%D0%BD%D0%B0 или я ошибаюсь?
похоже на то.
Можно протестировать и компании и объявления и группы???
35 минута:
CTR по сути нормирует(взвешивает, исправляет) показания кликов для каждого объявления согласно числу его показов. Чем больше показов - тем большее число кликов требуется для высокого ctr.
То, что нормирование всех кликов по всем показам это совершенно другая вещь - едва ли должно требовать пояснений.
Приведу пример:
Допустим, есть норма сытости двух животных: у козлика это 8 яблок в день, а у кролика 3 яблока в день.
У нас есть 10 яблок. Неужели не очевидно, что индекс голода будет радикально отличаться от того, лишим мы недостающего яблока козлика или кролика?
Лишаем козлика:
Голод козлика = 1/(7/8), а кролика 1/(3/3).
Средний (1,14+1)/2 = 1,07 голода
Лишаем кролика:
Голод козлика = 1/(8/8), а кролика 1/(2/3).
Средний (1+1,5)/2 = 1,25 голода
Некорректно:
Общий индекс голода: 10/(8+3) = 1,1
Непоказательно совершенно.
Забавно, что, будь у нас не 10, а 8 яблок, мы могли бы заморить голодом кролика или накормить кролика 2-мя, а козлика 6-ы яблоками и не показательный способ подсчета не увидел бы разницы.
Я надеюсь понимание ситуации мне удалось вывести за предела математики?
Обожаю разбираться в таких вопросах... может тоже пойти в анализ? С чего начать, если есть опыт программирования, работы с нампи, пандас, если преподавал в вузе матстат и матан?
Да, а почему бы и не пойти :)
Нужно вступить в ods :)
Понять в какую ветку аналитики хочется и от этого отталкиваться. Из общего - SQL
Здравствуйте мистер Шелдон Купер
ЛАЙК от топового вебмастера и тестировщика СЕООНЛИ
Очень нужно и далеко от предмета. Подводка к сути видео вообще уснуть можно
Он шахматист?
10% от 1000 это 100, т.е. на 26 минуте ошибка в сравнении 1000 и 1010 (должно быть 1100)
Так не, там же доказывается именно то, что рейтинг изменяется в процентах, а не в единицах.
Т.е. изменение со 100 до 110 - это 10 единиц, 10% и рейтинг увеличился на 1
А с 1000 до 1010 - это тоже 10 единиц, но уже 1% и, соответственно, рейтинг увеличился не на 1, а на 0,1
Классный доклад, но как-то стремно от того, что вы не понимаете, почему нельзя усреднять проценты CTR, чтобы оценить средний результат по фиче. Как минимум мы не определили, что это вообще за параметр такой - средневзвешенный процент, где каждой группе выдан равный вес, независимо от её вклада в общий результат. Почему группа объявлений тут играет роль более важную, чем влияние фичи на результат? А раз мы не определили, что это за показатель мы считаем, то ясное дело, мы не знаем, о чем он нам говорит.
CTR - это доля (те процент), но сумма CTR(процентов) элементов - не равна общей СTR(процентов). Например: 50/100 (50%) + 5/10 (50%) == 1(100%) и это не равно (50+5)/(100+10) = 0.5 (50%). Другими словами от долей и процентов нельзя считать сумму имхо
возможно там не совсем про сумму CTR, в качестве процентов, а про сравнение среднего значения по показателю среди объявлений и простым делением суммы всех кликов на сумму всех показов
Зашел посмотреть про а б тесты.... а тут какие-то непорометрики и логорифмирование переменных. Люди пишут что очень ясно изложенно.. может это тонкий сарказм... В любом случае извините, я наверно ахуенно тупой.
жхх, а я у этого чувака учился статистике на халявном курсе степика, а счас как он поднялся))
ну как, стал асом статы?
Мы никогда не ПРИНИМАЕМ гипотезы
Только НЕ ОТВЕРГАЕМ
Я думаю ОН это знает.
не ложить, а класть!
@@БумагаВсёСтерпит но не говорит)
Что это значит?
Vladi Vas ну типо поправочка из того же класса, звучит правильней, а сути не меняет.
Непонятно объясняет
Ой часто ходите Анатолий. Это немного раздражает. А так супер тема
куча воды. неочем
Ходьба туда-сюда отвлекает от восприятия (
Слишком много слов...и ходьбы, поворотов. Ужас!...
вот вам придраться не к чему, кпц