Открытое собеседование по статистике с Анатолием Карповым | karpov.courses

Поділитися
Вставка
  • Опубліковано 20 чер 2024
  • Курс «Аналитик данных»: bit.ly/3qnt7jr
    Таймкоды:
    0:00 - Начало
    4:38 - Статистика как научный способ проверки каузации
    7:10 - Формула t-теста
    8:19 - Смысл формулы
    13:12 - Связь размера выборки и величины ошибки выборочного среднего
    14:43 - Вопрос про дисперсию
    16:35 - Зачем вычитать 1 в формуле выборочной дисперсии?
    26:19 - Выборочный максимум - это смещенная оценка или нет?
    30:54 - Сравнивает ли Манна-Уитни медианы?
    32:54 - Можно ли применять статистику к группам по 20 наблюдений?
    39:50 - Применение t-теста для ненормальных распределений
    41:33 - Подход при маленьких выборках
    44:38 - Принцип работы Шапиро-Уилка
    48:19 - Как доказать отсутствие изменений?
    57:18 - Переход ко 2 кандидату и знакомство с ним
    1:00:18 - Система сплитования
    1:07:10 - Длительность А/А теста
    1:08:46 - Вопрос про метрику, которая прокрасится только в будущем
    1:11:15 - Область применения прокси метрик
    1:14:43 - Как провести А/В тест, когда его провести невозможно?
    1:18:49 - Можно ли и как правильно прерывать А/В тесты
    1:24:28 - Как выбрать статистический критерий
    1:28:24 - Ускорение принятия решений
    1:32:11 - Работа с составными метриками на примере CTR
    1:34:37 - Заключение

КОМЕНТАРІ • 59

  • @ivanorlov165
    @ivanorlov165 Рік тому +41

    Всем привет, это "Associate Data Analyst из Krisp Иван", спасибо Анатолию за чудесное интервью!
    Несколько комментариев-уточнений/исправлений:
    14:15 -- ошибся-заговорился: между 20 и 40 и 1000 и 2000 разница та же (корень из 2), просто для получения в первом случае пришлось добавить 20 измерений, а во втором -- 1000. Смысл в том, что при росте размера выборки нам приходится добавлять всё больше элементов для того же уменьшения дисперсии.
    17:40 -- всё очень плохо, всё перепутал. Объяснение Анатолия гораздо лучше:
    В выборочной дисперсии (n-1) -- из-за переоценки выборочной дисперсии, потому что минимизирует числитель (сумму квадратов разностей) именно выборочное среднее, а истинное от него отклоняется -> числитель для истинной дисперсии (считаемой от истинного среднего) будет больше -> в формуле выборочной дисперсии нужно сделать поправку, которая увеличит её, отсюда и "небольшое уменьшение" знаменателя.
    48:40 -- ошибки в размышлениях есть, но с выправлениями Анатолия мы вышли к правильному выводу: вместо "мы ничего не можем сказать", "мы можем сказать, что мы либо с вероятностью альфа не нашли существующее различие, либо различие меньше установленного порога".
    Ну и всем рекомендую посетить сайт krisp.ai (мне за это не платят, ну и ладно, хотя и жаль).

    • @user-gb5op3sc4i
      @user-gb5op3sc4i Рік тому

      Слишком надменный ты. Неприятно слушать

    • @Constantine_Bones
      @Constantine_Bones 11 місяців тому +2

      ты кайфовый чел, на харизме

  • @nx4tl
    @nx4tl Рік тому +65

    Толя находит время, чтобы делать контент даже при такой красоте сзади

  • @karpovcourses
    @karpovcourses  Рік тому +57

    Материалы, по которым соискатели готовились к собеседованию:
    Обзор системы сплитования (на примере Авито): habr.com/p/454164/
    Краткий обзор по статистическим тестам:
    vkteam.medium.com/practitioners-guide-to-statistical-tests-ed2d580ef04f
    Пуассоновский бутстрап:
    ua-cam.com/video/Zki9VMzxcFU/v-deo.html
    Подсчёт MDE:
    medium.com/statistics-experiments/когда-останавливать-a-b-тест-часть-1-mde-7d39b668b488 (Часть 1)
    medium.com/statistics-experiments/когда-останавливать-a-b-тест-часть-2-monte-carlo-a342ba5b552c (Часть 2)
    Стратификация:
    habr.com/ru/company/X5Tech/blog/596279/
    Методы сокращения дисперсии и зачем это нужно: ua-cam.com/video/KvIJ8FCJzr4/v-deo.html
    Увеличение чувствительности в A/B с помощью Cuped: ua-cam.com/video/pZpUM08mv-E/v-deo.html
    Про FPR, TPR, Statistical power и p-value:
    ua-cam.com/video/XTcP4oo4JI4/v-deo.html
    ua-cam.com/video/-zps6hm0nX8/v-deo.html
    ua-cam.com/video/2nP_gcut7SU/v-deo.html
    Канал для подготовки к интервью в сфере Data Science: ua-cam.com/users/DataInterviewPro
    Лекция Нерсеса Багияна про A/B-тесты: ua-cam.com/video/cWmS-ws4z9I/v-deo.html
    Курс «Основы статистики»: stepik.org/course/76/syllabus
    Курс «Основы статистики. Часть 2»: stepik.org/course/524/syllabus
    Курс «Основы статистики. Часть 3»: stepik.org/course/2152/syllabus

    • @ilyin_sergey
      @ilyin_sergey Рік тому +1

      Анатолий (и коллеги), можете поделиться статьями о "проблемах" p-value, почему нельзя сломя голову бежать и ему верить?

  • @mlpython1089
    @mlpython1089 Рік тому +2

    Спасибо парни за материал. Помог освежить знания и составить список пробелов.

  • @user-de6cj2rk3m
    @user-de6cj2rk3m Рік тому +1

    Получил интелектуальное удовольствие от ролика. Спасибо.

  • @bogdanns2
    @bogdanns2 Рік тому +1

    классно, такие толковые ребята 👍

  • @irker8220
    @irker8220 Рік тому +2

    Спасибо ведущему и собеседующего - очень много полезной информации. Отличный вариант, чтобы провериться себя.
    Отличная получилась беседа. Выпуск огонь! :)

  • @elenagavrilova3109
    @elenagavrilova3109 3 місяці тому

    Интересные беседы, вторая часть с АБ тестами особо понравилась, узнала новое.

  • @AlexxxeyS
    @AlexxxeyS Рік тому +14

    Шикарная шевелюра. Контент тоже нормальный👍

  • @grievingdad5848
    @grievingdad5848 Рік тому +3

    Вставить комментарий для демонстрации благодарности Анатолию за контент

  • @gillan11
    @gillan11 Рік тому +1

    А какой подход обычно используют для множественного подглядывания в АБ? O’Brien-Fleming boundaries?

  • @w6K62XmiMjkYk
    @w6K62XmiMjkYk Рік тому +1

    а почему при расчете t в знаменателе дисперсия деленная на корень из n?) разве не ско деленное на корень из n?

  • @user-jd6uz5si2f
    @user-jd6uz5si2f Рік тому

    Топ!

  • @T_i_m_T_i_m
    @T_i_m_T_i_m Рік тому +1

    Почему когда говорите о se, говорите что наверху в формуле дисперсия? Там же стандартное отклонение.

  • @INX_1
    @INX_1 10 місяців тому

    Где найти его курсы на степике?

  • @ivan51141
    @ivan51141 Рік тому +1

    Привет, Анатолий. Скажи пожалуйста, такой вопрос. Вот во втором интервью, вопрос был. Мол для ARPU какой тест финально выберешь ? И вы сошлись на бутстрапе и на пуасановском бутстрапе. Что нам мешает на достаточно больших выборках использовать z-test ? Статистика будет нормально распределена энивей - и бутстрап +- это же и покажет - давайте сразу использовать квантили нормального распределения?) Без бутстрапов.

    • @user-gm1mg8gg5m
      @user-gm1mg8gg5m Рік тому +1

      Наверное, все таки речь идет про t-test (т.к. z-test предполагает известную дисперсию), ARPU достаточно скошенное распределение и для действия ЦПТ потребуется сильно больше наблюдений, чем для других возможных распределений, отсюда скорее всего следует что мощность у бутстрапа будет получше (в случае если t-test вообще будет корректно работать на таком объеме), но в любом случае можно сравнить t-test/bootstrap на ваших данных посимулировав A/A тесты и A/B тесты (те же A/A с эффектом в одной группе) и посмотреть, является ли t-test корректным, если да, то какая у него мощность относительно bootstrap'а.

    • @ivan51141
      @ivan51141 Рік тому

      z-test использует же цпт. И ему не нужно знать дисперсию. Цпт говорит что при достаточно большой выборке выборочное среднее будет иметь нормальное распределение с мат ожиданием распределения из которого ген совокупность и с дисперсией распределения ген совокупности, делённой на размер выборки. Дисперсию можно заменить на оценку - а именно на несмещенную выборочную дисперсию. А при больших n можно и просто на выборочную дисперсию. На практике большим n уже начинается с 1000 - 3000. Поэтому мне и интересно почему коллега из озона выбрал бутстрап.

  • @malanius90
    @malanius90 Рік тому +1

    Nice hair, awesome view

  • @ai-artistry-channel
    @ai-artistry-channel Рік тому +2

    Анатолий, а вы обратили внимание, что у вас на фоне бимодальное распределение)

  • @Anonymous_starrrr
    @Anonymous_starrrr Рік тому +1

    стоит ли идти глубже в аналитику и ds если ну очень не нравится статистика? с первого раза ниче не понятно. а формулы клонят в сон
    или это у всех так? или наоборот есть какие то гении которые феноменально легко и быстро понимают и интерпретируют статистику?

    • @bogdanns2
      @bogdanns2 Рік тому

      есть конечно гении, но в целом это вопрос вашей текущей подготовки, вначале всегда сложно, а дальше, чем больше вы будете понимать от нового материала, тем интереснее вам будет. так во многих ведь. ну а в целом, если вас любые формулы повергают в скуку, то идти в данные я бы не рекомендовал

    • @oeaoo
      @oeaoo Рік тому

      Еще варик - примирение с математикой. Фаза принятия.

  • @old_bedouin
    @old_bedouin Рік тому

    Анатолий, разберёте как-нибудь пуассоновский бутсреп на практике?

    • @user-gm1mg8gg5m
      @user-gm1mg8gg5m Рік тому

      В приложенных материалах есть.
      Пуассоновский бутстрап:
      ua-cam.com/video/Zki9VMzxcFU/v-deo.html

    • @clockfixer5049
      @clockfixer5049 Рік тому

      @@user-gm1mg8gg5m Привет! А можешь, пожалуйста, отослать к материалу, где доказывается или ярко демонстрируется, почему t-test перестаёт корректно работать на ratio метриках. Я не очень пока понимаю, на каком этапе появляется зависимость наблюдений и какие конкретно изменения самой метрики (появление числителя и знаменателя) ведут к поломке t-test’а?

    • @user-gm1mg8gg5m
      @user-gm1mg8gg5m Рік тому

      @@clockfixer5049 т тест требует астмптотическую нормальность которая достигается за счёт цпт, а цпт требует независимость наблюдений, но вот подневная (ratio) будет сильно зависеть друг от друга

  • @user-hp3dp2sz2b
    @user-hp3dp2sz2b Рік тому +1

    👍🤗

  • @IvanFedkevich
    @IvanFedkevich Рік тому +2

    А это предполагается как собес по статистике на позицию какого уровня?
    Джун+/Мидл?

    • @karpovcourses
      @karpovcourses  Рік тому +2

      Первая часть джун, вторая мидл и выше.

  • @TheBeliever30
    @TheBeliever30 Рік тому +3

    Какой Иван хорошенький 😍

  • @antwithhook8975
    @antwithhook8975 Рік тому

    Про n - 1. Подскажите, пожалуйста, правильно ли я понял. Мы вычитаем один для увеличения дисперсии, так как принимаем во внимание, что дисперсия нашей выборки может быть меньше, чем в генеральной совокупности, но больше быть не может чисто с логической точки зрения, за рамки не выйдешь. Поэтому мы даем "небольшую фору" в дисперсии для выборки.

  • @user-qt1sg8dr6c
    @user-qt1sg8dr6c Рік тому

    Анатолий, а как можно к Вам на интервью попасть?))

    • @karpovcourses
      @karpovcourses  Рік тому

      А в каком предмете вы хотите себя попробовать?)

    • @user-qt1sg8dr6c
      @user-qt1sg8dr6c Рік тому +1

      @@karpovcourses С удовольствием бы попробовал себя в тервере, матстате, SQL, ну и задачки по pandas какие-нибудь(сейчас перечислил и понял, что в общем-то во всём стеке продуктового аналитика :) )
      Так что по факту что угодно))

  • @user-kb8mr9vl2n
    @user-kb8mr9vl2n Рік тому +1

    Ой,блин,сколько ещё учить то надо,елки палки!/
    Настроение упало после просмотра чуть)

  • @user-ho5ei2cu5q
    @user-ho5ei2cu5q Рік тому +1

    Сам курс платный?

  • @A_P___
    @A_P___ Рік тому +1

    не очень понимаю зачем мне наизусть знать формулы?)

  • @f0kes32
    @f0kes32 2 місяці тому

    Подскажите книжку почитать, если коммент мой увидите.

  • @user-hp3dp2sz2b
    @user-hp3dp2sz2b Рік тому +3

    Я надеюсь, этот список вопросов не для джуна?😱

    • @krislis6645
      @krislis6645 Рік тому +1

      Сама в шоке сижу слушаю😀

  • @numaki2506
    @numaki2506 Рік тому

    Не узнал Толю

  • @johnMilton14
    @johnMilton14 Рік тому +2

    Из-за прически такое ощущение, что Анатолий Карпов ненастоящий ))

  • @2korzhik
    @2korzhik Рік тому +2

    По моему опыту, я месяц собеседовался дата аналитиком в разные компании и крупные и маленькие и то что на видео ни имеет НИЧЕГО ОБЩЕГО с реальностью.
    Как оказалось статистика мало кого волнует. Больше инетресует понимаение продуктовых меткрик. Но самая мякотка в том что зарплаты у аналитиков сильно ниже любого зачуханного программиста.

    • @bricotel
      @bricotel Рік тому

      А что ещё спрашивают?
      Хочу через полгода собеседоваться и мне очень интересно, в какую сторону крен делать.

    • @2korzhik
      @2korzhik Рік тому +1

      @@bricotel знание питона, алгоритмы и структуры данных (хз зачем), SQL. Это на первом этапе. Только в двух местах был кодинг с pandas (джойны, группировки, выбросы, визуализация) и выбор стат критерия. А так везде на последнем этапе больше волнует знание воронки продуктовых метрик. Просят придумать метрики для новой фичи. Бред какой то

    • @2korzhik
      @2korzhik Рік тому

      Тервер тоже только в одном месте был. Просили решить задачку

    • @bricotel
      @bricotel Рік тому

      @@2korzhik спасибо за ответ! В целом люди видят разницу между аналитиком данных и тем же продуктовым аналитиком?
      Много собесов уже прошел?

    • @2korzhik
      @2korzhik Рік тому

      @@bricotel мне кажется если и видят, то все равно хотят больше уклона в продуктовую аналитику. Чисто за дата аналитику похоже не готовы платить, либо все эти задачи уже решены, и остаётся только развивать продукт.

  • @user-cf1tn7cg2u
    @user-cf1tn7cg2u Рік тому

    Здравствуйте! Скажите ,пожалуйста, будет подобное видео, но на тему data engineer?

    • @karpovcourses
      @karpovcourses  Рік тому +3

      Думаю, сделаем!

    • @user-hk2hy8fy9g
      @user-hk2hy8fy9g Рік тому

      @@karpovcourses ждём! И сразу вопрос. В октябре не успеваю, а когда следующий набор обучения на инженеров?

    • @karpovcourses
      @karpovcourses  Рік тому

      @@user-hk2hy8fy9g Стартуем каждый месяц :)