Открытое собеседование по статистике с Анатолием Карповым | karpov.courses

karpov.courses

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 20 чер 2024
Курс «Аналитик данных»: bit.ly/3qnt7jr
Таймкоды:
0:00 - Начало
4:38 - Статистика как научный способ проверки каузации
7:10 - Формула t-теста
8:19 - Смысл формулы
13:12 - Связь размера выборки и величины ошибки выборочного среднего
14:43 - Вопрос про дисперсию
16:35 - Зачем вычитать 1 в формуле выборочной дисперсии?
26:19 - Выборочный максимум - это смещенная оценка или нет?
30:54 - Сравнивает ли Манна-Уитни медианы?
32:54 - Можно ли применять статистику к группам по 20 наблюдений?
39:50 - Применение t-теста для ненормальных распределений
41:33 - Подход при маленьких выборках
44:38 - Принцип работы Шапиро-Уилка
48:19 - Как доказать отсутствие изменений?
57:18 - Переход ко 2 кандидату и знакомство с ним
1:00:18 - Система сплитования
1:07:10 - Длительность А/А теста
1:08:46 - Вопрос про метрику, которая прокрасится только в будущем
1:11:15 - Область применения прокси метрик
1:14:43 - Как провести А/В тест, когда его провести невозможно?
1:18:49 - Можно ли и как правильно прерывать А/В тесты
1:24:28 - Как выбрать статистический критерий
1:28:24 - Ускорение принятия решений
1:32:11 - Работа с составными метриками на примере CTR
1:34:37 - Заключение

КОМЕНТАРІ • 59

@ivanorlov165 Рік тому ⁺⁴¹
Всем привет, это "Associate Data Analyst из Krisp Иван", спасибо Анатолию за чудесное интервью!
Несколько комментариев-уточнений/исправлений:
14:15 -- ошибся-заговорился: между 20 и 40 и 1000 и 2000 разница та же (корень из 2), просто для получения в первом случае пришлось добавить 20 измерений, а во втором -- 1000. Смысл в том, что при росте размера выборки нам приходится добавлять всё больше элементов для того же уменьшения дисперсии.
17:40 -- всё очень плохо, всё перепутал. Объяснение Анатолия гораздо лучше:
В выборочной дисперсии (n-1) -- из-за переоценки выборочной дисперсии, потому что минимизирует числитель (сумму квадратов разностей) именно выборочное среднее, а истинное от него отклоняется -> числитель для истинной дисперсии (считаемой от истинного среднего) будет больше -> в формуле выборочной дисперсии нужно сделать поправку, которая увеличит её, отсюда и "небольшое уменьшение" знаменателя.
48:40 -- ошибки в размышлениях есть, но с выправлениями Анатолия мы вышли к правильному выводу: вместо "мы ничего не можем сказать", "мы можем сказать, что мы либо с вероятностью альфа не нашли существующее различие, либо различие меньше установленного порога".
Ну и всем рекомендую посетить сайт krisp.ai (мне за это не платят, ну и ладно, хотя и жаль).
@user-gb5op3sc4i Рік тому
Слишком надменный ты. Неприятно слушать
@Constantine_Bones 11 місяців тому ⁺²
ты кайфовый чел, на харизме
@nx4tl Рік тому ⁺⁶⁵
Толя находит время, чтобы делать контент даже при такой красоте сзади
@karpovcourses Рік тому ⁺⁵⁷
Материалы, по которым соискатели готовились к собеседованию:
Обзор системы сплитования (на примере Авито): habr.com/p/454164/
Краткий обзор по статистическим тестам:
vkteam.medium.com/practitioners-guide-to-statistical-tests-ed2d580ef04f
Пуассоновский бутстрап:
ua-cam.com/video/Zki9VMzxcFU/v-deo.html
Подсчёт MDE:
medium.com/statistics-experiments/когда-останавливать-a-b-тест-часть-1-mde-7d39b668b488 (Часть 1)
medium.com/statistics-experiments/когда-останавливать-a-b-тест-часть-2-monte-carlo-a342ba5b552c (Часть 2)
Стратификация:
habr.com/ru/company/X5Tech/blog/596279/
Методы сокращения дисперсии и зачем это нужно: ua-cam.com/video/KvIJ8FCJzr4/v-deo.html
Увеличение чувствительности в A/B с помощью Cuped: ua-cam.com/video/pZpUM08mv-E/v-deo.html
Про FPR, TPR, Statistical power и p-value:
ua-cam.com/video/XTcP4oo4JI4/v-deo.html
ua-cam.com/video/-zps6hm0nX8/v-deo.html
ua-cam.com/video/2nP_gcut7SU/v-deo.html
Канал для подготовки к интервью в сфере Data Science: ua-cam.com/users/DataInterviewPro
Лекция Нерсеса Багияна про A/B-тесты: ua-cam.com/video/cWmS-ws4z9I/v-deo.html
Курс «Основы статистики»: stepik.org/course/76/syllabus
Курс «Основы статистики. Часть 2»: stepik.org/course/524/syllabus
Курс «Основы статистики. Часть 3»: stepik.org/course/2152/syllabus
@ilyin_sergey Рік тому ⁺¹
Анатолий (и коллеги), можете поделиться статьями о "проблемах" p-value, почему нельзя сломя голову бежать и ему верить?
@mlpython1089 Рік тому ⁺²
Спасибо парни за материал. Помог освежить знания и составить список пробелов.
@user-de6cj2rk3m Рік тому ⁺¹
Получил интелектуальное удовольствие от ролика. Спасибо.
@bogdanns2 Рік тому ⁺¹
классно, такие толковые ребята 👍
@irker8220 Рік тому ⁺²
Спасибо ведущему и собеседующего - очень много полезной информации. Отличный вариант, чтобы провериться себя.
Отличная получилась беседа. Выпуск огонь! :)
@elenagavrilova3109 3 місяці тому
Интересные беседы, вторая часть с АБ тестами особо понравилась, узнала новое.
@AlexxxeyS Рік тому ⁺¹⁴
Шикарная шевелюра. Контент тоже нормальный👍
@grievingdad5848 Рік тому ⁺³
Вставить комментарий для демонстрации благодарности Анатолию за контент
@gillan11 Рік тому ⁺¹
А какой подход обычно используют для множественного подглядывания в АБ? O’Brien-Fleming boundaries?
@w6K62XmiMjkYk Рік тому ⁺¹
а почему при расчете t в знаменателе дисперсия деленная на корень из n?) разве не ско деленное на корень из n?
@user-jd6uz5si2f Рік тому
Топ!
@T_i_m_T_i_m Рік тому ⁺¹
Почему когда говорите о se, говорите что наверху в формуле дисперсия? Там же стандартное отклонение.
@INX_1 10 місяців тому
Где найти его курсы на степике?
@ivan51141 Рік тому ⁺¹
Привет, Анатолий. Скажи пожалуйста, такой вопрос. Вот во втором интервью, вопрос был. Мол для ARPU какой тест финально выберешь ? И вы сошлись на бутстрапе и на пуасановском бутстрапе. Что нам мешает на достаточно больших выборках использовать z-test ? Статистика будет нормально распределена энивей - и бутстрап +- это же и покажет - давайте сразу использовать квантили нормального распределения?) Без бутстрапов.
@user-gm1mg8gg5m Рік тому ⁺¹
Наверное, все таки речь идет про t-test (т.к. z-test предполагает известную дисперсию), ARPU достаточно скошенное распределение и для действия ЦПТ потребуется сильно больше наблюдений, чем для других возможных распределений, отсюда скорее всего следует что мощность у бутстрапа будет получше (в случае если t-test вообще будет корректно работать на таком объеме), но в любом случае можно сравнить t-test/bootstrap на ваших данных посимулировав A/A тесты и A/B тесты (те же A/A с эффектом в одной группе) и посмотреть, является ли t-test корректным, если да, то какая у него мощность относительно bootstrap'а.
@ivan51141 Рік тому
z-test использует же цпт. И ему не нужно знать дисперсию. Цпт говорит что при достаточно большой выборке выборочное среднее будет иметь нормальное распределение с мат ожиданием распределения из которого ген совокупность и с дисперсией распределения ген совокупности, делённой на размер выборки. Дисперсию можно заменить на оценку - а именно на несмещенную выборочную дисперсию. А при больших n можно и просто на выборочную дисперсию. На практике большим n уже начинается с 1000 - 3000. Поэтому мне и интересно почему коллега из озона выбрал бутстрап.
@malanius90 Рік тому ⁺¹
Nice hair, awesome view
@ai-artistry-channel Рік тому ⁺²
Анатолий, а вы обратили внимание, что у вас на фоне бимодальное распределение)
@Anonymous_starrrr Рік тому ⁺¹
стоит ли идти глубже в аналитику и ds если ну очень не нравится статистика? с первого раза ниче не понятно. а формулы клонят в сон
или это у всех так? или наоборот есть какие то гении которые феноменально легко и быстро понимают и интерпретируют статистику?
@bogdanns2 Рік тому
есть конечно гении, но в целом это вопрос вашей текущей подготовки, вначале всегда сложно, а дальше, чем больше вы будете понимать от нового материала, тем интереснее вам будет. так во многих ведь. ну а в целом, если вас любые формулы повергают в скуку, то идти в данные я бы не рекомендовал
@oeaoo Рік тому
Еще варик - примирение с математикой. Фаза принятия.
@old_bedouin Рік тому
Анатолий, разберёте как-нибудь пуассоновский бутсреп на практике?
@user-gm1mg8gg5m Рік тому
В приложенных материалах есть.
Пуассоновский бутстрап:
ua-cam.com/video/Zki9VMzxcFU/v-deo.html
@clockfixer5049 Рік тому
@@user-gm1mg8gg5m Привет! А можешь, пожалуйста, отослать к материалу, где доказывается или ярко демонстрируется, почему t-test перестаёт корректно работать на ratio метриках. Я не очень пока понимаю, на каком этапе появляется зависимость наблюдений и какие конкретно изменения самой метрики (появление числителя и знаменателя) ведут к поломке t-test’а?
@user-gm1mg8gg5m Рік тому
@@clockfixer5049 т тест требует астмптотическую нормальность которая достигается за счёт цпт, а цпт требует независимость наблюдений, но вот подневная (ratio) будет сильно зависеть друг от друга
@user-hp3dp2sz2b Рік тому ⁺¹
👍🤗
@IvanFedkevich Рік тому ⁺²
А это предполагается как собес по статистике на позицию какого уровня?
Джун+/Мидл?
@karpovcourses Рік тому ⁺²
Первая часть джун, вторая мидл и выше.
@TheBeliever30 Рік тому ⁺³
Какой Иван хорошенький 😍
@antwithhook8975 Рік тому
Про n - 1. Подскажите, пожалуйста, правильно ли я понял. Мы вычитаем один для увеличения дисперсии, так как принимаем во внимание, что дисперсия нашей выборки может быть меньше, чем в генеральной совокупности, но больше быть не может чисто с логической точки зрения, за рамки не выйдешь. Поэтому мы даем "небольшую фору" в дисперсии для выборки.
@karpovcourses Рік тому
Все так!
@user-qt1sg8dr6c Рік тому
Анатолий, а как можно к Вам на интервью попасть?))
@karpovcourses Рік тому
А в каком предмете вы хотите себя попробовать?)
@user-qt1sg8dr6c Рік тому ⁺¹
@@karpovcourses С удовольствием бы попробовал себя в тервере, матстате, SQL, ну и задачки по pandas какие-нибудь(сейчас перечислил и понял, что в общем-то во всём стеке продуктового аналитика :) )
Так что по факту что угодно))
@user-kb8mr9vl2n Рік тому ⁺¹
Ой,блин,сколько ещё учить то надо,елки палки!/
Настроение упало после просмотра чуть)
@user-ho5ei2cu5q Рік тому ⁺¹
Сам курс платный?
@A_P___ Рік тому ⁺¹
не очень понимаю зачем мне наизусть знать формулы?)
@f0kes32 2 місяці тому
Подскажите книжку почитать, если коммент мой увидите.
@user-hp3dp2sz2b Рік тому ⁺³
Я надеюсь, этот список вопросов не для джуна?😱
@krislis6645 Рік тому ⁺¹
Сама в шоке сижу слушаю😀
@numaki2506 Рік тому
Не узнал Толю
@johnMilton14 Рік тому ⁺²
Из-за прически такое ощущение, что Анатолий Карпов ненастоящий ))
@2korzhik Рік тому ⁺²
По моему опыту, я месяц собеседовался дата аналитиком в разные компании и крупные и маленькие и то что на видео ни имеет НИЧЕГО ОБЩЕГО с реальностью.
Как оказалось статистика мало кого волнует. Больше инетресует понимаение продуктовых меткрик. Но самая мякотка в том что зарплаты у аналитиков сильно ниже любого зачуханного программиста.
@bricotel Рік тому
А что ещё спрашивают?
Хочу через полгода собеседоваться и мне очень интересно, в какую сторону крен делать.
@2korzhik Рік тому ⁺¹
@@bricotel знание питона, алгоритмы и структуры данных (хз зачем), SQL. Это на первом этапе. Только в двух местах был кодинг с pandas (джойны, группировки, выбросы, визуализация) и выбор стат критерия. А так везде на последнем этапе больше волнует знание воронки продуктовых метрик. Просят придумать метрики для новой фичи. Бред какой то
@2korzhik Рік тому
Тервер тоже только в одном месте был. Просили решить задачку
@bricotel Рік тому
@@2korzhik спасибо за ответ! В целом люди видят разницу между аналитиком данных и тем же продуктовым аналитиком?
Много собесов уже прошел?
@2korzhik Рік тому
@@bricotel мне кажется если и видят, то все равно хотят больше уклона в продуктовую аналитику. Чисто за дата аналитику похоже не готовы платить, либо все эти задачи уже решены, и остаётся только развивать продукт.
@user-cf1tn7cg2u Рік тому
Здравствуйте! Скажите ,пожалуйста, будет подобное видео, но на тему data engineer?
@karpovcourses Рік тому ⁺³
Думаю, сделаем!
@user-hk2hy8fy9g Рік тому
@@karpovcourses ждём! И сразу вопрос. В октябре не успеваю, а когда следующий набор обучения на инженеров?
@karpovcourses Рік тому
@@user-hk2hy8fy9g Стартуем каждый месяц :)

Наступне

Автоматичне відтворення

Собеседование на Senior аналитика данных | Валерий Бабушкин | karpov.courses