ML System Design с Валерием Бабушкиным | Выпуск 3 | Собеседование | karpov.courses

karpov.courses

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 16 чер 2024
Ссылка на курс HARD ML: bit.ly/3AjE2ho
По промокоду SD10 вы получите скидку 10% на курс.
Последняя (но не по значимости!) часть серии собеседований ML Design System.
Герой нового выпуска не такой опытный, как предыдущие соискатели, но уже едет работать в Snapchat в Лондоне. На собеседовании он будет решать задачи матчинга, входящие в блок Игоря Котенкова.
Учитесь Data Science с нами: karpov.courses/
1:07:53 - прим. Игоря Котенкова:
Заметим единожды, но нижеописанный принцип пременим ко всем ML Design-собеседованиям.
Помимо прикидки объема данных полезно уточнить ожидаемое время работы пайплайна. Так, в первом видео серии ML System Design был рассмотрен вопрос выбора рекламных баннеров в ленте. Понятно, что суммарное время работы здесь измеряется 100-200 мс.
Пайплайн матчинга же, как следовало уточнить на этапе постановки задачи, обычно работает в оффлайне, и, к примеру, может запускаться раз в неделю (или раз в день).
На основе этого, а также понимания объема данных, можно выбирать класс моделей и отвечать на вопросы вроде: «Стоит ли тут использовать BERT или тяжелее TF-IDF ничего не пролезет?»
0:00 Введение и представление
6:53 Задание на матчинг
8:47 Ответ
12:10 Первый комментарий
17:20 Второй комментарий
20:45 Третий комментарий
25:49 Возвращение к истокам и новый подход к решению
31:31 Предположение о данных и процессе обучении модель
34:11 Описание сущности данных
39:22 Четвертый комментарий
41:12 Плюсы и минусы моделей обучения
46:51 Переход к метрикам
50:35 Пятый комментарий
57:03 Очень важный вопрос
1:01:31 Шестой комментарий

КОМЕНТАРІ • 36

@vladimirbazhin3883 2 роки тому ⁺⁵⁸
Этой ночью мне приснился первый за долгое время кошмарный сон. В нем я проходил такое же интервью с Валерием Бабушкиным и дико лажал. После часа мучений и позора Валерий дал мне перерыв, в который я использовал, чтобы яростно гуглить и опоздал на вторую часть на 5 минут. В результате Валерий не стал меня дожидаться, решив, что я слился, и сказал по этому поводу что-то пассивно-агрессивное. Потом я проснулся в холодном поту.
@ValeriiBabushkin 2 роки тому ⁺¹⁰
Придти на такое интервью дорого стоит, нужно много мужества
@vladimirbazhin3883 2 роки тому
@@ValeriiBabushkin бесспорно, но я не имел в виду конкретно этот выпуск, т.к. его еще не посмотрел. Вчера посмотрел только предыдущий выпуск из серии. После него почему-то такой сон приснился, хоть в том выпуске ничего страшного и не было.
@ShT0pR 2 роки тому ⁺²
@@ValeriiBabushkin прийти!)
@germansokolov4226 2 роки тому ⁺⁵
несколько мыслей:
1) в качестве офлайн метрики в первом приближении подошел бы подход максимизировать recall при заданном precision (99% например)
2) можно как-то попытаться перевести эту метрику в деньги, принимая во внимание тот факт, что у карточки моделей больше конверсия + происходит дедупликация на поисковой выдаче
3) все равно нужна нормальная разметка, теми же толокерами размечать пары модель-оффер выше какого-то порога (иначе будет оооочень много нулей)
4) те же энкодеры картинок-текста можно валидировать на разметке из п.3
5) все же для более нормальной модели нужно что-то серьезней кнн, например бустинг
6) можно было заметить, что для парсинга цен конкурентов действующая модель может быть неоптимальной, так как на других площадках могут быть другие требования к загрузке офферов от поставщиков
@mrtubeff 2 роки тому ⁺²⁴
Моя любимая рубрика. Спасибо Руслану, Стасу, Валере и Игорю за уникальный контент. Каждый выпуск узнаю что-то новое. Прекрасная реклама курсов и огромный вклад для русской аудитории в сфере мл
Вопрос оргам. Планируются ли собесы на дата инженера?
@karpovcourses 2 роки тому ⁺²
Планируем)!
@vildanhuseynov6492 2 роки тому ⁺⁹
отличная рубрика. желаю удачи и побольше таких выпусков!
@iambusybox Рік тому
Валера очень крут! Элементы гениальности присутствуют.
@user-pg6rw1ci1z 2 роки тому
Руслан молодец! Желаю тебе успехов!
@aleksandra3184 2 роки тому ⁺¹
Когда на первом интервью понял все, на втором почти все, а на третьем что пора сделать чаек))
@VakaramGolang 2 роки тому ⁺⁷
Ну лучше уж приглашать людей которые понимают тему собеседование. Но и таким видео рады. Спасибо.
@ValeriiBabushkin 2 роки тому ⁺¹
У Руслана была задача поучиться - он поучился. Кандидаты были разные и собеседования получились разные
@VakaramGolang 2 роки тому ⁺¹
@@ValeriiBabushkin понял спасибо. Вы отличный интервьюер.
@ValeriiBabushkin 2 роки тому ⁺¹
@@VakaramGolang Спасибо!
@Andrew-pn8zx 2 роки тому ⁺²
Игорь просто машина машинного убечения, как бы это плохо ни звучало.
@IgorKuts 11 місяців тому
Эээ, так, чё, короче, это, ну окей, как-бы типа посмотрел это интервью. Понравилось. Пойду следующее посмотрю.
@ikspb 2 роки тому ⁺⁷
Было бы интересно глянуть, как сам Валера Бабушкин проходит подобное интервью
@ValeriiBabushkin 2 роки тому ⁺⁶
Согласен, но свои интервью такого рода и на английском я уже прошел, когда собеседовался в фейсбук
@fskoxakn 2 роки тому ⁺¹
хорошее видео, хоть я и новичок, но немножко понял
@fskoxakn 2 роки тому ⁺¹
@@ValeriiBabushkin выкладывай видео на свой канал, на 1000000% я уверен, что он взлетит
@mwave3388 2 роки тому ⁺²
Решение задачи закончилось на переписывании "дано".
@anatolyalekseev101 2 роки тому ⁺⁵
"Обсудим возможность существования неограниченного множества оферов на послеобеденной тренировке по борьбе" )) Если честно, я до ~45й минуты не понимал, чему собираются обучаться. Потом понял, что это вроде бы бинарная классификация, относится ли офер к заданному sku или нет. Я как-то изначально думал о модели, являются ли 2 оффера одним и тем же sku.И последующем итеративном применении ее к кластеризованным оферам. Еще из своего скромного опыта, интересной фичОй может быть не только картинка продукта, но и OCR картинки продукта, ибо продавцы часто туда зашивают текстовую инфу, которой может не быть в текстовом описании и наименовании.
@ValeriiBabushkin 2 роки тому
Да, такие фичи взлетают. В матчинге нужно делать каскад моделей - фильтровать кандидатов, так как изначально их десятки милионов
@anatolyalekseev101 2 роки тому ⁺²
@@ValeriiBabushkin Да, хорошо фильтровать ближайшими соседями, наверное, как предложил Руслан. Опять же, есть смутные сомнения, что можно так просто сконкатить вектора от данных разной природы (текстов, цен и картинок) в вектор бОльшей размерности... Хотя наверняка есть какая-то строго доказанная теорема, что можно )
@dieff_automation 2 роки тому
у вас какое то творчество больше - очень творческая работа получается... у нас проще работа заключается в том чтобы успеть разгрузить фуру пока не подьедет новая фура, вся суть автоматизации тестирования. У вас реально какое то творчество.
@blackbigdeath 9 місяців тому
как это можно было бы сделать относительно просто и на коленке. берём в начале делаем эмбэдинги с картинок куском сети резнета или VGG или там что-нибудь такое, потом вот эти вот отдельные параметры допустим название товара там, характеристики, просто вычисляем расстояние Левенштейна между там парами товаров. Итоге мы получаем два вектора: один это картинки вот а второй вектор расстояний Левенштейна, ранжируем и получаем паровоз товаров, который расположен в порядке там убывания похожести на наш. Если сделать порог, то часть товаров будет попадать в категорию с нашим- матчится, часть будет отсекаться.
@Igor-sp7tw 2 роки тому ⁺²
До сих пор не знаю что такое симпл димпл
@gryshakov 2 роки тому ⁺¹
Это такая модель ML.
@SuddenW1nd Рік тому
Я запутался: что он имеет в виду под моделью?
@user-hz5pj6et7f 2 роки тому ⁺⁴
А где колаб с мастерклассом? Хотя бы примерно поглядеть бы как эту задачу решили вы сами. :)
@Igor-sp7tw 2 роки тому ⁺¹
Хороший дуэт, мне кажется Валере нужно хантить
@ValeriiBabushkin 2 роки тому
Активно этим занимался работая в Х5
@xaik1989 2 роки тому ⁺²
А он в Снап попал на какой левел?
Просто слабая структуризация проблемы в голове ( так-то там года 2 опыта было всего у него?)
@bananasba Рік тому
Походу это профдеформация, условие поставлено плохо и куча времени (считай все) потрачена напрасно, более того, еще и идет обсуждение, мол, что-то там не спросил или не предположил...
@NoobProArt 2 роки тому ⁺⁴
А парень то не прошел...

Наступне

Автоматичне відтворення

ML System Design с Валерием Бабушкиным | Выпуск 2 | Собеседование | karpov.courses