ML System Design с Валерием Бабушкиным | Выпуск 3 | Собеседование | karpov.courses

Поділитися
Вставка
  • Опубліковано 16 чер 2024
  • Ссылка на курс HARD ML: bit.ly/3AjE2ho
    По промокоду SD10 вы получите скидку 10% на курс.
    Последняя (но не по значимости!) часть серии собеседований ML Design System.
    Герой нового выпуска не такой опытный, как предыдущие соискатели, но уже едет работать в Snapchat в Лондоне. На собеседовании он будет решать задачи матчинга, входящие в блок Игоря Котенкова.
    Учитесь Data Science с нами: karpov.courses/
    1:07:53 - прим. Игоря Котенкова:
    Заметим единожды, но нижеописанный принцип пременим ко всем ML Design-собеседованиям.
    Помимо прикидки объема данных полезно уточнить ожидаемое время работы пайплайна. Так, в первом видео серии ML System Design был рассмотрен вопрос выбора рекламных баннеров в ленте. Понятно, что суммарное время работы здесь измеряется 100-200 мс.
    Пайплайн матчинга же, как следовало уточнить на этапе постановки задачи, обычно работает в оффлайне, и, к примеру, может запускаться раз в неделю (или раз в день).
    На основе этого, а также понимания объема данных, можно выбирать класс моделей и отвечать на вопросы вроде: «Стоит ли тут использовать BERT или тяжелее TF-IDF ничего не пролезет?»
    0:00 Введение и представление
    6:53 Задание на матчинг
    8:47 Ответ
    12:10 Первый комментарий
    17:20 Второй комментарий
    20:45 Третий комментарий
    25:49 Возвращение к истокам и новый подход к решению
    31:31 Предположение о данных и процессе обучении модель
    34:11 Описание сущности данных
    39:22 Четвертый комментарий
    41:12 Плюсы и минусы моделей обучения
    46:51 Переход к метрикам
    50:35 Пятый комментарий
    57:03 Очень важный вопрос
    1:01:31 Шестой комментарий

КОМЕНТАРІ • 36

  • @vladimirbazhin3883
    @vladimirbazhin3883 2 роки тому +58

    Этой ночью мне приснился первый за долгое время кошмарный сон. В нем я проходил такое же интервью с Валерием Бабушкиным и дико лажал. После часа мучений и позора Валерий дал мне перерыв, в который я использовал, чтобы яростно гуглить и опоздал на вторую часть на 5 минут. В результате Валерий не стал меня дожидаться, решив, что я слился, и сказал по этому поводу что-то пассивно-агрессивное. Потом я проснулся в холодном поту.

    • @ValeriiBabushkin
      @ValeriiBabushkin 2 роки тому +10

      Придти на такое интервью дорого стоит, нужно много мужества

    • @vladimirbazhin3883
      @vladimirbazhin3883 2 роки тому

      @@ValeriiBabushkin бесспорно, но я не имел в виду конкретно этот выпуск, т.к. его еще не посмотрел. Вчера посмотрел только предыдущий выпуск из серии. После него почему-то такой сон приснился, хоть в том выпуске ничего страшного и не было.

    • @ShT0pR
      @ShT0pR 2 роки тому +2

      @@ValeriiBabushkin прийти!)

  • @germansokolov4226
    @germansokolov4226 2 роки тому +5

    несколько мыслей:
    1) в качестве офлайн метрики в первом приближении подошел бы подход максимизировать recall при заданном precision (99% например)
    2) можно как-то попытаться перевести эту метрику в деньги, принимая во внимание тот факт, что у карточки моделей больше конверсия + происходит дедупликация на поисковой выдаче
    3) все равно нужна нормальная разметка, теми же толокерами размечать пары модель-оффер выше какого-то порога (иначе будет оооочень много нулей)
    4) те же энкодеры картинок-текста можно валидировать на разметке из п.3
    5) все же для более нормальной модели нужно что-то серьезней кнн, например бустинг
    6) можно было заметить, что для парсинга цен конкурентов действующая модель может быть неоптимальной, так как на других площадках могут быть другие требования к загрузке офферов от поставщиков

  • @mrtubeff
    @mrtubeff 2 роки тому +24

    Моя любимая рубрика. Спасибо Руслану, Стасу, Валере и Игорю за уникальный контент. Каждый выпуск узнаю что-то новое. Прекрасная реклама курсов и огромный вклад для русской аудитории в сфере мл
    Вопрос оргам. Планируются ли собесы на дата инженера?

  • @vildanhuseynov6492
    @vildanhuseynov6492 2 роки тому +9

    отличная рубрика. желаю удачи и побольше таких выпусков!

  • @iambusybox
    @iambusybox Рік тому

    Валера очень крут! Элементы гениальности присутствуют.

  • @user-pg6rw1ci1z
    @user-pg6rw1ci1z 2 роки тому

    Руслан молодец! Желаю тебе успехов!

  • @aleksandra3184
    @aleksandra3184 2 роки тому +1

    Когда на первом интервью понял все, на втором почти все, а на третьем что пора сделать чаек))

  • @VakaramGolang
    @VakaramGolang 2 роки тому +7

    Ну лучше уж приглашать людей которые понимают тему собеседование. Но и таким видео рады. Спасибо.

    • @ValeriiBabushkin
      @ValeriiBabushkin 2 роки тому +1

      У Руслана была задача поучиться - он поучился. Кандидаты были разные и собеседования получились разные

    • @VakaramGolang
      @VakaramGolang 2 роки тому +1

      @@ValeriiBabushkin понял спасибо. Вы отличный интервьюер.

    • @ValeriiBabushkin
      @ValeriiBabushkin 2 роки тому +1

      @@VakaramGolang Спасибо!

  • @Andrew-pn8zx
    @Andrew-pn8zx 2 роки тому +2

    Игорь просто машина машинного убечения, как бы это плохо ни звучало.

  • @IgorKuts
    @IgorKuts 11 місяців тому

    Эээ, так, чё, короче, это, ну окей, как-бы типа посмотрел это интервью. Понравилось. Пойду следующее посмотрю.

  • @ikspb
    @ikspb 2 роки тому +7

    Было бы интересно глянуть, как сам Валера Бабушкин проходит подобное интервью

    • @ValeriiBabushkin
      @ValeriiBabushkin 2 роки тому +6

      Согласен, но свои интервью такого рода и на английском я уже прошел, когда собеседовался в фейсбук

    • @fskoxakn
      @fskoxakn 2 роки тому +1

      хорошее видео, хоть я и новичок, но немножко понял

    • @fskoxakn
      @fskoxakn 2 роки тому +1

      @@ValeriiBabushkin выкладывай видео на свой канал, на 1000000% я уверен, что он взлетит

  • @mwave3388
    @mwave3388 2 роки тому +2

    Решение задачи закончилось на переписывании "дано".

  • @anatolyalekseev101
    @anatolyalekseev101 2 роки тому +5

    "Обсудим возможность существования неограниченного множества оферов на послеобеденной тренировке по борьбе" )) Если честно, я до ~45й минуты не понимал, чему собираются обучаться. Потом понял, что это вроде бы бинарная классификация, относится ли офер к заданному sku или нет. Я как-то изначально думал о модели, являются ли 2 оффера одним и тем же sku.И последующем итеративном применении ее к кластеризованным оферам. Еще из своего скромного опыта, интересной фичОй может быть не только картинка продукта, но и OCR картинки продукта, ибо продавцы часто туда зашивают текстовую инфу, которой может не быть в текстовом описании и наименовании.

    • @ValeriiBabushkin
      @ValeriiBabushkin 2 роки тому

      Да, такие фичи взлетают. В матчинге нужно делать каскад моделей - фильтровать кандидатов, так как изначально их десятки милионов

    • @anatolyalekseev101
      @anatolyalekseev101 2 роки тому +2

      @@ValeriiBabushkin Да, хорошо фильтровать ближайшими соседями, наверное, как предложил Руслан. Опять же, есть смутные сомнения, что можно так просто сконкатить вектора от данных разной природы (текстов, цен и картинок) в вектор бОльшей размерности... Хотя наверняка есть какая-то строго доказанная теорема, что можно )

  • @dieff_automation
    @dieff_automation 2 роки тому

    у вас какое то творчество больше - очень творческая работа получается... у нас проще работа заключается в том чтобы успеть разгрузить фуру пока не подьедет новая фура, вся суть автоматизации тестирования. У вас реально какое то творчество.

  • @blackbigdeath
    @blackbigdeath 9 місяців тому

    как это можно было бы сделать относительно просто и на коленке. берём в начале делаем эмбэдинги с картинок куском сети резнета или VGG или там что-нибудь такое, потом вот эти вот отдельные параметры допустим название товара там, характеристики, просто вычисляем расстояние Левенштейна между там парами товаров. Итоге мы получаем два вектора: один это картинки вот а второй вектор расстояний Левенштейна, ранжируем и получаем паровоз товаров, который расположен в порядке там убывания похожести на наш. Если сделать порог, то часть товаров будет попадать в категорию с нашим- матчится, часть будет отсекаться.

  • @Igor-sp7tw
    @Igor-sp7tw 2 роки тому +2

    До сих пор не знаю что такое симпл димпл

    • @gryshakov
      @gryshakov 2 роки тому +1

      Это такая модель ML.

  • @SuddenW1nd
    @SuddenW1nd Рік тому

    Я запутался: что он имеет в виду под моделью?

  • @user-hz5pj6et7f
    @user-hz5pj6et7f 2 роки тому +4

    А где колаб с мастерклассом? Хотя бы примерно поглядеть бы как эту задачу решили вы сами. :)

  • @Igor-sp7tw
    @Igor-sp7tw 2 роки тому +1

    Хороший дуэт, мне кажется Валере нужно хантить

    • @ValeriiBabushkin
      @ValeriiBabushkin 2 роки тому

      Активно этим занимался работая в Х5

  • @xaik1989
    @xaik1989 2 роки тому +2

    А он в Снап попал на какой левел?
    Просто слабая структуризация проблемы в голове ( так-то там года 2 опыта было всего у него?)

  • @bananasba
    @bananasba Рік тому

    Походу это профдеформация, условие поставлено плохо и куча времени (считай все) потрачена напрасно, более того, еще и идет обсуждение, мол, что-то там не спросил или не предположил...

  • @NoobProArt
    @NoobProArt 2 роки тому +4

    А парень то не прошел...