Полный Пайплайн (Pipeline) || Машинное Обучение

Поділитися
Вставка
  • Опубліковано 1 бер 2022
  • Войти в IT: Вся Необходимая База. 3 Уровня Объяснения Материала
    stepik.org/a/196646/pay?promo... Если не можешь напрямую покупать со Stepik, заказывай отсюда:
    avecoders.github.io/ave-coder... Введение в Искусственный Интеллект с Python для Начинающих: stepik.org/a/193579/pay?promo... Введение в Искусственный Интеллект с Python для Начинающих: stepik.org/a/193579/pay?promo... Курс: "Поколение Трансформеров": Нейросети для Естественного Языка (NLP)
    Вне Свифта (Россия, Беларусь): stepik.org/a/175490
    Свифт (Все остальные): avecademy.teachable.com/p/01596f
    Практический Курс по Python:
    Stepik: stepik.org/a/126242
    Udemy: www.udemy.com/course/avecoder...
    Аве Кодер!
    Пришло время использовать весь арсенал полученных знаний и построить пайплайн (pipeline) целиком. Мы подгрузим данные, почистим их, разделим на тренировочный, валидационный и тестовый наборы, сохраним их для дальнейшего использования, а затем возьмем модель Случайного Леса (Random Forest) и проведем к-кратную перекрестную валидацию (k-fold cross-validation) на тренировочном наборе, затем используя GridSearchCV мы выберем три набора гиперпараметров показавших лучший результат. Далее, мы испытаем три модели с выбранными гиперпараметрами на валидационном наборе и используя метрики accuracy, precision, recall мы отберем модель с лучшими показателями. И в финале - прогонем ее на тестовом наборе, чтобы получить окончательные результаты.
    Код (GoogleCollab): colab.research.google.com/dri...
    Разведочный анализ данных: • Разведочный Анализ Дан...
    Категориальные признаки: • КАТЕГОРИАЛЬНЫЕ ПРИЗНАК...
    Метрики и Кросс-Валидация: • Разделение Данных и Ме...
    Переобучение, Недообучение: • Необходимая Теория (Ча...
    Гиперпараметры, Регуляризация: • Необходимая Теория (Ча...
    #авекодер #машинноеобучение #datascience
    Telegram: t.me/avecoder_ru
    VK: avecoder
    Instagram: / avemundi
    Поддержи проект:
    www.donationalerts.com/r/avec...
    paypal.me/avecoder
    / avecoder
    BTC: 1BmLvUFiJaVpCAwhzW3ZwKzMGWoQRfxsn4
    ETH: 0x6f1A488c9b12E782AEF74634a40A79b1631237aB
    История Технологий:
    / АвеТех
    ______________________
    Аве Кодер!
    Меня зовут V и я магистр Искусственного Интеллекта из Великобритании. Здесь на канале ты найдешь только качественные туториалы, подкасты, советы и все такое прочее, а на соседнем канале Аве Тех, есть еще и истории из мира технологий, путешествия по интересным местам и интервью с специалистами из разных тех областей.
    Так что ставь императорский палец вверх, подписывайся и бей в колокол!
  • Наука та технологія

КОМЕНТАРІ • 32

  • @avecoder
    @avecoder  Рік тому +1

    Практический Курс по Python:
    Stepik: stepik.org/a/126242
    Udemy: www.udemy.com/course/avecoder-advanced-python/?referralCode=270C5D0661A966B53743

  • @rr1k
    @rr1k 8 місяців тому +2

    понятно и очень наглядно, спасибо. и шутейки между строк очень ок))

  • @stroganova_irina
    @stroganova_irina 3 місяці тому +1

    спасибо! объясняете доступным языком, это помогает лучше понять тему

  • @parvizyuldashev4668
    @parvizyuldashev4668 Рік тому +1

    Наконец-то нормальный видос о пайплайне. 10 из 10

  • @user-hh7rb2xm1x
    @user-hh7rb2xm1x 2 роки тому +1

    Ты красавец. У тебя стальные нервы. Аве кодер.

  • @farid5347
    @farid5347 2 роки тому +1

    Огромное спасибо! понятно, доступно и просто замечательно.

  • @muskat9012
    @muskat9012 6 місяців тому +1

    Круто! Скажите пожалуйста если не секрет, картинки в на аватаре в видео чем создавали? Искусственным интеллектом?

  • @sergeyly5438
    @sergeyly5438 Рік тому +1

    Жаль раньше не смотрел, великолепный видос

  • @zoompartyru
    @zoompartyru Рік тому +1

    Спасибо, Отличный материал!

  • @ivan_inanych
    @ivan_inanych 2 роки тому +1

    Спасибо, очень доступно

  • @ambassadornox1919
    @ambassadornox1919 2 роки тому +2

    Спасибо ВАМ огромное!!! Я прохожу курс по машинному обучению и у нас такой же датасет Титаник и сделали мы как попало, потом нам дали решение, такие вещи как inplace и все такое - ничего не объясняют. Курсы прохожу онлайн в Германии. Очень нравится эта отрасль и хочу в этом развиваться и работать, но когда курс интенсивный и сто вопросы остаются неотвечаны, то недовольно чувствуешь себя дураком. Спасибо ещё раз, и пожалуйста продолжайте делать видео. Я ещё не добралась до гиперпараметров и их изменений, но хотелось это тоже узнать детально

    • @andreika6681
      @andreika6681 Рік тому

      на буткампах лучше такие вещи изучать а не на мооках. wagon в берлине есть, у них отлично сделан вводный курс data science (я прошел и всё что дядя здесь рассказывает у них разбирается в деталях и на практ работах тебе железно вбивается в голову, методы мл даже даются ~ в 3 раза шире) . и в принципе wagon не дорог (или вообще задарма если без работы оказался, государство заплатит).

  • @user-pu2xj7tj8i
    @user-pu2xj7tj8i 2 роки тому

    спасибо тебе. А можешь посоветовать курсы какие на степике или на курсеэре для тех, кто уже знает основы и хочет посмотреть разные направления ( nlp , зрения и т.п)

    • @avecoder
      @avecoder  2 роки тому +2

      Посмотри у Стенфорда есть свой канал с отличными лекциями по этим темам, еще MIT по автопилотам, практика, и у opencv (зрение) и nltk есть свои туториалы в открытом доступе по основам. У меня будет серия практических курсов по теме, но пока неясно с платформой.

  • @user-nh2no3sf8x
    @user-nh2no3sf8x Рік тому +1

    Аве Кодер!

  • @farid5347
    @farid5347 2 роки тому

    Помимо RandomForestClassifier() в будущих видео будут рассмотрены другие алгоритмы на примере датасета титаника?

  • @user-kq9cs6lm8c
    @user-kq9cs6lm8c 2 роки тому

    Спасибо! а будут видео о выводе моделей в продакшн?

    • @avecoder
      @avecoder  2 роки тому

      Да, мы постепенно двигаемся в эту сторону - подготовку AI приложений и сервисов.

  • @osvab000
    @osvab000 Рік тому

    Как всегда лайкос! У меня вопрос: почему все-таки на тесте результаты получились ниже - чем на валидации& Ведь по сути, что те , что другие были взяты из сплита, а именно из X_test, y_test

    • @avecoder
      @avecoder  Рік тому

      Именно. Это данные, которые наша модель ещё не видела. Возможно, что выборка в валидационном сете была лучше классифицирована, чем в тестовом. Попробуй перезапустить эксперимент с нуля и посмотреть результаты.

  • @user-yd3ds7jp6e
    @user-yd3ds7jp6e Рік тому

    Эх, а я думала тут прям пайплайн собираться будет. С преобразователями и прочими приколюхами
    Еще мне странно наблюдать использование format(). Разве использование f-строки не будет более читаемым, когда все нужные переменные в нужном месте, а не после списком перечислены?
    Но это так, душню
    Для новичков видос самое то, 10 из 10

  • @alexanderez6115
    @alexanderez6115 2 роки тому

    скажи пожалуйста, почему ты пол закодировал как 0 и 1, а не использовал one hot encoder?

    • @avecoder
      @avecoder  2 роки тому

      ибо у нас всего два категориальных значения. Зачем фигачить вектор там, где можно обойтись скаляром? Если бы полов было скажем 7, то это оправдывало бы использование, ибо использование порядковых числительных не есть гуд, когда у нас нет категориальной связи между значениями.

    • @alexanderez6115
      @alexanderez6115 2 роки тому

      @@avecoder а алгоритм может подумать, что 1 лучше чем 0, потому что больше?

    • @andreika6681
      @andreika6681 Рік тому

      если тебе вдруг жутко опостылила возня с фичами ты конечно можешь просто зафигачить ohe на всех catеgorical в columntransformer-е и хай pipe ишачит, ну тут разбор задачи для чайников и им полезно показать как всё ручками прописыватся

  • @ghebodne2644
    @ghebodne2644 2 роки тому +1

    Аве V

  • @mpakoc4722
    @mpakoc4722 Рік тому

    Accuracy вроде как "качество".

  • @vladimirmanikhin7918
    @vladimirmanikhin7918 Рік тому

    А вот зря Name дропнули. Видел статью, где визуализировали корреляцию между выживаемостью и длиной букоф в имени на данном датасете. 1) Сам не проверял =D и 2) Первое, что приходит на ум, скорее всего объясняется большим количеством букоф в женских Неймах, т.е. та же коллинеарность с, извинити, сексом (mrs вместо mr как минимум уже по-дефолту нам даёт +1)

    • @avecoder
      @avecoder  Рік тому +3

      Я тоже видел такую теорию, что мол людям более высокого происхождения давали более длинные имена, но а) это всего лишь теория и даже если есть корреляция, то это скорее побочка (то есть корабль Салтыковых-Щедринов и Маминых-Сибиряков должен быть просто непотопляем) б) иностранные имена могут быть априори длинней в) датасет не учитывает вообще команду, предполагая, что она утонула вся, как и скорость с которой команда оказывала эвакуацию (у меня есть второй канал Аве Тех, где я специально поехал в Саутгемптон, чтоб отыскать некоторые могилы затонувших и сравнить с датасетом, там много сюрпризов. Крч сам датасет настолько кукольный, что не учитывает ещё множество немаловажных факторов и уж имя последний из них.

    • @vladimirmanikhin7918
      @vladimirmanikhin7918 Рік тому

      @@avecoder благодарю за пояснения !

  • @naradamyan1678
    @naradamyan1678 Рік тому +1

    в следующий раз когда меня спросят чем я занимаюсь я гордо отвечу
    Бинарный секс
    12:25