Семинар 1. Введение в машинное обучение.

Поділитися
Вставка
  • Опубліковано 25 гру 2024

КОМЕНТАРІ • 35

  • @Ca1vema
    @Ca1vema 10 місяців тому +10

    31:20
    Кто работает с новыми версиями pandas, нужно исправить код в ячейке на:
    data.corr(numeric_only=True).style.background_gradient(cmap='coolwarm').format(precision=2)
    Иначе получите ошибку.

  • @MikhailKatulin
    @MikhailKatulin 3 роки тому +46

    Мне кажется пропущенные значения лучше смотреть не через среднее а через сумму: `data.isna().sum()` - так сразу видно сколько значений кривых.
    Чтобы не выводило абракадабру после построения графиков, можно просто добавить в конце `;`

  • @nikpere1020
    @nikpere1020 4 роки тому +1

    процесс изучения всегда прям приятней когда используются реальные дата сеты ) спасибо

  • @lmao8338
    @lmao8338 4 роки тому +5

    Действительно отличный лектор. Спасибо.

  • @Irades
    @Irades Рік тому

    Большое спасибо, Григорий :)

  • @amipigeon
    @amipigeon 2 роки тому +6

    В GridSearchSV перепутали параметр: вместо error_score должен быть scoring. См. документацию GridSearchCV(...)

  • @it_ru
    @it_ru 3 роки тому +10

    Добавлю, что вместо None можно в конце последней строчки поставить точку с запятой

    • @ТётяСвета-б5х
      @ТётяСвета-б5х 9 місяців тому

      Спасибо, реально работает. Буду пользоваться.

  • @vova_vozniak
    @vova_vozniak 3 роки тому +4

    Вопрос к 1:10:08, разве не аргумент scoring отвечает за выбранную нами метрику в GridSearchCV? По такому примеру кода, как мы видим, GridSearchCV будет бежать с дефолтной метрикой для заданной модели (т.е. R^2 для KNeighborsRegressor) и всегда искать модель с максимумом метрики, которую мы передали, т.е. передавать метрику mean_squared_error нельзя, так как GridSearchCV вернет модель с максимумом для этой метрики, что вообщем-то неверно, поскольку mean_squered_error мы хотим минимизировать.

  • @ГлебГлебов-ф4с
    @ГлебГлебов-ф4с 4 роки тому +8

    Классно объясняете! Спасибо.

  • @MT-xb3ts
    @MT-xb3ts 3 роки тому +7

    "Джупа́йтер" должно коробить иностранных коллег, и говорит о некой изоляции от международного сообщества. /ˈdʒuːpɪtər/
    Больше спасибо за прекрасную лекцию!

    • @mikatshow3932
      @mikatshow3932 3 роки тому

      может это коламбур) как пайтон+джупитер=джупайтер)

    • @Олег-л4ф3е
      @Олег-л4ф3е 2 роки тому +1

      @@mikatshow3932 Нет, к сожалению. Я смотрел другие лекции на этом канале и в них тоже неверно произносились даже русские термины (примеры: в лекции numpy неверно называется numpy 2) в лекции "векторы" неверно называются векторы).

    • @AnarNasirov
      @AnarNasirov Рік тому

      Называешь юпитер или джупитер и все ок

  • @ГлебДильман-б8щ

    на 33 минуте, где лектор объясняет, что отрицательная и большая по модулю корреляция - это хорошо, достаточно сказать, что можно просто поменять знак у фичи и корреляция поменяет знак

  • @Torino-o2x
    @Torino-o2x Рік тому +1

    Григорий хороший лектор.

  • @bekhzodortikov421
    @bekhzodortikov421 Рік тому

    У меня gridsearch fit дает ошибку ValueError: error_score must be the string 'raise' or a numeric value. (Hint: if using 'raise', please make sure that it has been spelled correctly.). Как исправить?

  • @БелыйИноходец
    @БелыйИноходец 3 роки тому +1

    спасибо за урок и за лайфхаки с notebook'ом

  • @alexanderskusnov5119
    @alexanderskusnov5119 2 роки тому +1

    GridSearchCV выдаёт ошибку

  • @cvvs6419
    @cvvs6419 Рік тому +1

    Всё супер, но меня коробит один момент.
    Стандартизация (z-оценка) точно не приводит признак к нормальному распределению. Признак распределен либо нормально, либо нет изначально.

  • @livasan6529
    @livasan6529 3 роки тому +1

    39:05 n(n-1)/2

  • @eugene1965
    @eugene1965 3 роки тому +7

    По старинке ссылки больше не работают.
    Используйте:
    # Загрузим данные и посмотрим на небольшую часть
    url = 'drive.google.com/file/d/1c_MIKc6zm5lazzgbNMCSsim48Pde3A0c/view?usp=sharing' #ссылка на просмотр
    path = 'drive.google.com/uc?export=download&id='+url.split('/')[-2] #ссылка на скачивание
    data = pd.read_csv(path) #загружаем

  • @Anonymous00754
    @Anonymous00754 4 роки тому

    у меня вопросы! спасибо за лекцию молодец крут орёл!) 1й не понял после коррел графики как читать чето какая то фигня там или я просто не вникал особо или там так и есть фигня))?
    про новые признаки там это типо пца принципал компонент анал) и тому подобное для снижения размерности (такой подход может быть если да то подробнее в каких случаях и какие вобще сниж разм бывают и для чего? опыт применения и тд подробнее если можно)?

  • @Anonymous00754
    @Anonymous00754 4 роки тому

    а загнать в сигмоиду это масштабирование признаков?

  • @Олег-л5ю2п
    @Олег-л5ю2п Рік тому

    32:30

  • @mikatshow3932
    @mikatshow3932 3 роки тому +1

    R может быть меньше нуля. R squared НЕ может. оговорочка, кажется

  • @Anonymous00754
    @Anonymous00754 4 роки тому

    не люблю хэдом пользоваться срезает shape df а потом потерять что то легко просмотрев эту инфу...

  • @Anonymous00754
    @Anonymous00754 4 роки тому +1

    жаль про лес ничего(

    • @Anonymous00754
      @Anonymous00754 4 роки тому

      ну и логистику вобщем все сразу что бы и сравнить потом интересно было

  • @tedarcher9120
    @tedarcher9120 2 роки тому +3

    Жупайтер

    • @alexanderskusnov5119
      @alexanderskusnov5119 2 роки тому

      У молодых всегда так: Джава (Ява), Джамайка (Ямайка), Жупитер (Юпитер).
      Единственно, согласен с астрономом Сурдиным: Альфа Центавра -> Альфа [созвездия] Кентавра.

    • @tedarcher9120
      @tedarcher9120 2 роки тому +1

      @@alexanderskusnov5119 ну джава она хотя бы в английском джава, а что такое жупАйтер вообще хз. В английском есть ДжУпитер с ударением на первый слог и без всяких ай

    • @tedarcher9120
      @tedarcher9120 Рік тому

      @@aligatorpe ну тем более произносится как Джупитер а не джупайтер

  • @Ogilouk
    @Ogilouk 2 роки тому +3

    Как же бесит когда он тянет гласные.

  • @denfnc3025
    @denfnc3025 5 місяців тому

    Корреляцию очень удобно отслеживать с помощью seaborn
    sns.heatmap(df.corr())