31:20 Кто работает с новыми версиями pandas, нужно исправить код в ячейке на: data.corr(numeric_only=True).style.background_gradient(cmap='coolwarm').format(precision=2) Иначе получите ошибку.
Мне кажется пропущенные значения лучше смотреть не через среднее а через сумму: `data.isna().sum()` - так сразу видно сколько значений кривых. Чтобы не выводило абракадабру после построения графиков, можно просто добавить в конце `;`
Вопрос к 1:10:08, разве не аргумент scoring отвечает за выбранную нами метрику в GridSearchCV? По такому примеру кода, как мы видим, GridSearchCV будет бежать с дефолтной метрикой для заданной модели (т.е. R^2 для KNeighborsRegressor) и всегда искать модель с максимумом метрики, которую мы передали, т.е. передавать метрику mean_squared_error нельзя, так как GridSearchCV вернет модель с максимумом для этой метрики, что вообщем-то неверно, поскольку mean_squered_error мы хотим минимизировать.
"Джупа́йтер" должно коробить иностранных коллег, и говорит о некой изоляции от международного сообщества. /ˈdʒuːpɪtər/ Больше спасибо за прекрасную лекцию!
@@mikatshow3932 Нет, к сожалению. Я смотрел другие лекции на этом канале и в них тоже неверно произносились даже русские термины (примеры: в лекции numpy неверно называется numpy 2) в лекции "векторы" неверно называются векторы).
на 33 минуте, где лектор объясняет, что отрицательная и большая по модулю корреляция - это хорошо, достаточно сказать, что можно просто поменять знак у фичи и корреляция поменяет знак
У меня gridsearch fit дает ошибку ValueError: error_score must be the string 'raise' or a numeric value. (Hint: if using 'raise', please make sure that it has been spelled correctly.). Как исправить?
Всё супер, но меня коробит один момент. Стандартизация (z-оценка) точно не приводит признак к нормальному распределению. Признак распределен либо нормально, либо нет изначально.
По старинке ссылки больше не работают. Используйте: # Загрузим данные и посмотрим на небольшую часть url = 'drive.google.com/file/d/1c_MIKc6zm5lazzgbNMCSsim48Pde3A0c/view?usp=sharing' #ссылка на просмотр path = 'drive.google.com/uc?export=download&id='+url.split('/')[-2] #ссылка на скачивание data = pd.read_csv(path) #загружаем
у меня вопросы! спасибо за лекцию молодец крут орёл!) 1й не понял после коррел графики как читать чето какая то фигня там или я просто не вникал особо или там так и есть фигня))? про новые признаки там это типо пца принципал компонент анал) и тому подобное для снижения размерности (такой подход может быть если да то подробнее в каких случаях и какие вобще сниж разм бывают и для чего? опыт применения и тд подробнее если можно)?
@@alexanderskusnov5119 ну джава она хотя бы в английском джава, а что такое жупАйтер вообще хз. В английском есть ДжУпитер с ударением на первый слог и без всяких ай
31:20
Кто работает с новыми версиями pandas, нужно исправить код в ячейке на:
data.corr(numeric_only=True).style.background_gradient(cmap='coolwarm').format(precision=2)
Иначе получите ошибку.
Мне кажется пропущенные значения лучше смотреть не через среднее а через сумму: `data.isna().sum()` - так сразу видно сколько значений кривых.
Чтобы не выводило абракадабру после построения графиков, можно просто добавить в конце `;`
процесс изучения всегда прям приятней когда используются реальные дата сеты ) спасибо
Действительно отличный лектор. Спасибо.
Большое спасибо, Григорий :)
В GridSearchSV перепутали параметр: вместо error_score должен быть scoring. См. документацию GridSearchCV(...)
Добавлю, что вместо None можно в конце последней строчки поставить точку с запятой
Спасибо, реально работает. Буду пользоваться.
Вопрос к 1:10:08, разве не аргумент scoring отвечает за выбранную нами метрику в GridSearchCV? По такому примеру кода, как мы видим, GridSearchCV будет бежать с дефолтной метрикой для заданной модели (т.е. R^2 для KNeighborsRegressor) и всегда искать модель с максимумом метрики, которую мы передали, т.е. передавать метрику mean_squared_error нельзя, так как GridSearchCV вернет модель с максимумом для этой метрики, что вообщем-то неверно, поскольку mean_squered_error мы хотим минимизировать.
Классно объясняете! Спасибо.
"Джупа́йтер" должно коробить иностранных коллег, и говорит о некой изоляции от международного сообщества. /ˈdʒuːpɪtər/
Больше спасибо за прекрасную лекцию!
может это коламбур) как пайтон+джупитер=джупайтер)
@@mikatshow3932 Нет, к сожалению. Я смотрел другие лекции на этом канале и в них тоже неверно произносились даже русские термины (примеры: в лекции numpy неверно называется numpy 2) в лекции "векторы" неверно называются векторы).
Называешь юпитер или джупитер и все ок
на 33 минуте, где лектор объясняет, что отрицательная и большая по модулю корреляция - это хорошо, достаточно сказать, что можно просто поменять знак у фичи и корреляция поменяет знак
Григорий хороший лектор.
У меня gridsearch fit дает ошибку ValueError: error_score must be the string 'raise' or a numeric value. (Hint: if using 'raise', please make sure that it has been spelled correctly.). Как исправить?
спасибо за урок и за лайфхаки с notebook'ом
GridSearchCV выдаёт ошибку
Всё супер, но меня коробит один момент.
Стандартизация (z-оценка) точно не приводит признак к нормальному распределению. Признак распределен либо нормально, либо нет изначально.
39:05 n(n-1)/2
По старинке ссылки больше не работают.
Используйте:
# Загрузим данные и посмотрим на небольшую часть
url = 'drive.google.com/file/d/1c_MIKc6zm5lazzgbNMCSsim48Pde3A0c/view?usp=sharing' #ссылка на просмотр
path = 'drive.google.com/uc?export=download&id='+url.split('/')[-2] #ссылка на скачивание
data = pd.read_csv(path) #загружаем
у меня вопросы! спасибо за лекцию молодец крут орёл!) 1й не понял после коррел графики как читать чето какая то фигня там или я просто не вникал особо или там так и есть фигня))?
про новые признаки там это типо пца принципал компонент анал) и тому подобное для снижения размерности (такой подход может быть если да то подробнее в каких случаях и какие вобще сниж разм бывают и для чего? опыт применения и тд подробнее если можно)?
а загнать в сигмоиду это масштабирование признаков?
32:30
R может быть меньше нуля. R squared НЕ может. оговорочка, кажется
не люблю хэдом пользоваться срезает shape df а потом потерять что то легко просмотрев эту инфу...
жаль про лес ничего(
ну и логистику вобщем все сразу что бы и сравнить потом интересно было
Жупайтер
У молодых всегда так: Джава (Ява), Джамайка (Ямайка), Жупитер (Юпитер).
Единственно, согласен с астрономом Сурдиным: Альфа Центавра -> Альфа [созвездия] Кентавра.
@@alexanderskusnov5119 ну джава она хотя бы в английском джава, а что такое жупАйтер вообще хз. В английском есть ДжУпитер с ударением на первый слог и без всяких ай
@@aligatorpe ну тем более произносится как Джупитер а не джупайтер
Как же бесит когда он тянет гласные.
Корреляцию очень удобно отслеживать с помощью seaborn
sns.heatmap(df.corr())