Анализ данных в Pandas | Вебинар Анатолия Карпова | karpov.courses

karpov.courses

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 12 сер 2020
Курс «Аналитик данных»: bit.ly/3NApIIY
Мы продолжаем наши открытые вебинары для всех, кто интересуется анализом данных! В этот раз сделаем акцент на инструментах и поговорим о библиотеке Pandas. Будет полезно и тем, кто только начинает знакомиться с питоном, и более опытным пользователям, так как разберем различные продвинутые и необычные приемы и лайфкаки.
Домашние задания и дополнительные материалы можете найти на нашем курсе на Stepik: stepik.org/course/74457/syllabus
Учитесь Data Science с нами: karpov.courses/

КОМЕНТАРІ • 68

@user-su1ll6bn3d Рік тому ⁺¹⁵
Анатолий, у меня нет слов, в этом видео есть ответы на любой вопрос, я возвращаюсь к просмотру снова и снова. Спасибо, за труд.
@LisTyrist 14 днів тому
Благодарю за этот вэбинар. Найду работу, с первой же зп после испытательного приду к вам на курс)
@user-hp3dp2sz2b Рік тому ⁺⁵
Этого человека хочется слушать часами, жаль, что видео кончается😁Пойду рыть дальше по каналу))
@a.shilov 2 роки тому ⁺⁵
Хороший стрим, готов каждую неделю встречаться на таких стримах.
@user-jm6xy9nk1g Рік тому ⁺²
Спасибо за Ваш труд, очень интересно! Четкая, быстрая подача материала, приятно слушать!
@user-qf6tc6mn5o 3 роки тому ⁺³⁶
я в восторге - это самое полезное и понятное видео по Pandas за все время моего обучения Data Science, чувствую, я еще не раз буду к нему возвращаться за подсказками) браво, Анатолий!
@lochlanira2589 2 роки тому
i dont mean to be so off topic but does anybody know of a method to log back into an Instagram account..?
I was dumb forgot my password. I would love any tips you can give me!
@billydariel9140 2 роки тому
@Lochlan Ira instablaster ;)
@hinomuratomisaburo4901 2 роки тому
Супер круто !!! Спасибо вам за контент практический
@IdeasStrongest Рік тому ⁺²
Очень доходчиво объясняете по каждому моменту. Спасибо за видео
@Keefear 2 роки тому ⁺³
Топ лекция.🔥🔥🔥 Спасибо огромное. 👍 Записывайте ещё ↗️
@benoeksionev8025 11 місяців тому ⁺¹
Обалдеть какое крутое видео, автор просто мастер в этой теме, спасибо большое целую в лобик
@elenabareysha9232 Рік тому
Супер-видео! От простого к сложному, как быстро что-то проанализировать и даже сохранить табличный новый файл для коллег и начальства
@Ybuotue 3 роки тому
Огонь. Прям полезно.
@AliyevAydin 3 роки тому ⁺¹
Супер
@fordmustang511 Рік тому ⁺⁵
@Karpov.Courses подскажи где можно найти данные из урока?
@vusalagaev1861 2 роки тому
Анатолий лучший
@Um_H 26 днів тому
Online Retail Dataset (UCI Machine Learning Repository)
@dazdess Рік тому
Как же круто, когда понимаю синтаксис питона)
@dazdess Рік тому
Двоеточие - это присваивание, есть ещё крутой оператор :=
@dradik16 3 роки тому ⁺³
Спасибо за видео. В самом начале все очень ясно, потом вдруг вы резко переходите на сложносочиненные строки вместо отдельных рубленных команд.
Новичкам второй вариант синтаксиса гораздо более удобен для восприятия.
@constantinews 3 роки тому ⁺¹
Пожалуйста, напишите ссылку на jupyter notebook из видео?
@Dmitrii-Zhinzhilov Рік тому ⁺¹
Благодарю! Отличный урок! Нашёл датасет из этого вебинара и кодил за видео. Всё отлично, теперь у меня есть отличный конспект с пометками в jupyter notebook, к которому можно в любое время вернуться и экспериментировать.
@user-ux8lh9ri8y Рік тому
А где нашел датасет?
@Dmitrii-Zhinzhilov Рік тому
@@user-ux8lh9ri8y, мой комментарий со ссылкой удаляется ((( увы
@user-su1wf3wz6c 9 місяців тому
Кайф - подписался
@aidartimerbayev9600 5 місяців тому
Доброе время суток, Анатолий! Не совсем согласен, что без background в программировании, возможно хорошо ориентироваться в Pandas в аналитике. Неплохо разобраться ещё в SQL. Огромное спасибо за вебинар.
@worldtech2770 Рік тому ⁺²
Спасибо! подскажите пожалуйста, как сделать так что бы в pandas отображались оригинальные числа которые я открыл с файла .csv
добавляются лишние 0 и в некоторых столбцах не на том месте точка стоит.
Вот оригинал строки: 82; 1; 40.79326147; 354064; 0.1637; 5.12; 5000000000
Вот что показывает pandas: 82 1.000000 40.793261 3.540640e+05 0.16370 1 5.120000 5.000000e+09
@user-ey7pm1rc5i Рік тому
Можно получить дата сет и потренироваться? Так как на степике ссылки не работают?
@user-ud2gq8ni8y 2 роки тому ⁺¹
Спасибо большое Анатолий, за понятное объяснение, и вообще за все!, можно вопрос, я понимаю что поздновато, а вот если надо провести агрегирование но 2 факторам 1-й из которых время а 2-й какая-то качественная переменная, пол, цвет волос, как тогда посмотреть динамику в разрезе этой переменной!
@karpovcourses 2 роки тому
Я бы построил просто графики по изменению метрики во времени для каждого фактора.
@user-ud2gq8ni8y 2 роки тому
@@karpovcourses это то понятно, но я наверное не про то пусть у меня есть время и столбец продажи по филиалам (пусть n) и мне надо провести агрегацию по времени в разрезе этих филиалов
@AliyevAydin 3 роки тому ⁺¹
Я группирую данные по месяцам и есть такие месяцы которые не содержат данные,но почему-то python автоматичесски добавляет этот месяц и перераспределяет данные с предыдущего месяца в результате данные искажаются.Плз помогите
@tarasst6887 2 роки тому ⁺²
Ты с такой радостью расказываешь про пандас но ведь у R это все есть из коробки, почему отказался от Рки ? Сделай видео..
@evgkaff2867 2 роки тому
Пользуясь случаем передаю привет всем ученикам скиллбокса на Data Science,которые сейчас проходят или будут экзаменационный тест))НУ и конечно респект скиллбоксу,уникальная база знаний,ага.
@sergelyamin Рік тому ⁺¹
Видео начинается на 2:40
@fedorok12345 2 роки тому
Мне кажется несколько вульгарным трактовка похожих элементов в pandas по типу обращения к данным через .query() и [ ]. Как я понимаю разница все же есть, с точки зрения того, как это работает и чем это обусловлено. В моем представлении .query() должен возвращать копию объекта в переменную, в то время как обращение через [ ] вернет нам ссылку на объект в датафрейме. В таком случае если мы будем менять данные, через .query наш датафрейм не измениться а через [ ] должен поменяться. По аналогии со списками в python. Вероятно я не прав, но на мой взгляд различия должны быть. Все же одно метод который возвращает данные, а другое хитрый фильтр (если ничего не путаю).
@asfasf6729 2 роки тому ⁺⁸
Скажите, где взять этот файл data_csv?
@Um_H 26 днів тому
Online Retail Dataset (UCI Machine Learning Repository)
@pazakharov Рік тому ⁺¹
в защиту экселя следует сказать, что с использованием модели данных он вполне годно переваривает датасеты на 10+кк строк с разными объемными вычислениями. И он удобен для пользования конечными юзерами.
@user-tt5jy2wk5f Рік тому ⁺¹
В excel всего 1 048 576 строк, что чуть больше 1кк строк
Как он может переварить 10+кк строк, если это примерно в 10 раз больше, чем в нем есть ?
@pazakharov Рік тому
@@user-tt5jy2wk5f с использованием power pivot. В обычном экселе уже на 300-400к строках будет тупняк.
@Leha_from_Zavod Рік тому
@@pazakharov зависит насколько у тебя сильные нужны в науке данных, если это все сводится к базам анализа данных, то условно все можно делать связкой SQL+excel, но я бы поспорил относительно комфорта
@toxic_not9447 2 роки тому
Тот момент , когда ты 2 минуты смотришь заставку и думаешь, что видео встало )
@user-wq8sz4bg6k 3 роки тому ⁺¹
А когда будет анонс программы для джуниор/мидл аналитиков? В видео сказано, что в конце лета, но анонса до сих не было, я так понимаю
@karpovcourses 3 роки тому
В разработке!)
@user-sn9se8dv3q 3 роки тому ⁺⁶
Ребят, а ссылки на материалы и код уже не найти?)
@Um_H 26 днів тому
Online Retail Dataset (UCI Machine Learning Repository)
@user-kn5ip9lr6r 5 місяців тому
Отрицательный unit-price (например, -1000) говорит о том, что сналача была покупка на 1000 рублей, при которой транзакция не прошла по любой причине. Поэтому ее пришлось отменить и вычесть эти 1000 рублей из статы. Отсюда и -1000 рублей. И если вы убираете этот отрицательный unit-price из статы, то, как я думаю, нужно также убрать и unit-price с аналогичной суммой со знаком +. Иначе выходит, что вы учитываете в стате продажу, которая на самом деле не прошла. Такое может быть?
@n0rmaLman 3 роки тому
В excel скользящее среднее есть в о встроенной надстройке "пакет анализа", она еще и погрешность сама посчитает. Или можно использовать линию тренда, там тоже настройки есть. А если не лень, то можно просто формулу прописать. Так что возни со скользящим средним в excel не больше чем в pandas.
@numaki2506 3 роки тому ⁺²
Скиньте, пожалуйста, ссылку на код и данные
@Um_H 26 днів тому
Online Retail Dataset (UCI Machine Learning Repository)
@user-le1jr6ny4s 6 місяців тому
Я думал сначала что это Шелдон из теории большого взрыва
@user-ul6yv9pr8e 2 роки тому
ребят, объясните пжл. зачем нужно это все если я могу выполнить sql запрос и в powerBI уже достроить как мне нужно графики??? или тут можно творить чудеса??
@DeAsonpositive Рік тому
Просто дело в том что пандас он для автоматизации нежели для ежедневного написания кода. Например можно сделать скрипт где он выгружает данные с сайта, чистит данные (колонки в sql где указано not null) и сохраняет все это и в Excell файле и загружает в SQL и всё это за минуту. И таких операций много, так же удобно делать скрипт с рассылкой чтобы каждый раз не отправлять вручную и т.д
@user-gh2ml3cf5o Рік тому
Плохо когда нет тайм кодов!
@alisanotsleep Рік тому ⁺²
Спасибо за видео, но у меня часто возникает вопрос зачем это делать в python? Пользуюсь pandas, но для другого - собрать data frame. А уже с собранным df работаю в excel/power bi. В Excel давно есть Power Qwery, который может работать с миллионами строк. И подобные задачи в разы быстрее делать. Всё это делается просто кнопками, даж код писать не надо. Зачем это делать в pandas, сохранять в csv и открывать в excel, если можно сделать сразу в excel, еще и автоматизировать? А в Pbi и вовсе можно сразу python скрипт писать.
@ivanbaraban3086 Рік тому
Ну вообще-то Excel больше миллиона строк не сможет записать
@rawwwr19 Рік тому ⁺¹
Насколько я понимаю, питон позволяет выполнить весь цикл работы с данными в одно ноутбуке: и почистить, и объединить датасеты, и визуализировать, и провести A/B тесты. Думаю, спору нет, что писать код это более гибкий инструмент, однако сложнее в освоении.
Я новичок, но с Эксель у меня возникала такая проблема: при построении боксплота не хватало кастомизации. Вот мне нужно было сгруппировать две категории на одной оси повторить такой график для разных продуктов. А Эксель не принимает на вход сводную таблицу.
@sosinboxru Рік тому
количество обрабатываемых данных у меня от 20 тыс до 3 мил, excel на 20 тыс уже плохо себя чувствует, а если записей под миллион, то вообще дохнет.
@vladimir7759 9 місяців тому
оперативы добавь
@vladimir7759 9 місяців тому
для экселя лям перебор ставь бд
@ZhansDoIT 2 роки тому ⁺¹
Сам чемпион мира преподает
@delkaaaa 9 місяців тому
стоп стоп стоп))) а че это из экселя ничего нельзя? а олдскул ВБА? ))))))

Наступне

Автоматичне відтворення

Фильтрация данных в Pandas | Анатолий Карпов | karpov.courses