Анализ данных в Pandas | Вебинар Анатолия Карпова | karpov.courses
Вставка
- Опубліковано 12 сер 2020
- Курс «Аналитик данных»: bit.ly/3NApIIY
Мы продолжаем наши открытые вебинары для всех, кто интересуется анализом данных! В этот раз сделаем акцент на инструментах и поговорим о библиотеке Pandas. Будет полезно и тем, кто только начинает знакомиться с питоном, и более опытным пользователям, так как разберем различные продвинутые и необычные приемы и лайфкаки.
Домашние задания и дополнительные материалы можете найти на нашем курсе на Stepik: stepik.org/course/74457/syllabus
Учитесь Data Science с нами: karpov.courses/
Анатолий, у меня нет слов, в этом видео есть ответы на любой вопрос, я возвращаюсь к просмотру снова и снова. Спасибо, за труд.
Благодарю за этот вэбинар. Найду работу, с первой же зп после испытательного приду к вам на курс)
Этого человека хочется слушать часами, жаль, что видео кончается😁Пойду рыть дальше по каналу))
Хороший стрим, готов каждую неделю встречаться на таких стримах.
Спасибо за Ваш труд, очень интересно! Четкая, быстрая подача материала, приятно слушать!
я в восторге - это самое полезное и понятное видео по Pandas за все время моего обучения Data Science, чувствую, я еще не раз буду к нему возвращаться за подсказками) браво, Анатолий!
i dont mean to be so off topic but does anybody know of a method to log back into an Instagram account..?
I was dumb forgot my password. I would love any tips you can give me!
@Lochlan Ira instablaster ;)
Супер круто !!! Спасибо вам за контент практический
Очень доходчиво объясняете по каждому моменту. Спасибо за видео
Топ лекция.🔥🔥🔥 Спасибо огромное. 👍 Записывайте ещё ↗️
Обалдеть какое крутое видео, автор просто мастер в этой теме, спасибо большое целую в лобик
Супер-видео! От простого к сложному, как быстро что-то проанализировать и даже сохранить табличный новый файл для коллег и начальства
Огонь. Прям полезно.
Супер
@Karpov.Courses подскажи где можно найти данные из урока?
Анатолий лучший
Online Retail Dataset (UCI Machine Learning Repository)
Как же круто, когда понимаю синтаксис питона)
Двоеточие - это присваивание, есть ещё крутой оператор :=
Спасибо за видео. В самом начале все очень ясно, потом вдруг вы резко переходите на сложносочиненные строки вместо отдельных рубленных команд.
Новичкам второй вариант синтаксиса гораздо более удобен для восприятия.
Пожалуйста, напишите ссылку на jupyter notebook из видео?
Благодарю! Отличный урок! Нашёл датасет из этого вебинара и кодил за видео. Всё отлично, теперь у меня есть отличный конспект с пометками в jupyter notebook, к которому можно в любое время вернуться и экспериментировать.
А где нашел датасет?
@@user-ux8lh9ri8y, мой комментарий со ссылкой удаляется ((( увы
Кайф - подписался
Доброе время суток, Анатолий! Не совсем согласен, что без background в программировании, возможно хорошо ориентироваться в Pandas в аналитике. Неплохо разобраться ещё в SQL. Огромное спасибо за вебинар.
Спасибо! подскажите пожалуйста, как сделать так что бы в pandas отображались оригинальные числа которые я открыл с файла .csv
добавляются лишние 0 и в некоторых столбцах не на том месте точка стоит.
Вот оригинал строки: 82; 1; 40.79326147; 354064; 0.1637; 5.12; 5000000000
Вот что показывает pandas: 82 1.000000 40.793261 3.540640e+05 0.16370 1 5.120000 5.000000e+09
Можно получить дата сет и потренироваться? Так как на степике ссылки не работают?
Спасибо большое Анатолий, за понятное объяснение, и вообще за все!, можно вопрос, я понимаю что поздновато, а вот если надо провести агрегирование но 2 факторам 1-й из которых время а 2-й какая-то качественная переменная, пол, цвет волос, как тогда посмотреть динамику в разрезе этой переменной!
Я бы построил просто графики по изменению метрики во времени для каждого фактора.
@@karpovcourses это то понятно, но я наверное не про то пусть у меня есть время и столбец продажи по филиалам (пусть n) и мне надо провести агрегацию по времени в разрезе этих филиалов
Я группирую данные по месяцам и есть такие месяцы которые не содержат данные,но почему-то python автоматичесски добавляет этот месяц и перераспределяет данные с предыдущего месяца в результате данные искажаются.Плз помогите
Ты с такой радостью расказываешь про пандас но ведь у R это все есть из коробки, почему отказался от Рки ? Сделай видео..
Пользуясь случаем передаю привет всем ученикам скиллбокса на Data Science,которые сейчас проходят или будут экзаменационный тест))НУ и конечно респект скиллбоксу,уникальная база знаний,ага.
Видео начинается на 2:40
Мне кажется несколько вульгарным трактовка похожих элементов в pandas по типу обращения к данным через .query() и [ ]. Как я понимаю разница все же есть, с точки зрения того, как это работает и чем это обусловлено. В моем представлении .query() должен возвращать копию объекта в переменную, в то время как обращение через [ ] вернет нам ссылку на объект в датафрейме. В таком случае если мы будем менять данные, через .query наш датафрейм не измениться а через [ ] должен поменяться. По аналогии со списками в python. Вероятно я не прав, но на мой взгляд различия должны быть. Все же одно метод который возвращает данные, а другое хитрый фильтр (если ничего не путаю).
Скажите, где взять этот файл data_csv?
Online Retail Dataset (UCI Machine Learning Repository)
в защиту экселя следует сказать, что с использованием модели данных он вполне годно переваривает датасеты на 10+кк строк с разными объемными вычислениями. И он удобен для пользования конечными юзерами.
В excel всего 1 048 576 строк, что чуть больше 1кк строк
Как он может переварить 10+кк строк, если это примерно в 10 раз больше, чем в нем есть ?
@@user-tt5jy2wk5f с использованием power pivot. В обычном экселе уже на 300-400к строках будет тупняк.
@@pazakharov зависит насколько у тебя сильные нужны в науке данных, если это все сводится к базам анализа данных, то условно все можно делать связкой SQL+excel, но я бы поспорил относительно комфорта
Тот момент , когда ты 2 минуты смотришь заставку и думаешь, что видео встало )
А когда будет анонс программы для джуниор/мидл аналитиков? В видео сказано, что в конце лета, но анонса до сих не было, я так понимаю
В разработке!)
Ребят, а ссылки на материалы и код уже не найти?)
Online Retail Dataset (UCI Machine Learning Repository)
Отрицательный unit-price (например, -1000) говорит о том, что сналача была покупка на 1000 рублей, при которой транзакция не прошла по любой причине. Поэтому ее пришлось отменить и вычесть эти 1000 рублей из статы. Отсюда и -1000 рублей. И если вы убираете этот отрицательный unit-price из статы, то, как я думаю, нужно также убрать и unit-price с аналогичной суммой со знаком +. Иначе выходит, что вы учитываете в стате продажу, которая на самом деле не прошла. Такое может быть?
В excel скользящее среднее есть в о встроенной надстройке "пакет анализа", она еще и погрешность сама посчитает. Или можно использовать линию тренда, там тоже настройки есть. А если не лень, то можно просто формулу прописать. Так что возни со скользящим средним в excel не больше чем в pandas.
Скиньте, пожалуйста, ссылку на код и данные
Online Retail Dataset (UCI Machine Learning Repository)
Я думал сначала что это Шелдон из теории большого взрыва
ребят, объясните пжл. зачем нужно это все если я могу выполнить sql запрос и в powerBI уже достроить как мне нужно графики??? или тут можно творить чудеса??
Просто дело в том что пандас он для автоматизации нежели для ежедневного написания кода. Например можно сделать скрипт где он выгружает данные с сайта, чистит данные (колонки в sql где указано not null) и сохраняет все это и в Excell файле и загружает в SQL и всё это за минуту. И таких операций много, так же удобно делать скрипт с рассылкой чтобы каждый раз не отправлять вручную и т.д
Плохо когда нет тайм кодов!
Спасибо за видео, но у меня часто возникает вопрос зачем это делать в python? Пользуюсь pandas, но для другого - собрать data frame. А уже с собранным df работаю в excel/power bi. В Excel давно есть Power Qwery, который может работать с миллионами строк. И подобные задачи в разы быстрее делать. Всё это делается просто кнопками, даж код писать не надо. Зачем это делать в pandas, сохранять в csv и открывать в excel, если можно сделать сразу в excel, еще и автоматизировать? А в Pbi и вовсе можно сразу python скрипт писать.
Ну вообще-то Excel больше миллиона строк не сможет записать
Насколько я понимаю, питон позволяет выполнить весь цикл работы с данными в одно ноутбуке: и почистить, и объединить датасеты, и визуализировать, и провести A/B тесты. Думаю, спору нет, что писать код это более гибкий инструмент, однако сложнее в освоении.
Я новичок, но с Эксель у меня возникала такая проблема: при построении боксплота не хватало кастомизации. Вот мне нужно было сгруппировать две категории на одной оси повторить такой график для разных продуктов. А Эксель не принимает на вход сводную таблицу.
количество обрабатываемых данных у меня от 20 тыс до 3 мил, excel на 20 тыс уже плохо себя чувствует, а если записей под миллион, то вообще дохнет.
оперативы добавь
для экселя лям перебор ставь бд
Сам чемпион мира преподает
стоп стоп стоп))) а че это из экселя ничего нельзя? а олдскул ВБА? ))))))