Анализ данных в Pandas | Вебинар Анатолия Карпова | karpov.courses

Поділитися
Вставка
  • Опубліковано 12 сер 2020
  • Курс «Аналитик данных»: bit.ly/3NApIIY
    Мы продолжаем наши открытые вебинары для всех, кто интересуется анализом данных! В этот раз сделаем акцент на инструментах и поговорим о библиотеке Pandas. Будет полезно и тем, кто только начинает знакомиться с питоном, и более опытным пользователям, так как разберем различные продвинутые и необычные приемы и лайфкаки.
    Домашние задания и дополнительные материалы можете найти на нашем курсе на Stepik: stepik.org/course/74457/syllabus
    Учитесь Data Science с нами: karpov.courses/

КОМЕНТАРІ • 68

  • @user-su1ll6bn3d
    @user-su1ll6bn3d Рік тому +15

    Анатолий, у меня нет слов, в этом видео есть ответы на любой вопрос, я возвращаюсь к просмотру снова и снова. Спасибо, за труд.

  • @LisTyrist
    @LisTyrist 14 днів тому

    Благодарю за этот вэбинар. Найду работу, с первой же зп после испытательного приду к вам на курс)

  • @user-hp3dp2sz2b
    @user-hp3dp2sz2b Рік тому +5

    Этого человека хочется слушать часами, жаль, что видео кончается😁Пойду рыть дальше по каналу))

  • @a.shilov
    @a.shilov 2 роки тому +5

    Хороший стрим, готов каждую неделю встречаться на таких стримах.

  • @user-jm6xy9nk1g
    @user-jm6xy9nk1g Рік тому +2

    Спасибо за Ваш труд, очень интересно! Четкая, быстрая подача материала, приятно слушать!

  • @user-qf6tc6mn5o
    @user-qf6tc6mn5o 3 роки тому +36

    я в восторге - это самое полезное и понятное видео по Pandas за все время моего обучения Data Science, чувствую, я еще не раз буду к нему возвращаться за подсказками) браво, Анатолий!

    • @lochlanira2589
      @lochlanira2589 2 роки тому

      i dont mean to be so off topic but does anybody know of a method to log back into an Instagram account..?
      I was dumb forgot my password. I would love any tips you can give me!

    • @billydariel9140
      @billydariel9140 2 роки тому

      @Lochlan Ira instablaster ;)

  • @hinomuratomisaburo4901
    @hinomuratomisaburo4901 2 роки тому

    Супер круто !!! Спасибо вам за контент практический

  • @IdeasStrongest
    @IdeasStrongest Рік тому +2

    Очень доходчиво объясняете по каждому моменту. Спасибо за видео

  • @Keefear
    @Keefear 2 роки тому +3

    Топ лекция.🔥🔥🔥 Спасибо огромное. 👍 Записывайте ещё ↗️

  • @benoeksionev8025
    @benoeksionev8025 11 місяців тому +1

    Обалдеть какое крутое видео, автор просто мастер в этой теме, спасибо большое целую в лобик

  • @elenabareysha9232
    @elenabareysha9232 Рік тому

    Супер-видео! От простого к сложному, как быстро что-то проанализировать и даже сохранить табличный новый файл для коллег и начальства

  • @Ybuotue
    @Ybuotue 3 роки тому

    Огонь. Прям полезно.

  • @AliyevAydin
    @AliyevAydin 3 роки тому +1

    Супер

  • @fordmustang511
    @fordmustang511 Рік тому +5

    @Karpov.Courses подскажи где можно найти данные из урока?

  • @vusalagaev1861
    @vusalagaev1861 2 роки тому

    Анатолий лучший

  • @Um_H
    @Um_H 26 днів тому

    Online Retail Dataset (UCI Machine Learning Repository)

  • @dazdess
    @dazdess Рік тому

    Как же круто, когда понимаю синтаксис питона)

    • @dazdess
      @dazdess Рік тому

      Двоеточие - это присваивание, есть ещё крутой оператор :=

  • @dradik16
    @dradik16 3 роки тому +3

    Спасибо за видео. В самом начале все очень ясно, потом вдруг вы резко переходите на сложносочиненные строки вместо отдельных рубленных команд.
    Новичкам второй вариант синтаксиса гораздо более удобен для восприятия.

  • @constantinews
    @constantinews 3 роки тому +1

    Пожалуйста, напишите ссылку на jupyter notebook из видео?

  • @Dmitrii-Zhinzhilov
    @Dmitrii-Zhinzhilov Рік тому +1

    Благодарю! Отличный урок! Нашёл датасет из этого вебинара и кодил за видео. Всё отлично, теперь у меня есть отличный конспект с пометками в jupyter notebook, к которому можно в любое время вернуться и экспериментировать.

    • @user-ux8lh9ri8y
      @user-ux8lh9ri8y Рік тому

      А где нашел датасет?

    • @Dmitrii-Zhinzhilov
      @Dmitrii-Zhinzhilov Рік тому

      @@user-ux8lh9ri8y, мой комментарий со ссылкой удаляется ((( увы

  • @user-su1wf3wz6c
    @user-su1wf3wz6c 9 місяців тому

    Кайф - подписался

  • @aidartimerbayev9600
    @aidartimerbayev9600 5 місяців тому

    Доброе время суток, Анатолий! Не совсем согласен, что без background в программировании, возможно хорошо ориентироваться в Pandas в аналитике. Неплохо разобраться ещё в SQL. Огромное спасибо за вебинар.

  • @worldtech2770
    @worldtech2770 Рік тому +2

    Спасибо! подскажите пожалуйста, как сделать так что бы в pandas отображались оригинальные числа которые я открыл с файла .csv
    добавляются лишние 0 и в некоторых столбцах не на том месте точка стоит.
    Вот оригинал строки: 82; 1; 40.79326147; 354064; 0.1637; 5.12; 5000000000
    Вот что показывает pandas: 82 1.000000 40.793261 3.540640e+05 0.16370 1 5.120000 5.000000e+09

  • @user-ey7pm1rc5i
    @user-ey7pm1rc5i Рік тому

    Можно получить дата сет и потренироваться? Так как на степике ссылки не работают?

  • @user-ud2gq8ni8y
    @user-ud2gq8ni8y 2 роки тому +1

    Спасибо большое Анатолий, за понятное объяснение, и вообще за все!, можно вопрос, я понимаю что поздновато, а вот если надо провести агрегирование но 2 факторам 1-й из которых время а 2-й какая-то качественная переменная, пол, цвет волос, как тогда посмотреть динамику в разрезе этой переменной!

    • @karpovcourses
      @karpovcourses  2 роки тому

      Я бы построил просто графики по изменению метрики во времени для каждого фактора.

    • @user-ud2gq8ni8y
      @user-ud2gq8ni8y 2 роки тому

      @@karpovcourses это то понятно, но я наверное не про то пусть у меня есть время и столбец продажи по филиалам (пусть n) и мне надо провести агрегацию по времени в разрезе этих филиалов

  • @AliyevAydin
    @AliyevAydin 3 роки тому +1

    Я группирую данные по месяцам и есть такие месяцы которые не содержат данные,но почему-то python автоматичесски добавляет этот месяц и перераспределяет данные с предыдущего месяца в результате данные искажаются.Плз помогите

  • @tarasst6887
    @tarasst6887 2 роки тому +2

    Ты с такой радостью расказываешь про пандас но ведь у R это все есть из коробки, почему отказался от Рки ? Сделай видео..

  • @evgkaff2867
    @evgkaff2867 2 роки тому

    Пользуясь случаем передаю привет всем ученикам скиллбокса на Data Science,которые сейчас проходят или будут экзаменационный тест))НУ и конечно респект скиллбоксу,уникальная база знаний,ага.

  • @sergelyamin
    @sergelyamin Рік тому +1

    Видео начинается на 2:40

  • @fedorok12345
    @fedorok12345 2 роки тому

    Мне кажется несколько вульгарным трактовка похожих элементов в pandas по типу обращения к данным через .query() и [ ]. Как я понимаю разница все же есть, с точки зрения того, как это работает и чем это обусловлено. В моем представлении .query() должен возвращать копию объекта в переменную, в то время как обращение через [ ] вернет нам ссылку на объект в датафрейме. В таком случае если мы будем менять данные, через .query наш датафрейм не измениться а через [ ] должен поменяться. По аналогии со списками в python. Вероятно я не прав, но на мой взгляд различия должны быть. Все же одно метод который возвращает данные, а другое хитрый фильтр (если ничего не путаю).

  • @asfasf6729
    @asfasf6729 2 роки тому +8

    Скажите, где взять этот файл data_csv?

    • @Um_H
      @Um_H 26 днів тому

      Online Retail Dataset (UCI Machine Learning Repository)

  • @pazakharov
    @pazakharov Рік тому +1

    в защиту экселя следует сказать, что с использованием модели данных он вполне годно переваривает датасеты на 10+кк строк с разными объемными вычислениями. И он удобен для пользования конечными юзерами.

    • @user-tt5jy2wk5f
      @user-tt5jy2wk5f Рік тому +1

      В excel всего 1 048 576 строк, что чуть больше 1кк строк
      Как он может переварить 10+кк строк, если это примерно в 10 раз больше, чем в нем есть ?

    • @pazakharov
      @pazakharov Рік тому

      @@user-tt5jy2wk5f с использованием power pivot. В обычном экселе уже на 300-400к строках будет тупняк.

    • @Leha_from_Zavod
      @Leha_from_Zavod Рік тому

      @@pazakharov зависит насколько у тебя сильные нужны в науке данных, если это все сводится к базам анализа данных, то условно все можно делать связкой SQL+excel, но я бы поспорил относительно комфорта

  • @toxic_not9447
    @toxic_not9447 2 роки тому

    Тот момент , когда ты 2 минуты смотришь заставку и думаешь, что видео встало )

  • @user-wq8sz4bg6k
    @user-wq8sz4bg6k 3 роки тому +1

    А когда будет анонс программы для джуниор/мидл аналитиков? В видео сказано, что в конце лета, но анонса до сих не было, я так понимаю

  • @user-sn9se8dv3q
    @user-sn9se8dv3q 3 роки тому +6

    Ребят, а ссылки на материалы и код уже не найти?)

    • @Um_H
      @Um_H 26 днів тому

      Online Retail Dataset (UCI Machine Learning Repository)

  • @user-kn5ip9lr6r
    @user-kn5ip9lr6r 5 місяців тому

    Отрицательный unit-price (например, -1000) говорит о том, что сналача была покупка на 1000 рублей, при которой транзакция не прошла по любой причине. Поэтому ее пришлось отменить и вычесть эти 1000 рублей из статы. Отсюда и -1000 рублей. И если вы убираете этот отрицательный unit-price из статы, то, как я думаю, нужно также убрать и unit-price с аналогичной суммой со знаком +. Иначе выходит, что вы учитываете в стате продажу, которая на самом деле не прошла. Такое может быть?

  • @n0rmaLman
    @n0rmaLman 3 роки тому

    В excel скользящее среднее есть в о встроенной надстройке "пакет анализа", она еще и погрешность сама посчитает. Или можно использовать линию тренда, там тоже настройки есть. А если не лень, то можно просто формулу прописать. Так что возни со скользящим средним в excel не больше чем в pandas.

  • @numaki2506
    @numaki2506 3 роки тому +2

    Скиньте, пожалуйста, ссылку на код и данные

    • @Um_H
      @Um_H 26 днів тому

      Online Retail Dataset (UCI Machine Learning Repository)

  • @user-le1jr6ny4s
    @user-le1jr6ny4s 6 місяців тому

    Я думал сначала что это Шелдон из теории большого взрыва

  • @user-ul6yv9pr8e
    @user-ul6yv9pr8e 2 роки тому

    ребят, объясните пжл. зачем нужно это все если я могу выполнить sql запрос и в powerBI уже достроить как мне нужно графики??? или тут можно творить чудеса??

    • @DeAsonpositive
      @DeAsonpositive Рік тому

      Просто дело в том что пандас он для автоматизации нежели для ежедневного написания кода. Например можно сделать скрипт где он выгружает данные с сайта, чистит данные (колонки в sql где указано not null) и сохраняет все это и в Excell файле и загружает в SQL и всё это за минуту. И таких операций много, так же удобно делать скрипт с рассылкой чтобы каждый раз не отправлять вручную и т.д

  • @user-gh2ml3cf5o
    @user-gh2ml3cf5o Рік тому

    Плохо когда нет тайм кодов!

  • @alisanotsleep
    @alisanotsleep Рік тому +2

    Спасибо за видео, но у меня часто возникает вопрос зачем это делать в python? Пользуюсь pandas, но для другого - собрать data frame. А уже с собранным df работаю в excel/power bi. В Excel давно есть Power Qwery, который может работать с миллионами строк. И подобные задачи в разы быстрее делать. Всё это делается просто кнопками, даж код писать не надо. Зачем это делать в pandas, сохранять в csv и открывать в excel, если можно сделать сразу в excel, еще и автоматизировать? А в Pbi и вовсе можно сразу python скрипт писать.

    • @ivanbaraban3086
      @ivanbaraban3086 Рік тому

      Ну вообще-то Excel больше миллиона строк не сможет записать

    • @rawwwr19
      @rawwwr19 Рік тому +1

      Насколько я понимаю, питон позволяет выполнить весь цикл работы с данными в одно ноутбуке: и почистить, и объединить датасеты, и визуализировать, и провести A/B тесты. Думаю, спору нет, что писать код это более гибкий инструмент, однако сложнее в освоении.
      Я новичок, но с Эксель у меня возникала такая проблема: при построении боксплота не хватало кастомизации. Вот мне нужно было сгруппировать две категории на одной оси повторить такой график для разных продуктов. А Эксель не принимает на вход сводную таблицу.

  • @sosinboxru
    @sosinboxru Рік тому

    количество обрабатываемых данных у меня от 20 тыс до 3 мил, excel на 20 тыс уже плохо себя чувствует, а если записей под миллион, то вообще дохнет.

    • @vladimir7759
      @vladimir7759 9 місяців тому

      оперативы добавь

    • @vladimir7759
      @vladimir7759 9 місяців тому

      для экселя лям перебор ставь бд

  • @ZhansDoIT
    @ZhansDoIT 2 роки тому +1

    Сам чемпион мира преподает

  • @delkaaaa
    @delkaaaa 9 місяців тому

    стоп стоп стоп))) а че это из экселя ничего нельзя? а олдскул ВБА? ))))))