Начальный анализ данных с помощью Python: оцениваем датасет, ищем пропуски и не только
Вставка
- Опубліковано 15 чер 2024
- Python по праву занимает место одного из ведущих инструментов дата-аналитика: загрузка данных, пристрелочный анализ, подготовка данных к дальнейшему исследованию, проверка гипотез, визуализация - всё это становится гораздо более понятным, если автоматизировать свою работу с помощью основ Python и набора общеиспользуемых библиотек
В этом видео мы искали в датасете дорогой вискарь, и попутно - знакомились с основами Python, пропуская этап "Hello, world"
Даже если до этого вы совсем не касались этой предметной области - в вашем распоряжении появится первый набор инструментов, который можно начать использовать по аналогии
00:00 Почему именно Python стал так популярен среди дата-аналитиков
16:25 Демо. Обзор датасета
21:00 Загрузка и предпросмотр датасета
26:38 Описательная статистика
37:21 Подготовка и очистка данных
40:07 Отсутствующие данные и доля пропусков
45:18 Поиск выбросов
48:15 Способы поиска дубликатов записей
54:04 Немного визуализации
58:30 Итоги и вопрос-ответ
Ссылка на датасет в Kaggle:
www.kaggle.com/datasets/dadal...
Ссылка на ноутбук в Google Colab:
colab.research.google.com/dri...
Посмотрел на одном дыхании 👍спасибо за ваш труд
я в шоки, почему у такого качественного разбора так мало просмотров
в вебинаре так нравится как мемно говорит ведущая, не просто так, а ну прям с юмором что ли аха
А продолжение будет?
Обязательно! Планирую продолжить историю о подготовке данных и больше поговорить о визуализации. Если есть пожелания, какую тему вы хотели бы услышать - пишите!)
++++++++++++++++++
Ну где продолжение м?)
Я обязательно доберусь =D
Dbt + airflow + jinja