Data lake и DWH: практический опыт | Вебинар Александра Волынского | karpov.courses
Вставка
- Опубліковано 2 лис 2021
- Курс «Инженер данных»: bit.ly/3yuBNsz
Чтобы стать хорошим инженером данных и расти в профессии, нужно понимать, что учить, куда двигаться и какой инструмент за что отвечает. Ориентироваться во всём этом часто бывает сложно, особенно новичку.
Материалы: drive.google.com/file/d/1AfCo...
Учитесь Data Science с нами: karpov.courses/
Спасибо! Крутая информация, крутая подача)) отдельное спасибо, Александру, очень доступно и приятно объясняет))
Шикарное видео, все кратко но ёмко и в одном месте упаковано
Зачёт!
HDFS если что - Hadoop Distributed File System
Благодарю за контент отличного качества!
Насыщенно, спасибо🙏
Очень крутой обзор, спасибо!
Крутой доклад, спасибо!
А почему не в достатках Hadoop указано, что Spark и Hive медленее. Наверно, сравнивается MapReduce Hadoop, но скорость обработки у Spark в 10 раз выше на HDD и в 100 быстрее на SSD же…
Best video on channel for sure
О, как интересно!
Проблема с большими данными в больших данных.. на домашнем компе особо не поэскпериментируешь.. 😅
если мы уже в клауде - какой еще гринплам/вертика - там уже будет snowflake или хотябы редшифт.
Продано. Записался :)
И как вам у них курс "дата инженера"? Записалась 5.05.22, и первый же блок DWH просто ужаааааасен.
@@annicioua чем ужасен? Тоже подумываю о покупке.
А можно освоить Hadoop и Spark без знаний Scala/Java?
Можно зная python
Хорошая подача! Но честно говоря не совсем понятно зачем столько различных систем. Такую инфраструктуру нужно поддерживать (описывать, защищать) + затраты на ФОТ увеличиваются с каждой системой + проставить данные через всю цепочку… Услышать бы обоснование. Для каких масштабов бизнеса это обосновано?
начиная от самого маленького банка
Зачем датасатанистам приходить в 7 утра, если можно зашелулить нагрузку?
Ужасно интересно, но нихрена не понятно... обрадовался сразу фразе "вебинар для новичков", но понял от сильі процентов 10 :(
тут не то что обзор системьі с вертолёта - тут обзор со спутника
Как человек, который ранее не был знаком с DE сферой, а просто кодил на питоне - понял процентов 80-90%.
Перед этим прошерстил 100 вакансий на hh. Собрал ключевые слова, технологии (Все инструменты Hadoop, различные СУБД, процессы в DE).
В итоге получился список из почти 40 терминов.
За час, вбивая в гугле каждый термин/технологию, понял, что они все значат.
И далее объединил все эти технологии по группам:
- Принципы/процессы
- Хранилища данных (DWH) (СУБД)
- Apache Hadoop
- BI инструменты
- Языки Программирования, ОС и прочее
В дата инжиниринге слишком большой выбор технологий, но их все можно объединить в смысловые группы.
Советую вам сделать тоже самое, чтобы чувствовать себя гораздо свободнее в этой сфере.
Либо это будет совет другим, кто увидит ваш комментарий