Lộ diện Data Lake, Data Warehouse và ví dụ thực tế với Hadoop, Hive, Spark

Data Guy Story

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 28 лис 2024

КОМЕНТАРІ • 236

@DataGuyStory 2 роки тому ⁺⁹
Nhiều bạn thắc mắc cái tool mà tui sử dụng trong video. Đây là cái tool tui tự chế dùng library faker, bạn nào quan tâm thì link đây nha github.com/canhtran/dgscli
@tamhuynh8868 Рік тому
Dạ a ơi, e có tải tool của a trên gib và về generate data thử nhưng cứ bị báo lỗi "ModuleNoteFoundError: No module named 'click'". Nếu có thể a cho e hỏi e cần làm thêm bước nào để chạy được tool ạ. E cảm ơn a!!!
@DataGuyStory Рік тому
@@tamhuynh8868 cài click vào nhé. pip install click
@tamhuynh8868 Рік тому
@@DataGuyStory e cảm ơn a lắm ạ !!
@trietle6785 2 роки тому ⁺⁴⁴
Hay quá a Cảnh ơi, đừng bỏ channel nhé anh ơi vì anh là 1 trong số ít những người ở VN làm các chủ đề về Data Engineer. Dù giá trị kinh tế có thể mang lại không được bao nhiêu so với công sức, nhưng giá trị anh mang lại cộng đồng những người đang theo đuổi lĩnh vực data là rất lớn, keep up the good work! As a new grad engineer của Holistics, thật vui khi Holistics được anh mention tới cùng với 2 ông lớn BI PowerBi và Tableau trong các blog và youtube video của anh. Là 1 BI product của người Việt, hy vọng tool sẽ được mọi người gọi tên và biết tới nhiều hơn hehe
@DataGuyStory 2 роки тому ⁺³
haha, cám ơn Triết. Nói anh Huy tài trợ cho anh để anh làm video về Holistics nào, nghèo quá không có bản quyền để làm demo :)))
@trietle6785 2 роки тому
@@DataGuyStory Sure thing anh :)))
@tynistatue 2 роки тому ⁺⁷
mình thực sự cảm ơn Cảnh nhiều nha, thực sự bổ ích đừng bỏ channel nhé Cảnh ơi vì anh là 1 trong số ít những người ở VN làm các chủ đề về Data Engineer. Dù giá trị kinh tế có thể mang lại không được bao nhiêu so với công sức, nhưng giá trị anh mang lại cộng đồng những người đang theo đuổi lĩnh vực data là rất lớn
@tuantu260507 2 роки тому ⁺⁷
Nếu được thì nhờ bạn có thể làm tiếp series phần 2 với nguồn vào đổ vào datalake thêm một nguồn nữa là NoSQL, sau đó phần ETL kết hợp giữa 2 loại dữ liệu SQL và NoSQL để đổ vào datawarehouse
@tannguyen_91 2 роки тому ⁺¹
Mình thích các video tổng quan thế này. Nó dễ tiếp cận với đại đa số người mới như mình. Cái khó nhất của một người mới như mình là họ cần biết là kiến thức đó nó giải quyết được gì. Và mình thấy các video của bạn đã làm được điều đó.
@nguyenquanghuy718 2 роки тому
Video quá hay. Cấu trúc dễ hiểu mạch lạc, thao tác với terminal + Vim cực mượt mà. Xem đã mắt ghê gớm.
@DongDucAnhQP 6 місяців тому
hay quá anh ơi, mong anh tiếp tục ra video kiểu này. Em đang từ BE chuyển sang học DE, video của anh hữu ích quá. Em chúc anh sức khỏe và tiếp tục ra những video như này ạ.
@sangit_8x 2 роки тому ⁺⁴
Mình cũng đang nghiên cứu triển khai data lake cho công ty mình. Mong bác ra nhiều video về data lake, data warehouse, các công cụ thiết kế data pipeline, etl, ingestion để học hỏi thêm. Cám ơn bạn nhiều nhé !
@vietepochtimes8879 2 роки тому ⁺¹
Mình không chuyên về data nhưng thấy bạn giải thích dễ hiểu nên thật sự mình hy vọng bạn ra nhiều videos hơn để mọi người có thể học tập thêm.
Nếu có tut thì càng tốt. Chúc bạn thành công
@bactran7799 2 роки тому ⁺¹
video chất lượng quá, cảm ơn Cảnh. Lâu nay chưa hình dung được HDFS lưu file như thế nào. Nay đã clear được rồi. Hy vọng Cảnh tiếp tục những series như vậy
@thong.nguyen17 2 роки тому ⁺²
Cám ơn anh Cảnh. Em có biết anh thông qua vài video của anh Hoàng code dạo, mà không biết là anh có kênh youtube riêng. Em làm software bên Canada, tuy không chuyên về data nhưng video của anh giúp em có thêm ý tưởng để giải quyết một vài vấn đề hiện tại trong công ty. Hy vọng anh có thể ra thêm nhiều video hay như thế này nữa. Chúc anh sức khoẻ!
@phuonguyenho4212 2 роки тому ⁺¹
Video hữu ích lắm ạ! Mình có thể nói là chưa hiểu 100% về big data nhưng xem video của bạn xong thì độ tự tin của mình tăng hẳn :D
@nenene4250 2 роки тому ⁺⁴
hay quá a ơi
@giangbioinformatics 2 роки тому
em còn nhớ bài về JAV của anh mà giờ anh ra tới cái này rồi hay quá. Em thấy đa phần tụi em có thể tự học phần code, học trên mạng nhiều tài liệu tuy nhiên tụi em bị thiếu về phần ý tưởng để thực hiện và công cụ nào thực hiện các steps đó. Mong anh ra video dạng đó nhiều hơn em cám ơn anh ạ.
@NguyenTranTuyetNhiN Рік тому
oh my god luôn, em rất thích video dạng như này luôn á anh tại em cũng đang là sinh viên năm 3 chuyên ngành khoa học dữ liệu giống anh nên kiểu coi video như học được những cái hay ho vì vậy mong anh hãy ráng ra video nha anhhh.
@HungNguyen-ed7uf 2 роки тому ⁺¹
em không phải Data Engineer nhưng yêu thích xem mọi người làm gì với data, xem video của anh cuốn lắm ạ. Không quá nặng về kỹ năng code - em không biết code sql mà xem vẫn thấy hay, video thiên về tư duy logic để giải quyết vấn đề, video hay lắm anh ạ. Bật chuông đợi video tiếp theo của anh ạ hehe :v
@akaile2233 2 роки тому ⁺¹
Xịn quá anh. Nhờ có anh mà mấy khái niệm, kiến trúc về data đỡ mờ mịt hơn
@buithanhlam3726 2 роки тому ⁺¹
Hay quá anh ơi, dễ hiểu bằng cả 1 khóa học Big Data em học ở trường đại học.
2 роки тому
nghe xong choáng váng quá
@stomer4874 2 роки тому
hay quá bạn ơi. Giúp các bạn chưa biết tới Data có cái nhìn trực quan, dễ hiểu hơn. THanks b nhiều
@unicorn4729 2 роки тому ⁺¹
Anh chính là người cho em cảm hứng để theo DE, lâu rồi anh mới ra video mà video kiểu thực chiến như này ok lắm anh. Chúc anh nhiều sức khoẻ để có thể ra thêm nhiều video bổ ích nha.
@BaoHoTrong 5 місяців тому
Chào anh, anh có biết nguồn nào về data engineer roadmap không ạ
@minimalism-life 7 місяців тому
Video hay a ơi ^^ a chia sẻ thêm về cách để sắp xếp và làm sạch dữ liệu thô để lưu vào DWH với ạ
@nguyenngocphat2965 2 роки тому ⁺¹
đỉnh quá anh, video tới làm về data lake vs data warehouse vs data lakehouse đi anh. Cảm ơn anh vì những video bổ ích
@DataGuyStory 2 роки тому ⁺⁴
có luôn nhé. Anh đang định làm cho video tiếp theo á
@riohihi6583 2 роки тому ⁺¹
hay quá a ơi 😍😍😍 A làm video kiểu này hay nè a...nó giúp có một cái nhìn tổng quan hơn cho các bạn đang học DE. Mong a ra thêm nhiều vid như này nữa
@danhpro5866 Рік тому
đang ngồi học sql, data lại nhớ đến a. lâu quá rồi không thấy a ra clip mới. mong a sớm trở lại.
@viennaarlene2320 2 роки тому ⁺¹
theo dõi anh từ những clip dầu vì thích cách edit và dẫn dắt của anh. Và khi nghe anh nói là anh sẽ đọc hết comment của mọi người, em cảm thấy rất trân trọng. Em cũng đang mày mò học thêm về Spark. Hóng 1 clip a chia sẻ chuyên sâu 1 chút về các cách tối ưu khi xài Spark SQL join
@CodeXplore 2 роки тому ⁺¹
A Cảnh mãi đỉnh 😍
@TienBkaVu-b8o Рік тому
Video của bạn hay và bổ ích quá. Mình mới chuyển qua Data Analysis nên rất cần những video như thế này.
@HungLe-zx9wb 10 місяців тому
Cám ơn bạn đã tạo ra video rất bổ ích. Hy vọng bạn tiếp tục ra những video tiếp theo. Cám ơn bạn một lần nữa.
@NguyenHa-pk9rf 2 роки тому ⁺¹
Phần sử dụng hive nằm trên tầng HDFS để xem dữ liệu dưới dạng table thì e mới được thấy lần đầu. Cảm ơn a nhiều nhé.
@danhpro5866 2 роки тому
hay quá. chờ a mãi. đó giờ cứ thắc mắc dữ liệu lưu dạng nào, hình thù ra sao. nay dc a giải thích.
@mr.cchannel1879 2 роки тому
Mình tay ngang từ iOS, xem cuốn quá ❤
@quyennguyengia8281 10 місяців тому
Hay quá anh ơi, anh có thể phóng to code ra tí thì quá tốt :>
@thphamminh 2 роки тому
Quá đã a ơi. Video được edit nhìn hút hơn hẳn
@giangpt28 2 роки тому
Video rất hay, đúng thứ mình đang tìm kiếm. Hy vọng bác sẽ ra thêm nhiều video nữa.
@linn-phgvu 2 роки тому
new intro ngầu quá ạ 😤
@DataGuyStory 2 роки тому ⁺¹
không uổng công mướn hàng xịn về làm :))
@baohuynh5462 2 роки тому ⁺¹
Hay lắm anh ơi mong anh ra nhiều bài về DE DA nhiều hơn nữa
@desolate_tunes__ 2 роки тому
Cực thích video kiểu này nha anh. Cho 2 like luôn !
@quanphung8231 2 роки тому ⁺¹
Video của anh hay quá ạ. Kiến thức rất bổ ích
@nguyentran8544 2 роки тому
Hóng lâu lắm rồi giờ mới ra clip 🥺
@ngochungpham3473 2 роки тому
Cảm ơn anh vì những kiến thức bổ ích ạ. Hi vọng anh sẽ cố gắng ra thêm nhiều video anh nhé!
@ngongocuc3681 Рік тому
hay quá anh ! Hy vọng anh ra nhiều video hơn nữa ạ
@broccoloodle 2 роки тому
Cám ơn anh đã làm ra một video thú vị dành cho các bạn mới vào nghề ạ
@coodung 2 роки тому ⁺¹
Em đang học môn này trên trường nhưng toàn lý thuyết, nhờ video của anh em hiểu rõ hơn. Cảm ơn anh nhiều, mong anh ra nhiều video tương tự ạ
@longgg1215 2 роки тому
Mình nghĩ quan trọng là setup ntn thôi
@phamthaihoangtung 2 роки тому
Cảm ơn anh đã có một video trực quan.
@anphan1591 Рік тому
mình nhảy việc từ khối ngành kinh tế sang vị trí xây dựng report ở bank, mình ko chắc vị trí của mình có phải data engineer ko vì hệ thống data của bên mình do công ty mẹ ở nước ngoài làm, mình chỉ là xây dựng những report theo yêu cầu của user. Nhưng nhờ xem video của bạn mình tìm thấy khá nhiều điều hay ho và muốn học hỏi thêm. Cảm ơn bạn rất nhiều
@DataGuyStory Рік тому
vị trí này thường hay gọi là BI Engineer hoặc một số cty gọi là Data Analyst đó bạn
@anphan1591 Рік тому
@@DataGuyStory cảm ơn bạn nhé. Mình cũng chỉ mới chuyển ngành, mới biết SQL thôi nên còn nhiều cái mơ hồ nhiều lúc ko biết mình ko biết gì để hỏi luôn ấy =)) coi video của bạn giúp mình định hình dc 1 số thứ rồi. Mong sẽ sớm xem thêm nhiều video từ bạn
@ongnguyen8473 Рік тому
tuyệt quá a xem xong có động lực lắm
@グエンコン-w1u 2 роки тому
cám ơn anh vì video hữu ích. mong chờ những video chia sẻ tiếp theo ạ.
@nghoangphuc 2 роки тому ⁺¹
Hi, your videos are very intriguing. I'm also working in Data Engineering and BI in Toronto. Glad to know you and hope to have a chat about this area in the future
@inhvanquan7425 2 роки тому
Em cảm ơn anh rất nhiều, em mới bắt đầu học DE, những video của anh giúp em rất nhiều luôn ạ
@vuxuanhuy9079 2 роки тому
bạn ơi bạn có ròadmap k mình xin vs
@dangtran9405 2 роки тому
Không cần tutorial step by step đâu a Cảnh. Chỉ cần hướng dẫn flow etl từ a tới z ntn cho những proj và cv thực tế của DE là dc. Tụi e tự học để làm dc như v hay hơn tutorial nhìn code.
@danhnguyen7803 2 роки тому ⁺¹
Video bổ ích lắm ạ. Em đang học thêm về DE, hi vọng anh có thể public link project em tự cài cắm nghiên cứu thêm ạ, thank anh
@dientri2090 2 роки тому ⁺¹
Cảm ơn anh nhiều lắm ạ
Rất bổ ích
@thanginh78 2 роки тому
hay quá anh ơi. Mong anh ra nhiều video hơn ạ. Cảm ơn anh.
@doducanh5098 2 роки тому
hay quá! mình đang muốn làm data engineer mà coi xong cũng thấy nhiều công cụ chưa biết quá. hơi buồn nhẹ
@dangtran9405 2 роки тому ⁺²
a làm thêm về elastic search vs redis trong proj data thực tế đi ạ. tks a
@linhnguyenhai4072 2 роки тому
Chờ anh ra thêm nhiều video ạ
@vanviethieuanh2237 2 роки тому
Chuyên sâu và dễ hiểu, vui tính + đẹp trai :v e like + sub vào 1:47
@the_real_dec1mo 2 роки тому
Video quá hay, quá thực tế. Cảm ơn anh!
@valentinussofa4135 2 роки тому
This is an amazing project. Many thanks from Indonesia. God bless you. 🙏
@atnguyennang5052 2 роки тому
Hay quá, làm thêm nhiều video nữa nhé anh
@nghiabui9973 2 роки тому
anh làm thêm về datalakehouse đi anh nghe thấy ngta bảo kiến trúc vượt trội lắm
@khoitran9291 2 роки тому
hay quá anh ơi, mong anh làm thêm nhiêu video
@JK-wi9ms Рік тому
cảm ơn anh ạ! quá hay và bổ ích
@anhlq31 2 роки тому ⁺¹
VIdeo hay quá anh ạ.
Em có câu hỏi này mong anh giải đáp: Việc ingest dữ liệu bằng job spark so với cách dùng kafka change data capture thì ưu nhược điểm từng cách ntn ạ và thực tế thì cách nào được sử dụng ạ
@DataGuyStory 2 роки тому
CDC nó là real-time ingestion đó em. Còn như trong video là batch ingestion. Sự khác nhau là khi em dùng CDC, mỗi lần data thay đổi nó sẽ ingest vào datalake/data warehouse. Còn batch thì chạy theo scheduler.
Tuỳ theo nhu cầu của cty mà người ta chọn realtime bay batch. Nhưng real time khá tốn kém vì yêu cầu High Availability trong khi batch thì rẻ hơn
@anhlq31 2 роки тому
@@DataGuyStory Em cảm ơn anh ạ
@khoanguyen85sgn 2 роки тому
hello Cảnh.
Bữa h a có xem qua blog của Cảnh & các video trên UA-cam thấy rất bổ ích & muốn chuyển sang làm Data Engineer.
Nhưng câu hổi là:
Học ở đâu bám sát nội dung cần thiết nhất ? Chi phí thấp nhất ?
Vì hiện tại a có tham khảo leetcode, Coursera, DataCamp & Udacity thì thấy giá cao so với đồng lương ít ỏi của a hiện nay.
Ví như Udacity thì khoảng 500$ cho 5 months
Cám ơn Cảnh
@DataGuyStory 2 роки тому
rẻ nhất và bám sát nhất là tự học thôi anh. Bám sát theo documentation. Anh có thể tham khảo cái lộ trình ở đây facebook.com/dataguystory/posts/pfbid02tFwzzPqvnHxyN3zRsr8fw78rV2Mjf8Ss494W5oGn3nuXPqUDisjViDoj5S5VLdm9l
@khoanguyen85sgn 2 роки тому
@@DataGuyStory cám ơn Cảnh nhé
@tanhoang6209 2 роки тому
Cảm ơn anh rất nhiều vì video cực kì bổ ích ạ
@ngontran 2 роки тому
Giờ mới được mở rộng tầm mắt. Thnx. 👍. Có thể cho mình hỏi nếu muốn học về những công nghệ này mình phải chạy trên MacOS ko bạn?
@vutruong648 4 місяці тому
a hướng dẫn thu thập dữ liệu IoT vào DataLake đi a
@TrầnXuânĐức-p8i 5 місяців тому
Không hiểu sao em chạy sbt clean assembly để tạo file jar bị lỗi không fix đc???
@hungvnt7712 Рік тому
đã lâu rồi không thấy anh đăng video mới, dạy Data...
@vannhatcao2242 2 роки тому
Em cảm những chia sẻ thú vị và hữu ích của anh ạ
@baostoneytb Рік тому
Cảm ơn rất nhiều ! It's very helpful.
@Scorpisces1911 2 роки тому
Hope to see you soon
@DataGuyStory 2 роки тому ⁺¹
ủa tự dưng youtube tự động mở cái donate gì đây. Cám ơn em nhé, anh mới tắt rồi đợi nhiều subcribers rồi mở sau :)))
@Scorpisces1911 2 роки тому
@@DataGuyStory hình như xài UA-cam Premium là thấy á anh. Em thử mở = account khác thì ko thấy "Thanks" button :D
updated: à em thấy button đó ẩn goy` đó anh :D
@DataGuyStory 2 роки тому ⁺¹
@@Scorpisces1911 ùa, anh mới tắt. Ai đi xin tiền lộ liễu vậy kì :))
@TheGioiTV-di7nj 5 місяців тому
Hi a , e đang tìm hiểu về big data, e thấy video của a rất hay nhưng do mới tìm hiểu nên ko hiểu tại sao lại code bằng file đuôi jar. E đã biết sẳn ngôn ngữ typescript vậy có thể dùng typescrip ko ạ.
@hienhoangtrong5865 2 роки тому
hay quá ạ❤ Cảm ơn anh rất nhiều
@myanhtranngoc8893 Рік тому
Anh ơi anh có thể chỉ em cách tải mysql và hadoop về Macbook được ko ah 😅😢
@vuangquang4546 2 роки тому
cảm ơn anh! video quá hay
@bidiezalor 2 роки тому
Cảm ơn a.Cảnh đã ra video giải thích rất rõ. Nhưng mà em có 1 thắc mắc cho em hỏi là lúc mình ingestion thì chắc chắn là để dạng raw data rồi, và trong video em thấy anh lưu ở định dạng parquet, vậy còn những định dạng readable khác thì sao ạ, ví dụ: csv, json,... Trong thực tế mình làm thì mình luôn ưu tiên raw data là parquet hay sao ạ.
@DataGuyStory 2 роки тому
yea, trong thực tế thì người ta prefer lưu ở parquet hoặc arvo hơn. Trừ những trường hợp bất khả kháng như heavily nested json hoặc âm thanh, hình ảnh. Parquet/Arvo nó nén với tối ưu hóa chi phí.
@thelongnguyen9645 2 роки тому
video của bạn rất là hay, cảm ơn bạn
@NamNguyen-pn1od Рік тому
anh cho em hỏi lúc anh connect superset với data warehouse thông qua sparksql, hive hay là presto vậy ạ, em có sử dụng superset và metabase để connect với thông qua hive hay sparksql đều được nhưng khi thực hiện các câu truy vấn count, join sum, cơ bản hay vẽ chart thì nó không hiện gì cả,
@kajaplayer1866 Рік тому
tuyệt vời luôn anh ơi, keep it up 😍
@linhluonleo04 5 місяців тому
Anh ơi cho em hỏi là giữa scala2 và scala3 thì mình thường sẽ sử dụng phiên bản nào tại em thấy giữa 2 phiên bản này về các câu lệnh, cú pháp có vẻ khác nhau và liệu nó có chạy hiệu quả hơn với scala3 không vì tại nó là phiên bản mới. Em cảm vì anh đã ra những video chất lượng về chủ đề Data Engineer này và mong a sớm ra video mới.
@DataGuyStory 3 місяці тому
cứ học cái mới nhất thôi em. Scala3 mà quất, cơ mà anh thấy cũng không khác nhau mấy
@NamNguyen-pn1od Рік тому
anh cho em hỏi cái assemblyMergeStrategy đó áp dụng cho mọi chương trình scala ạ ?
@tanhoang6209 2 роки тому
Tuyệt vời quá a ơi
@JackLee-oq2io 2 роки тому
Hi vọng được xem tutorial của anh trên github :)
@PhúNguyễnĐắcHoàng Рік тому
dạ em chào anh, em đã làm được tới bước thiết lập xong apache superset, nhưng em có thắc mắc là hive khi em sử dụng những câu lệnh như count, sum đều không được vì thế superset em không thể hiển thị được các chart kiểu như anh, anh có thể cho em biết vấn đề này xuất phát từ đâu được không ạ.
@tuantu260507 2 роки тому ⁺¹
Cám ơn bạn rất nhiều.
1.Bạn cho mình hỏi sao lúc ingestion không insert vào hadoop thông qua hive luôn.
2. Nếu load toàn bộ dữ liệu lên spark datafile và thực hiện join, group trong spark thì như vậy spark sẽ dùng RAM rất khủng khiếp đối với dữ liệu lớn
3. Sao mình không thực hiện aggregate dữ liệu bằng các câu lệnh aggregate dữ liệu của hive sum/group by.....luôn.
@DataGuyStory 2 роки тому ⁺¹
1. Muốn lưu table qua hive thì bạn phải biết được structure của table để tạo table tương ứng trên hive. Trong khi data source có thể đến từ nhiều nguồn khác nhau như NoSQL chẳng hạn thì không có cách nào biết được data structure của nó. Bản chất của Datalake là nơi chứa raw data, data có thể là image, pdf, sound.... chưa kể lỡ data structure của source thay đổi thì mình không thể nào ingest vào hive được, phải tiếp tục đổi hive structure.
2. Việc load data lên Spark dataframe là hoàn toàn bình thường khi làm việc với Big Data. Một hệ thống spark cluster trung bình cũng phải 500Gb Ram rồi. Tuy nhiên vẫn có cơ chế HA và cost saving, cấp phát resources. Bạn tìm hiểu thêm Spark nhé.
3. Như mình đã nói ở trên, data từ datalake không có hive table thì làm sao sử dụng được. Chưa kể Hive là data warehouse software chứ không phải là query engine như Presto, nó chỉ hỗ trợ SQL-like query thôi nên việc aggregation trên hive không hiệu quả. Trong video chỉ là ví dụ đơn giản để mình giúp các bạn hình dung được 1 hệ thống hoàn chỉnh chứ ở ngoài việc xử lý data từ datalake -> data warehouse nó phức tạp hơn nhiều, số lượng data cũng rất lớn chứ không đơn giản vài trăm records.
@tuantu260507 2 роки тому
Cám ơn bạn đã giải thích rất chi tiết
@theanhvu2443 2 роки тому
Em không biết kiến thức như nào nhưng câu trả lời hive không phải query engine và không phù hợp để join của anh em nghĩ không đúng rồi. Vốn cái spark anh dùng (API dataframe) được build trên nền spark sql và spark sql dùng engine mặc định là hive. còn việc cài riêng 1 con hive để chạy nó lại là việc khác.
@DataGuyStory 2 роки тому ⁺¹
@@theanhvu2443
Hi bạn, cám ơn bạn đã góp ý. Đúng là bên trong Hive có thể coi là query engine (định nghĩa là SQL-like query engine designed) - nó được thiết kế như giống như query engine thôi chứ bản thân nó không phải. Cơ bản nó transform HiveQL (SQL) thành MapReduces hoặc Tez jobs để chạy trên Hadoop. Việc này làm cho latency và performance của Hive rất kém. Trong một số kiến trúc, người ta còn sử dụng Spark là execution engine cho hive nữa để tăng performance.(blog.clairvoyantsoft.com/running-hive-jobs-using-spark-execution-engine-on-google-cloud-dataproc-cluster-8edcf6b47983) Nói về Hive thì rất ít công ty xài Hive như query engine, đa phần mọi người hay sử dụng Presto nhé (Presto + Hive). Bạn có thể tham khảo thêm về Hive ở đây aws.amazon.com/big-data/what-is-hive/ hoặc cwiki.apache.org/confluence/display/Hive//Home
Về Spark, mình đính chính là Spark SQL không sử dụng engine của Hive để làm execution nhé, Spark sử dụng Tungsten Execution và Catalyst Optimizer. Khi mình sử dụng enableHiveSupport trong spark, không phải là query sẽ được chạy trên Hive, mà chính xác là nó thay đổi catalog (spark.sql.catalogImplementation) của Spark từ in-memory sang hive, Spark sẽ connect vào Hive metastore để lấy thông tin table. Khi đó, spark chỉ sử dụng 3 thứ từ hive: metastore, UDF và SerDe. ua-cam.com/video/ywPuZ_WrHT0/v-deo.html
Bạn có thể thử bằng cách dựng Hive - Spark, khi Spark SQL chạy nó lẽ lấy thông tin từ hive metastore và không có cái mapreduce job nào được chạy. Nhưng mà khi chạy query sử dụng hive console thì sẽ có mapreduce hoặc tez job.
@theanhvu2443 2 роки тому
@@DataGuyStory rất hay và bổ ích em sẽ đọc thêm về cái vụ hive không thực chất là query engine cò về spark em muốn hỏi thêm. Về bản chất dù là API nào của spark cũng sẽ được build về RDD để thực thi. Tungsten Execution và Catalyst Optimize là hai thành phần giúp anh có thể thực hiện việc biến đổi dữ liệu trên tập nhị phân thôi chứ nhỉ(vì việc serialization về java object sau đó tính toán rất tốn tài nguyên), đấy là những gì em hiểu. không biết anh có thể giả thích cho em rõ hơn về phần này. cũng như việc tối ưu của encoders(dùng cho DF, DS) so với kryo(rdd),không anh.
@khanhaonhat4465 Рік тому
anh dùng docker để chạy ubuntu, rồi cài đặt hadoop, hive, spark trên ubuntu phải ko anh
@VyĐặngThịTường-i3m Рік тому
Anh ơi, em không phải dân DE ạ, hiện tại em đang intern vị trí DS nhưng task có dính tới phần parse data json từ Data warehousevà đẩy ngược về Data warehouse để có thể sử dụng. Em có parse thử r dạng json đó nhưng từ một file mẫu excel, nma parse trực tiếp từ datawarehouse thì em chưa biết làm ntn ạ huhu :( :(
@HuyNguyen-nw1uh 2 роки тому
Video rất hay anh ơi, 1000 likes cho anh.
Mà trên server của big data sẽ chạy tự động như thế nào trong thực tế ạ?
Và việc incremental loading sẽ lấy update record từ application như thế nào anh?
@DataGuyStory 2 роки тому
Thực tế chạy tự động, người ta sẽ sử dụng scheduler như airflow hoặc luigi em nhé. Còn incremental loading thì đa phần là append và insert. Muốn upsert hiệu quả nhất thì em có thể tham khảo CDC (Change Data Capture)
@jackjun4545 Рік тому
anh ơi , em nghe video của anh rất cuốn ạ ?
nhưng em là người mới bắt đầu , em chưa có thể làm theo anh được . Anh có thể cho em xin link để học tutorial dành cho beginner được không ạ .
Em cày cả tuần video của anh mà vẫn không biết làm sao , làm như nào có thể ra được như vậy ạ
@trichau9569 4 місяці тому
anh ơi em thấy việc tìm intern Data engineer cho sinh viên mới ra trường khá khó và hiếm, vậy em có thể tìm theo hướng nào khác để sau phát triển tiếp thành data engineer ạ
@Ari_Peace68 2 роки тому
Cảm ơn bạn nhiều, video hay lắm
@nguyenvantien123 2 роки тому
Cảm ơn bạn. Thích :)
@ThinhLe-eh9re Рік тому
Thanks for your sharing guy
@thichchoigames2024 Рік тому
Bổ ích quá thanks bạn
@TrungNguyen-zw7sj 2 роки тому
A nên chỉnh phóng to màn hình lên để đt xem đc nhé
@vinhlaiquang5333 2 роки тому
Cảm ơn đã share video demo. Cho mình hỏi là vì sao phải dùng hive để retrieve data? Có thể dùng spark sql để retrieve ko? Vs lại thay vì save result data to hdfs, có thể save to redis để retrieve cho nhanh ko?
@DataGuyStory 2 роки тому
Câu hỏi của bạn có vẻ như bạn chưa biết nhiều về data warehouse nên mình nói sơ thôi nhé.
1 - Hive ở đây là data warehouse, còn data thì lưu bên dưới HDFS. Spark SQL không đọc trực tiếp được HDFS nhé, phải load từ HDFS lên spark dataframe mới sử dụng spark SQL.
2 - Save vào đâu cũng được, tùy vào mục đích sử dụng. Mình save vào HDFS để build Data Warehouse. Còn Redis dành cho mục đích khác
@vinhlaiquang5333 2 роки тому
Cảm ơn bạn nhiều nha, mình cũng mới vừa tìm hiểu mấy cái này nên chưa rõ lắm.
@anhtv8373 2 роки тому
Học về data thì nên mua laptop như nào vậy a , tầm giá 20tr ạ

Наступне

Автоматичне відтворення

Tại sao mình nghỉ việc Data Scientist? Lời khuyên cho các bạn muốn làm Data Scientist.