Nhiều bạn thắc mắc cái tool mà tui sử dụng trong video. Đây là cái tool tui tự chế dùng library faker, bạn nào quan tâm thì link đây nha github.com/canhtran/dgscli
Dạ a ơi, e có tải tool của a trên gib và về generate data thử nhưng cứ bị báo lỗi "ModuleNoteFoundError: No module named 'click'". Nếu có thể a cho e hỏi e cần làm thêm bước nào để chạy được tool ạ. E cảm ơn a!!!
Hay quá a Cảnh ơi, đừng bỏ channel nhé anh ơi vì anh là 1 trong số ít những người ở VN làm các chủ đề về Data Engineer. Dù giá trị kinh tế có thể mang lại không được bao nhiêu so với công sức, nhưng giá trị anh mang lại cộng đồng những người đang theo đuổi lĩnh vực data là rất lớn, keep up the good work! As a new grad engineer của Holistics, thật vui khi Holistics được anh mention tới cùng với 2 ông lớn BI PowerBi và Tableau trong các blog và youtube video của anh. Là 1 BI product của người Việt, hy vọng tool sẽ được mọi người gọi tên và biết tới nhiều hơn hehe
mình thực sự cảm ơn Cảnh nhiều nha, thực sự bổ ích đừng bỏ channel nhé Cảnh ơi vì anh là 1 trong số ít những người ở VN làm các chủ đề về Data Engineer. Dù giá trị kinh tế có thể mang lại không được bao nhiêu so với công sức, nhưng giá trị anh mang lại cộng đồng những người đang theo đuổi lĩnh vực data là rất lớn
Nếu được thì nhờ bạn có thể làm tiếp series phần 2 với nguồn vào đổ vào datalake thêm một nguồn nữa là NoSQL, sau đó phần ETL kết hợp giữa 2 loại dữ liệu SQL và NoSQL để đổ vào datawarehouse
Mình thích các video tổng quan thế này. Nó dễ tiếp cận với đại đa số người mới như mình. Cái khó nhất của một người mới như mình là họ cần biết là kiến thức đó nó giải quyết được gì. Và mình thấy các video của bạn đã làm được điều đó.
hay quá anh ơi, mong anh tiếp tục ra video kiểu này. Em đang từ BE chuyển sang học DE, video của anh hữu ích quá. Em chúc anh sức khỏe và tiếp tục ra những video như này ạ.
Mình cũng đang nghiên cứu triển khai data lake cho công ty mình. Mong bác ra nhiều video về data lake, data warehouse, các công cụ thiết kế data pipeline, etl, ingestion để học hỏi thêm. Cám ơn bạn nhiều nhé !
Mình không chuyên về data nhưng thấy bạn giải thích dễ hiểu nên thật sự mình hy vọng bạn ra nhiều videos hơn để mọi người có thể học tập thêm. Nếu có tut thì càng tốt. Chúc bạn thành công
video chất lượng quá, cảm ơn Cảnh. Lâu nay chưa hình dung được HDFS lưu file như thế nào. Nay đã clear được rồi. Hy vọng Cảnh tiếp tục những series như vậy
Cám ơn anh Cảnh. Em có biết anh thông qua vài video của anh Hoàng code dạo, mà không biết là anh có kênh youtube riêng. Em làm software bên Canada, tuy không chuyên về data nhưng video của anh giúp em có thêm ý tưởng để giải quyết một vài vấn đề hiện tại trong công ty. Hy vọng anh có thể ra thêm nhiều video hay như thế này nữa. Chúc anh sức khoẻ!
em còn nhớ bài về JAV của anh mà giờ anh ra tới cái này rồi hay quá. Em thấy đa phần tụi em có thể tự học phần code, học trên mạng nhiều tài liệu tuy nhiên tụi em bị thiếu về phần ý tưởng để thực hiện và công cụ nào thực hiện các steps đó. Mong anh ra video dạng đó nhiều hơn em cám ơn anh ạ.
oh my god luôn, em rất thích video dạng như này luôn á anh tại em cũng đang là sinh viên năm 3 chuyên ngành khoa học dữ liệu giống anh nên kiểu coi video như học được những cái hay ho vì vậy mong anh hãy ráng ra video nha anhhh.
em không phải Data Engineer nhưng yêu thích xem mọi người làm gì với data, xem video của anh cuốn lắm ạ. Không quá nặng về kỹ năng code - em không biết code sql mà xem vẫn thấy hay, video thiên về tư duy logic để giải quyết vấn đề, video hay lắm anh ạ. Bật chuông đợi video tiếp theo của anh ạ hehe :v
Anh chính là người cho em cảm hứng để theo DE, lâu rồi anh mới ra video mà video kiểu thực chiến như này ok lắm anh. Chúc anh nhiều sức khoẻ để có thể ra thêm nhiều video bổ ích nha.
theo dõi anh từ những clip dầu vì thích cách edit và dẫn dắt của anh. Và khi nghe anh nói là anh sẽ đọc hết comment của mọi người, em cảm thấy rất trân trọng. Em cũng đang mày mò học thêm về Spark. Hóng 1 clip a chia sẻ chuyên sâu 1 chút về các cách tối ưu khi xài Spark SQL join
mình nhảy việc từ khối ngành kinh tế sang vị trí xây dựng report ở bank, mình ko chắc vị trí của mình có phải data engineer ko vì hệ thống data của bên mình do công ty mẹ ở nước ngoài làm, mình chỉ là xây dựng những report theo yêu cầu của user. Nhưng nhờ xem video của bạn mình tìm thấy khá nhiều điều hay ho và muốn học hỏi thêm. Cảm ơn bạn rất nhiều
@@DataGuyStory cảm ơn bạn nhé. Mình cũng chỉ mới chuyển ngành, mới biết SQL thôi nên còn nhiều cái mơ hồ nhiều lúc ko biết mình ko biết gì để hỏi luôn ấy =)) coi video của bạn giúp mình định hình dc 1 số thứ rồi. Mong sẽ sớm xem thêm nhiều video từ bạn
Hi, your videos are very intriguing. I'm also working in Data Engineering and BI in Toronto. Glad to know you and hope to have a chat about this area in the future
Không cần tutorial step by step đâu a Cảnh. Chỉ cần hướng dẫn flow etl từ a tới z ntn cho những proj và cv thực tế của DE là dc. Tụi e tự học để làm dc như v hay hơn tutorial nhìn code.
VIdeo hay quá anh ạ. Em có câu hỏi này mong anh giải đáp: Việc ingest dữ liệu bằng job spark so với cách dùng kafka change data capture thì ưu nhược điểm từng cách ntn ạ và thực tế thì cách nào được sử dụng ạ
CDC nó là real-time ingestion đó em. Còn như trong video là batch ingestion. Sự khác nhau là khi em dùng CDC, mỗi lần data thay đổi nó sẽ ingest vào datalake/data warehouse. Còn batch thì chạy theo scheduler. Tuỳ theo nhu cầu của cty mà người ta chọn realtime bay batch. Nhưng real time khá tốn kém vì yêu cầu High Availability trong khi batch thì rẻ hơn
hello Cảnh. Bữa h a có xem qua blog của Cảnh & các video trên UA-cam thấy rất bổ ích & muốn chuyển sang làm Data Engineer. Nhưng câu hổi là: Học ở đâu bám sát nội dung cần thiết nhất ? Chi phí thấp nhất ? Vì hiện tại a có tham khảo leetcode, Coursera, DataCamp & Udacity thì thấy giá cao so với đồng lương ít ỏi của a hiện nay. Ví như Udacity thì khoảng 500$ cho 5 months Cám ơn Cảnh
rẻ nhất và bám sát nhất là tự học thôi anh. Bám sát theo documentation. Anh có thể tham khảo cái lộ trình ở đây facebook.com/dataguystory/posts/pfbid02tFwzzPqvnHxyN3zRsr8fw78rV2Mjf8Ss494W5oGn3nuXPqUDisjViDoj5S5VLdm9l
@@DataGuyStory hình như xài UA-cam Premium là thấy á anh. Em thử mở = account khác thì ko thấy "Thanks" button :D updated: à em thấy button đó ẩn goy` đó anh :D
Hi a , e đang tìm hiểu về big data, e thấy video của a rất hay nhưng do mới tìm hiểu nên ko hiểu tại sao lại code bằng file đuôi jar. E đã biết sẳn ngôn ngữ typescript vậy có thể dùng typescrip ko ạ.
Cảm ơn a.Cảnh đã ra video giải thích rất rõ. Nhưng mà em có 1 thắc mắc cho em hỏi là lúc mình ingestion thì chắc chắn là để dạng raw data rồi, và trong video em thấy anh lưu ở định dạng parquet, vậy còn những định dạng readable khác thì sao ạ, ví dụ: csv, json,... Trong thực tế mình làm thì mình luôn ưu tiên raw data là parquet hay sao ạ.
yea, trong thực tế thì người ta prefer lưu ở parquet hoặc arvo hơn. Trừ những trường hợp bất khả kháng như heavily nested json hoặc âm thanh, hình ảnh. Parquet/Arvo nó nén với tối ưu hóa chi phí.
anh cho em hỏi lúc anh connect superset với data warehouse thông qua sparksql, hive hay là presto vậy ạ, em có sử dụng superset và metabase để connect với thông qua hive hay sparksql đều được nhưng khi thực hiện các câu truy vấn count, join sum, cơ bản hay vẽ chart thì nó không hiện gì cả,
Anh ơi cho em hỏi là giữa scala2 và scala3 thì mình thường sẽ sử dụng phiên bản nào tại em thấy giữa 2 phiên bản này về các câu lệnh, cú pháp có vẻ khác nhau và liệu nó có chạy hiệu quả hơn với scala3 không vì tại nó là phiên bản mới. Em cảm vì anh đã ra những video chất lượng về chủ đề Data Engineer này và mong a sớm ra video mới.
dạ em chào anh, em đã làm được tới bước thiết lập xong apache superset, nhưng em có thắc mắc là hive khi em sử dụng những câu lệnh như count, sum đều không được vì thế superset em không thể hiển thị được các chart kiểu như anh, anh có thể cho em biết vấn đề này xuất phát từ đâu được không ạ.
Cám ơn bạn rất nhiều. 1.Bạn cho mình hỏi sao lúc ingestion không insert vào hadoop thông qua hive luôn. 2. Nếu load toàn bộ dữ liệu lên spark datafile và thực hiện join, group trong spark thì như vậy spark sẽ dùng RAM rất khủng khiếp đối với dữ liệu lớn 3. Sao mình không thực hiện aggregate dữ liệu bằng các câu lệnh aggregate dữ liệu của hive sum/group by.....luôn.
1. Muốn lưu table qua hive thì bạn phải biết được structure của table để tạo table tương ứng trên hive. Trong khi data source có thể đến từ nhiều nguồn khác nhau như NoSQL chẳng hạn thì không có cách nào biết được data structure của nó. Bản chất của Datalake là nơi chứa raw data, data có thể là image, pdf, sound.... chưa kể lỡ data structure của source thay đổi thì mình không thể nào ingest vào hive được, phải tiếp tục đổi hive structure. 2. Việc load data lên Spark dataframe là hoàn toàn bình thường khi làm việc với Big Data. Một hệ thống spark cluster trung bình cũng phải 500Gb Ram rồi. Tuy nhiên vẫn có cơ chế HA và cost saving, cấp phát resources. Bạn tìm hiểu thêm Spark nhé. 3. Như mình đã nói ở trên, data từ datalake không có hive table thì làm sao sử dụng được. Chưa kể Hive là data warehouse software chứ không phải là query engine như Presto, nó chỉ hỗ trợ SQL-like query thôi nên việc aggregation trên hive không hiệu quả. Trong video chỉ là ví dụ đơn giản để mình giúp các bạn hình dung được 1 hệ thống hoàn chỉnh chứ ở ngoài việc xử lý data từ datalake -> data warehouse nó phức tạp hơn nhiều, số lượng data cũng rất lớn chứ không đơn giản vài trăm records.
Em không biết kiến thức như nào nhưng câu trả lời hive không phải query engine và không phù hợp để join của anh em nghĩ không đúng rồi. Vốn cái spark anh dùng (API dataframe) được build trên nền spark sql và spark sql dùng engine mặc định là hive. còn việc cài riêng 1 con hive để chạy nó lại là việc khác.
@@theanhvu2443 Hi bạn, cám ơn bạn đã góp ý. Đúng là bên trong Hive có thể coi là query engine (định nghĩa là SQL-like query engine designed) - nó được thiết kế như giống như query engine thôi chứ bản thân nó không phải. Cơ bản nó transform HiveQL (SQL) thành MapReduces hoặc Tez jobs để chạy trên Hadoop. Việc này làm cho latency và performance của Hive rất kém. Trong một số kiến trúc, người ta còn sử dụng Spark là execution engine cho hive nữa để tăng performance.(blog.clairvoyantsoft.com/running-hive-jobs-using-spark-execution-engine-on-google-cloud-dataproc-cluster-8edcf6b47983) Nói về Hive thì rất ít công ty xài Hive như query engine, đa phần mọi người hay sử dụng Presto nhé (Presto + Hive). Bạn có thể tham khảo thêm về Hive ở đây aws.amazon.com/big-data/what-is-hive/ hoặc cwiki.apache.org/confluence/display/Hive//Home Về Spark, mình đính chính là Spark SQL không sử dụng engine của Hive để làm execution nhé, Spark sử dụng Tungsten Execution và Catalyst Optimizer. Khi mình sử dụng enableHiveSupport trong spark, không phải là query sẽ được chạy trên Hive, mà chính xác là nó thay đổi catalog (spark.sql.catalogImplementation) của Spark từ in-memory sang hive, Spark sẽ connect vào Hive metastore để lấy thông tin table. Khi đó, spark chỉ sử dụng 3 thứ từ hive: metastore, UDF và SerDe. ua-cam.com/video/ywPuZ_WrHT0/v-deo.html Bạn có thể thử bằng cách dựng Hive - Spark, khi Spark SQL chạy nó lẽ lấy thông tin từ hive metastore và không có cái mapreduce job nào được chạy. Nhưng mà khi chạy query sử dụng hive console thì sẽ có mapreduce hoặc tez job.
@@DataGuyStory rất hay và bổ ích em sẽ đọc thêm về cái vụ hive không thực chất là query engine cò về spark em muốn hỏi thêm. Về bản chất dù là API nào của spark cũng sẽ được build về RDD để thực thi. Tungsten Execution và Catalyst Optimize là hai thành phần giúp anh có thể thực hiện việc biến đổi dữ liệu trên tập nhị phân thôi chứ nhỉ(vì việc serialization về java object sau đó tính toán rất tốn tài nguyên), đấy là những gì em hiểu. không biết anh có thể giả thích cho em rõ hơn về phần này. cũng như việc tối ưu của encoders(dùng cho DF, DS) so với kryo(rdd),không anh.
Anh ơi, em không phải dân DE ạ, hiện tại em đang intern vị trí DS nhưng task có dính tới phần parse data json từ Data warehousevà đẩy ngược về Data warehouse để có thể sử dụng. Em có parse thử r dạng json đó nhưng từ một file mẫu excel, nma parse trực tiếp từ datawarehouse thì em chưa biết làm ntn ạ huhu :( :(
Video rất hay anh ơi, 1000 likes cho anh. Mà trên server của big data sẽ chạy tự động như thế nào trong thực tế ạ? Và việc incremental loading sẽ lấy update record từ application như thế nào anh?
Thực tế chạy tự động, người ta sẽ sử dụng scheduler như airflow hoặc luigi em nhé. Còn incremental loading thì đa phần là append và insert. Muốn upsert hiệu quả nhất thì em có thể tham khảo CDC (Change Data Capture)
anh ơi , em nghe video của anh rất cuốn ạ ? nhưng em là người mới bắt đầu , em chưa có thể làm theo anh được . Anh có thể cho em xin link để học tutorial dành cho beginner được không ạ . Em cày cả tuần video của anh mà vẫn không biết làm sao , làm như nào có thể ra được như vậy ạ
anh ơi em thấy việc tìm intern Data engineer cho sinh viên mới ra trường khá khó và hiếm, vậy em có thể tìm theo hướng nào khác để sau phát triển tiếp thành data engineer ạ
Cảm ơn đã share video demo. Cho mình hỏi là vì sao phải dùng hive để retrieve data? Có thể dùng spark sql để retrieve ko? Vs lại thay vì save result data to hdfs, có thể save to redis để retrieve cho nhanh ko?
Câu hỏi của bạn có vẻ như bạn chưa biết nhiều về data warehouse nên mình nói sơ thôi nhé. 1 - Hive ở đây là data warehouse, còn data thì lưu bên dưới HDFS. Spark SQL không đọc trực tiếp được HDFS nhé, phải load từ HDFS lên spark dataframe mới sử dụng spark SQL. 2 - Save vào đâu cũng được, tùy vào mục đích sử dụng. Mình save vào HDFS để build Data Warehouse. Còn Redis dành cho mục đích khác
Nhiều bạn thắc mắc cái tool mà tui sử dụng trong video. Đây là cái tool tui tự chế dùng library faker, bạn nào quan tâm thì link đây nha github.com/canhtran/dgscli
Dạ a ơi, e có tải tool của a trên gib và về generate data thử nhưng cứ bị báo lỗi "ModuleNoteFoundError: No module named 'click'". Nếu có thể a cho e hỏi e cần làm thêm bước nào để chạy được tool ạ. E cảm ơn a!!!
@@tamhuynh8868 cài click vào nhé. pip install click
@@DataGuyStory e cảm ơn a lắm ạ !!
Hay quá a Cảnh ơi, đừng bỏ channel nhé anh ơi vì anh là 1 trong số ít những người ở VN làm các chủ đề về Data Engineer. Dù giá trị kinh tế có thể mang lại không được bao nhiêu so với công sức, nhưng giá trị anh mang lại cộng đồng những người đang theo đuổi lĩnh vực data là rất lớn, keep up the good work! As a new grad engineer của Holistics, thật vui khi Holistics được anh mention tới cùng với 2 ông lớn BI PowerBi và Tableau trong các blog và youtube video của anh. Là 1 BI product của người Việt, hy vọng tool sẽ được mọi người gọi tên và biết tới nhiều hơn hehe
haha, cám ơn Triết. Nói anh Huy tài trợ cho anh để anh làm video về Holistics nào, nghèo quá không có bản quyền để làm demo :)))
@@DataGuyStory Sure thing anh :)))
mình thực sự cảm ơn Cảnh nhiều nha, thực sự bổ ích đừng bỏ channel nhé Cảnh ơi vì anh là 1 trong số ít những người ở VN làm các chủ đề về Data Engineer. Dù giá trị kinh tế có thể mang lại không được bao nhiêu so với công sức, nhưng giá trị anh mang lại cộng đồng những người đang theo đuổi lĩnh vực data là rất lớn
Nếu được thì nhờ bạn có thể làm tiếp series phần 2 với nguồn vào đổ vào datalake thêm một nguồn nữa là NoSQL, sau đó phần ETL kết hợp giữa 2 loại dữ liệu SQL và NoSQL để đổ vào datawarehouse
Mình thích các video tổng quan thế này. Nó dễ tiếp cận với đại đa số người mới như mình. Cái khó nhất của một người mới như mình là họ cần biết là kiến thức đó nó giải quyết được gì. Và mình thấy các video của bạn đã làm được điều đó.
Video quá hay. Cấu trúc dễ hiểu mạch lạc, thao tác với terminal + Vim cực mượt mà. Xem đã mắt ghê gớm.
hay quá anh ơi, mong anh tiếp tục ra video kiểu này. Em đang từ BE chuyển sang học DE, video của anh hữu ích quá. Em chúc anh sức khỏe và tiếp tục ra những video như này ạ.
Mình cũng đang nghiên cứu triển khai data lake cho công ty mình. Mong bác ra nhiều video về data lake, data warehouse, các công cụ thiết kế data pipeline, etl, ingestion để học hỏi thêm. Cám ơn bạn nhiều nhé !
Mình không chuyên về data nhưng thấy bạn giải thích dễ hiểu nên thật sự mình hy vọng bạn ra nhiều videos hơn để mọi người có thể học tập thêm.
Nếu có tut thì càng tốt. Chúc bạn thành công
video chất lượng quá, cảm ơn Cảnh. Lâu nay chưa hình dung được HDFS lưu file như thế nào. Nay đã clear được rồi. Hy vọng Cảnh tiếp tục những series như vậy
Cám ơn anh Cảnh. Em có biết anh thông qua vài video của anh Hoàng code dạo, mà không biết là anh có kênh youtube riêng. Em làm software bên Canada, tuy không chuyên về data nhưng video của anh giúp em có thêm ý tưởng để giải quyết một vài vấn đề hiện tại trong công ty. Hy vọng anh có thể ra thêm nhiều video hay như thế này nữa. Chúc anh sức khoẻ!
Video hữu ích lắm ạ! Mình có thể nói là chưa hiểu 100% về big data nhưng xem video của bạn xong thì độ tự tin của mình tăng hẳn :D
hay quá a ơi
em còn nhớ bài về JAV của anh mà giờ anh ra tới cái này rồi hay quá. Em thấy đa phần tụi em có thể tự học phần code, học trên mạng nhiều tài liệu tuy nhiên tụi em bị thiếu về phần ý tưởng để thực hiện và công cụ nào thực hiện các steps đó. Mong anh ra video dạng đó nhiều hơn em cám ơn anh ạ.
oh my god luôn, em rất thích video dạng như này luôn á anh tại em cũng đang là sinh viên năm 3 chuyên ngành khoa học dữ liệu giống anh nên kiểu coi video như học được những cái hay ho vì vậy mong anh hãy ráng ra video nha anhhh.
em không phải Data Engineer nhưng yêu thích xem mọi người làm gì với data, xem video của anh cuốn lắm ạ. Không quá nặng về kỹ năng code - em không biết code sql mà xem vẫn thấy hay, video thiên về tư duy logic để giải quyết vấn đề, video hay lắm anh ạ. Bật chuông đợi video tiếp theo của anh ạ hehe :v
Xịn quá anh. Nhờ có anh mà mấy khái niệm, kiến trúc về data đỡ mờ mịt hơn
Hay quá anh ơi, dễ hiểu bằng cả 1 khóa học Big Data em học ở trường đại học.
nghe xong choáng váng quá
hay quá bạn ơi. Giúp các bạn chưa biết tới Data có cái nhìn trực quan, dễ hiểu hơn. THanks b nhiều
Anh chính là người cho em cảm hứng để theo DE, lâu rồi anh mới ra video mà video kiểu thực chiến như này ok lắm anh. Chúc anh nhiều sức khoẻ để có thể ra thêm nhiều video bổ ích nha.
Chào anh, anh có biết nguồn nào về data engineer roadmap không ạ
Video hay a ơi ^^ a chia sẻ thêm về cách để sắp xếp và làm sạch dữ liệu thô để lưu vào DWH với ạ
đỉnh quá anh, video tới làm về data lake vs data warehouse vs data lakehouse đi anh. Cảm ơn anh vì những video bổ ích
có luôn nhé. Anh đang định làm cho video tiếp theo á
hay quá a ơi 😍😍😍 A làm video kiểu này hay nè a...nó giúp có một cái nhìn tổng quan hơn cho các bạn đang học DE. Mong a ra thêm nhiều vid như này nữa
đang ngồi học sql, data lại nhớ đến a. lâu quá rồi không thấy a ra clip mới. mong a sớm trở lại.
theo dõi anh từ những clip dầu vì thích cách edit và dẫn dắt của anh. Và khi nghe anh nói là anh sẽ đọc hết comment của mọi người, em cảm thấy rất trân trọng. Em cũng đang mày mò học thêm về Spark. Hóng 1 clip a chia sẻ chuyên sâu 1 chút về các cách tối ưu khi xài Spark SQL join
A Cảnh mãi đỉnh 😍
Video của bạn hay và bổ ích quá. Mình mới chuyển qua Data Analysis nên rất cần những video như thế này.
Cám ơn bạn đã tạo ra video rất bổ ích. Hy vọng bạn tiếp tục ra những video tiếp theo. Cám ơn bạn một lần nữa.
Phần sử dụng hive nằm trên tầng HDFS để xem dữ liệu dưới dạng table thì e mới được thấy lần đầu. Cảm ơn a nhiều nhé.
hay quá. chờ a mãi. đó giờ cứ thắc mắc dữ liệu lưu dạng nào, hình thù ra sao. nay dc a giải thích.
Mình tay ngang từ iOS, xem cuốn quá ❤
Hay quá anh ơi, anh có thể phóng to code ra tí thì quá tốt :>
Quá đã a ơi. Video được edit nhìn hút hơn hẳn
Video rất hay, đúng thứ mình đang tìm kiếm. Hy vọng bác sẽ ra thêm nhiều video nữa.
new intro ngầu quá ạ 😤
không uổng công mướn hàng xịn về làm :))
Hay lắm anh ơi mong anh ra nhiều bài về DE DA nhiều hơn nữa
Cực thích video kiểu này nha anh. Cho 2 like luôn !
Video của anh hay quá ạ. Kiến thức rất bổ ích
Hóng lâu lắm rồi giờ mới ra clip 🥺
Cảm ơn anh vì những kiến thức bổ ích ạ. Hi vọng anh sẽ cố gắng ra thêm nhiều video anh nhé!
hay quá anh ! Hy vọng anh ra nhiều video hơn nữa ạ
Cám ơn anh đã làm ra một video thú vị dành cho các bạn mới vào nghề ạ
Em đang học môn này trên trường nhưng toàn lý thuyết, nhờ video của anh em hiểu rõ hơn. Cảm ơn anh nhiều, mong anh ra nhiều video tương tự ạ
Mình nghĩ quan trọng là setup ntn thôi
Cảm ơn anh đã có một video trực quan.
mình nhảy việc từ khối ngành kinh tế sang vị trí xây dựng report ở bank, mình ko chắc vị trí của mình có phải data engineer ko vì hệ thống data của bên mình do công ty mẹ ở nước ngoài làm, mình chỉ là xây dựng những report theo yêu cầu của user. Nhưng nhờ xem video của bạn mình tìm thấy khá nhiều điều hay ho và muốn học hỏi thêm. Cảm ơn bạn rất nhiều
vị trí này thường hay gọi là BI Engineer hoặc một số cty gọi là Data Analyst đó bạn
@@DataGuyStory cảm ơn bạn nhé. Mình cũng chỉ mới chuyển ngành, mới biết SQL thôi nên còn nhiều cái mơ hồ nhiều lúc ko biết mình ko biết gì để hỏi luôn ấy =)) coi video của bạn giúp mình định hình dc 1 số thứ rồi. Mong sẽ sớm xem thêm nhiều video từ bạn
tuyệt quá a xem xong có động lực lắm
cám ơn anh vì video hữu ích. mong chờ những video chia sẻ tiếp theo ạ.
Hi, your videos are very intriguing. I'm also working in Data Engineering and BI in Toronto. Glad to know you and hope to have a chat about this area in the future
Em cảm ơn anh rất nhiều, em mới bắt đầu học DE, những video của anh giúp em rất nhiều luôn ạ
bạn ơi bạn có ròadmap k mình xin vs
Không cần tutorial step by step đâu a Cảnh. Chỉ cần hướng dẫn flow etl từ a tới z ntn cho những proj và cv thực tế của DE là dc. Tụi e tự học để làm dc như v hay hơn tutorial nhìn code.
Video bổ ích lắm ạ. Em đang học thêm về DE, hi vọng anh có thể public link project em tự cài cắm nghiên cứu thêm ạ, thank anh
Cảm ơn anh nhiều lắm ạ
Rất bổ ích
hay quá anh ơi. Mong anh ra nhiều video hơn ạ. Cảm ơn anh.
hay quá! mình đang muốn làm data engineer mà coi xong cũng thấy nhiều công cụ chưa biết quá. hơi buồn nhẹ
a làm thêm về elastic search vs redis trong proj data thực tế đi ạ. tks a
Chờ anh ra thêm nhiều video ạ
Chuyên sâu và dễ hiểu, vui tính + đẹp trai :v e like + sub vào 1:47
Video quá hay, quá thực tế. Cảm ơn anh!
This is an amazing project. Many thanks from Indonesia. God bless you. 🙏
Hay quá, làm thêm nhiều video nữa nhé anh
anh làm thêm về datalakehouse đi anh nghe thấy ngta bảo kiến trúc vượt trội lắm
hay quá anh ơi, mong anh làm thêm nhiêu video
cảm ơn anh ạ! quá hay và bổ ích
VIdeo hay quá anh ạ.
Em có câu hỏi này mong anh giải đáp: Việc ingest dữ liệu bằng job spark so với cách dùng kafka change data capture thì ưu nhược điểm từng cách ntn ạ và thực tế thì cách nào được sử dụng ạ
CDC nó là real-time ingestion đó em. Còn như trong video là batch ingestion. Sự khác nhau là khi em dùng CDC, mỗi lần data thay đổi nó sẽ ingest vào datalake/data warehouse. Còn batch thì chạy theo scheduler.
Tuỳ theo nhu cầu của cty mà người ta chọn realtime bay batch. Nhưng real time khá tốn kém vì yêu cầu High Availability trong khi batch thì rẻ hơn
@@DataGuyStory Em cảm ơn anh ạ
hello Cảnh.
Bữa h a có xem qua blog của Cảnh & các video trên UA-cam thấy rất bổ ích & muốn chuyển sang làm Data Engineer.
Nhưng câu hổi là:
Học ở đâu bám sát nội dung cần thiết nhất ? Chi phí thấp nhất ?
Vì hiện tại a có tham khảo leetcode, Coursera, DataCamp & Udacity thì thấy giá cao so với đồng lương ít ỏi của a hiện nay.
Ví như Udacity thì khoảng 500$ cho 5 months
Cám ơn Cảnh
rẻ nhất và bám sát nhất là tự học thôi anh. Bám sát theo documentation. Anh có thể tham khảo cái lộ trình ở đây facebook.com/dataguystory/posts/pfbid02tFwzzPqvnHxyN3zRsr8fw78rV2Mjf8Ss494W5oGn3nuXPqUDisjViDoj5S5VLdm9l
@@DataGuyStory cám ơn Cảnh nhé
Cảm ơn anh rất nhiều vì video cực kì bổ ích ạ
Giờ mới được mở rộng tầm mắt. Thnx. 👍. Có thể cho mình hỏi nếu muốn học về những công nghệ này mình phải chạy trên MacOS ko bạn?
a hướng dẫn thu thập dữ liệu IoT vào DataLake đi a
Không hiểu sao em chạy sbt clean assembly để tạo file jar bị lỗi không fix đc???
đã lâu rồi không thấy anh đăng video mới, dạy Data...
Em cảm những chia sẻ thú vị và hữu ích của anh ạ
Cảm ơn rất nhiều ! It's very helpful.
Hope to see you soon
ủa tự dưng youtube tự động mở cái donate gì đây. Cám ơn em nhé, anh mới tắt rồi đợi nhiều subcribers rồi mở sau :)))
@@DataGuyStory hình như xài UA-cam Premium là thấy á anh. Em thử mở = account khác thì ko thấy "Thanks" button :D
updated: à em thấy button đó ẩn goy` đó anh :D
@@Scorpisces1911 ùa, anh mới tắt. Ai đi xin tiền lộ liễu vậy kì :))
Hi a , e đang tìm hiểu về big data, e thấy video của a rất hay nhưng do mới tìm hiểu nên ko hiểu tại sao lại code bằng file đuôi jar. E đã biết sẳn ngôn ngữ typescript vậy có thể dùng typescrip ko ạ.
hay quá ạ❤ Cảm ơn anh rất nhiều
Anh ơi anh có thể chỉ em cách tải mysql và hadoop về Macbook được ko ah 😅😢
cảm ơn anh! video quá hay
Cảm ơn a.Cảnh đã ra video giải thích rất rõ. Nhưng mà em có 1 thắc mắc cho em hỏi là lúc mình ingestion thì chắc chắn là để dạng raw data rồi, và trong video em thấy anh lưu ở định dạng parquet, vậy còn những định dạng readable khác thì sao ạ, ví dụ: csv, json,... Trong thực tế mình làm thì mình luôn ưu tiên raw data là parquet hay sao ạ.
yea, trong thực tế thì người ta prefer lưu ở parquet hoặc arvo hơn. Trừ những trường hợp bất khả kháng như heavily nested json hoặc âm thanh, hình ảnh. Parquet/Arvo nó nén với tối ưu hóa chi phí.
video của bạn rất là hay, cảm ơn bạn
anh cho em hỏi lúc anh connect superset với data warehouse thông qua sparksql, hive hay là presto vậy ạ, em có sử dụng superset và metabase để connect với thông qua hive hay sparksql đều được nhưng khi thực hiện các câu truy vấn count, join sum, cơ bản hay vẽ chart thì nó không hiện gì cả,
tuyệt vời luôn anh ơi, keep it up 😍
Anh ơi cho em hỏi là giữa scala2 và scala3 thì mình thường sẽ sử dụng phiên bản nào tại em thấy giữa 2 phiên bản này về các câu lệnh, cú pháp có vẻ khác nhau và liệu nó có chạy hiệu quả hơn với scala3 không vì tại nó là phiên bản mới. Em cảm vì anh đã ra những video chất lượng về chủ đề Data Engineer này và mong a sớm ra video mới.
cứ học cái mới nhất thôi em. Scala3 mà quất, cơ mà anh thấy cũng không khác nhau mấy
anh cho em hỏi cái assemblyMergeStrategy đó áp dụng cho mọi chương trình scala ạ ?
Tuyệt vời quá a ơi
Hi vọng được xem tutorial của anh trên github :)
dạ em chào anh, em đã làm được tới bước thiết lập xong apache superset, nhưng em có thắc mắc là hive khi em sử dụng những câu lệnh như count, sum đều không được vì thế superset em không thể hiển thị được các chart kiểu như anh, anh có thể cho em biết vấn đề này xuất phát từ đâu được không ạ.
Cám ơn bạn rất nhiều.
1.Bạn cho mình hỏi sao lúc ingestion không insert vào hadoop thông qua hive luôn.
2. Nếu load toàn bộ dữ liệu lên spark datafile và thực hiện join, group trong spark thì như vậy spark sẽ dùng RAM rất khủng khiếp đối với dữ liệu lớn
3. Sao mình không thực hiện aggregate dữ liệu bằng các câu lệnh aggregate dữ liệu của hive sum/group by.....luôn.
1. Muốn lưu table qua hive thì bạn phải biết được structure của table để tạo table tương ứng trên hive. Trong khi data source có thể đến từ nhiều nguồn khác nhau như NoSQL chẳng hạn thì không có cách nào biết được data structure của nó. Bản chất của Datalake là nơi chứa raw data, data có thể là image, pdf, sound.... chưa kể lỡ data structure của source thay đổi thì mình không thể nào ingest vào hive được, phải tiếp tục đổi hive structure.
2. Việc load data lên Spark dataframe là hoàn toàn bình thường khi làm việc với Big Data. Một hệ thống spark cluster trung bình cũng phải 500Gb Ram rồi. Tuy nhiên vẫn có cơ chế HA và cost saving, cấp phát resources. Bạn tìm hiểu thêm Spark nhé.
3. Như mình đã nói ở trên, data từ datalake không có hive table thì làm sao sử dụng được. Chưa kể Hive là data warehouse software chứ không phải là query engine như Presto, nó chỉ hỗ trợ SQL-like query thôi nên việc aggregation trên hive không hiệu quả. Trong video chỉ là ví dụ đơn giản để mình giúp các bạn hình dung được 1 hệ thống hoàn chỉnh chứ ở ngoài việc xử lý data từ datalake -> data warehouse nó phức tạp hơn nhiều, số lượng data cũng rất lớn chứ không đơn giản vài trăm records.
Cám ơn bạn đã giải thích rất chi tiết
Em không biết kiến thức như nào nhưng câu trả lời hive không phải query engine và không phù hợp để join của anh em nghĩ không đúng rồi. Vốn cái spark anh dùng (API dataframe) được build trên nền spark sql và spark sql dùng engine mặc định là hive. còn việc cài riêng 1 con hive để chạy nó lại là việc khác.
@@theanhvu2443
Hi bạn, cám ơn bạn đã góp ý. Đúng là bên trong Hive có thể coi là query engine (định nghĩa là SQL-like query engine designed) - nó được thiết kế như giống như query engine thôi chứ bản thân nó không phải. Cơ bản nó transform HiveQL (SQL) thành MapReduces hoặc Tez jobs để chạy trên Hadoop. Việc này làm cho latency và performance của Hive rất kém. Trong một số kiến trúc, người ta còn sử dụng Spark là execution engine cho hive nữa để tăng performance.(blog.clairvoyantsoft.com/running-hive-jobs-using-spark-execution-engine-on-google-cloud-dataproc-cluster-8edcf6b47983) Nói về Hive thì rất ít công ty xài Hive như query engine, đa phần mọi người hay sử dụng Presto nhé (Presto + Hive). Bạn có thể tham khảo thêm về Hive ở đây aws.amazon.com/big-data/what-is-hive/ hoặc cwiki.apache.org/confluence/display/Hive//Home
Về Spark, mình đính chính là Spark SQL không sử dụng engine của Hive để làm execution nhé, Spark sử dụng Tungsten Execution và Catalyst Optimizer. Khi mình sử dụng enableHiveSupport trong spark, không phải là query sẽ được chạy trên Hive, mà chính xác là nó thay đổi catalog (spark.sql.catalogImplementation) của Spark từ in-memory sang hive, Spark sẽ connect vào Hive metastore để lấy thông tin table. Khi đó, spark chỉ sử dụng 3 thứ từ hive: metastore, UDF và SerDe. ua-cam.com/video/ywPuZ_WrHT0/v-deo.html
Bạn có thể thử bằng cách dựng Hive - Spark, khi Spark SQL chạy nó lẽ lấy thông tin từ hive metastore và không có cái mapreduce job nào được chạy. Nhưng mà khi chạy query sử dụng hive console thì sẽ có mapreduce hoặc tez job.
@@DataGuyStory rất hay và bổ ích em sẽ đọc thêm về cái vụ hive không thực chất là query engine cò về spark em muốn hỏi thêm. Về bản chất dù là API nào của spark cũng sẽ được build về RDD để thực thi. Tungsten Execution và Catalyst Optimize là hai thành phần giúp anh có thể thực hiện việc biến đổi dữ liệu trên tập nhị phân thôi chứ nhỉ(vì việc serialization về java object sau đó tính toán rất tốn tài nguyên), đấy là những gì em hiểu. không biết anh có thể giả thích cho em rõ hơn về phần này. cũng như việc tối ưu của encoders(dùng cho DF, DS) so với kryo(rdd),không anh.
anh dùng docker để chạy ubuntu, rồi cài đặt hadoop, hive, spark trên ubuntu phải ko anh
Anh ơi, em không phải dân DE ạ, hiện tại em đang intern vị trí DS nhưng task có dính tới phần parse data json từ Data warehousevà đẩy ngược về Data warehouse để có thể sử dụng. Em có parse thử r dạng json đó nhưng từ một file mẫu excel, nma parse trực tiếp từ datawarehouse thì em chưa biết làm ntn ạ huhu :( :(
Video rất hay anh ơi, 1000 likes cho anh.
Mà trên server của big data sẽ chạy tự động như thế nào trong thực tế ạ?
Và việc incremental loading sẽ lấy update record từ application như thế nào anh?
Thực tế chạy tự động, người ta sẽ sử dụng scheduler như airflow hoặc luigi em nhé. Còn incremental loading thì đa phần là append và insert. Muốn upsert hiệu quả nhất thì em có thể tham khảo CDC (Change Data Capture)
anh ơi , em nghe video của anh rất cuốn ạ ?
nhưng em là người mới bắt đầu , em chưa có thể làm theo anh được . Anh có thể cho em xin link để học tutorial dành cho beginner được không ạ .
Em cày cả tuần video của anh mà vẫn không biết làm sao , làm như nào có thể ra được như vậy ạ
anh ơi em thấy việc tìm intern Data engineer cho sinh viên mới ra trường khá khó và hiếm, vậy em có thể tìm theo hướng nào khác để sau phát triển tiếp thành data engineer ạ
Cảm ơn bạn nhiều, video hay lắm
Cảm ơn bạn. Thích :)
Thanks for your sharing guy
Bổ ích quá thanks bạn
A nên chỉnh phóng to màn hình lên để đt xem đc nhé
Cảm ơn đã share video demo. Cho mình hỏi là vì sao phải dùng hive để retrieve data? Có thể dùng spark sql để retrieve ko? Vs lại thay vì save result data to hdfs, có thể save to redis để retrieve cho nhanh ko?
Câu hỏi của bạn có vẻ như bạn chưa biết nhiều về data warehouse nên mình nói sơ thôi nhé.
1 - Hive ở đây là data warehouse, còn data thì lưu bên dưới HDFS. Spark SQL không đọc trực tiếp được HDFS nhé, phải load từ HDFS lên spark dataframe mới sử dụng spark SQL.
2 - Save vào đâu cũng được, tùy vào mục đích sử dụng. Mình save vào HDFS để build Data Warehouse. Còn Redis dành cho mục đích khác
Cảm ơn bạn nhiều nha, mình cũng mới vừa tìm hiểu mấy cái này nên chưa rõ lắm.
Học về data thì nên mua laptop như nào vậy a , tầm giá 20tr ạ