Gửi mọi người Group Telegream Wecommit Public Community : www.wecommit.com.vn/wecommitcommunity ,anh em có thể trao đổi những câu hỏi , vấn đề khi xem Video và kết nối với tôi trong Group nhé (trường hợp click trực tiếp bị lỗi thì ae copy link ra browser nhé)
về chất lượng cách quay ,bố trí bài giảng, giải thích nội dung thực sự rất dễ hiểu, trực quan. cá nhân em là một người không làm về lĩnh vực liên quan đến database nhưng xem cũng rất dễ hình dùng và tưởng tượng. UA-cam Việt Nam cần những người làm nội dung này như anh. kênh của anh xứng đáng được nhiều người biết đến hơn !
không có khả năng xác thực tất cả các thông tin a đã cung cấp, nhưng cách a cung cấp thông tin theo thứ tự và đặt ra các vấn đề phù hợp với thắc mắc người xem ở từng đoạn làm e cảm giác người làm nội dung video rất hiểu cái mình đang làm, cảm ơn a đã chia sẽ kinh nghiệm quý báu của mình
cảm ơn anh em đã ủng hộ kênh mình nhé. Trong video có nói về phần tối ưu, anh em có thể xem các video khác nữa trong kênh sẽ có nhiều demo và phân tích chi tiết hơn nhé
Em chào anh ạ, cảm ơn anh đã chia sẻ kiến thức hay. Không biết ngoài kênh của anh ra, anh còn biết thêm kênh yt nc ngoài nào hay phân tích các thuật toán hay công nghệ của gg có thể share cho e dc k ạ.
Em có một thắc mắc tý ở bài toán đầu tiên, nó có 3 thứ : cuốn sách, bức ảnh và yêu cầu. Em nghĩ việc so sánh vector giữa cuốn sách và bức ảnh là điều dễ hiểu nhưng cái yêu cầu thì e thấy nó giống "operator" hơn là "data" để so sánh. Liệu có phải là cái yêu cầu sẽ được chuyển về vector rồi AI sẽ phải so sánh nó với các vector của các hành động mà nó hiểu sẵn ( vd: tìm cái tương tự, tìm cái đối ngược) rồi mới biết được cách xử lý giữa 2 vector của cuốn sách và bức ảnh :33 EM đang muốn biết nó giải quyết bài toán hiểu yêu cầu như thế nào, có phải mình phải nạp sẵn dạy cho nó biết các vector của tất cả thể thoại yêu cầu trên đời vào nó sẵn không ? Cảm ơn anh. Video hay và dễ hiểu ạ
Vector database lên ngôi, thì loại truyền thống sẽ bị thu hẹp hoạt động ư? Riêng việc không cần thêm trường, khi đó là dữ liệu mới. Công nhận... thích!
cách đây 4 năm mình từng phải xây dựng 1 vector db dựa trên sql truyền thống. hiện tại một loạt vector db ra đời hiệu năng rất tốt, lại còn free, thực sự rất tuyệt vời. tuy nhiên sql truyền thống vẫn còn nguyên giá trị cho các ứng dụng ko cần dùng đến việc tìm kiếm vector, có những tính năng mà vector db ko chú trọng đến
Em chào anh ạ. Bài toán em cần làm là chuyển đổi hình ảnh từ video và tìm kiếm hình ảnh bằng text. Em đã cover hình ảnh sang vector để tìm kiếm hình ảnh. Giờ em cần lưu hình ảnh để hiển thị sau khi search. Em xin phép hỏi ảnh có giải pháp nào lưu trữ tối ưu hình ảnh trong db không ạ. Em cảm ơn anh ạ.
@Sun_sun_19 có em ơi, ngay trên kênh này anh có rất nhiều bài về database thường như mysql, postgresql, sql server, mongodb. Em đang tìm hiểu database nào
@@tranquochuywecommit dạ, do em chưa có biết về database, cũng như cách nó hoạt động em mới nghe mọi người nói lưu dữ liệu có cấu trúc,... Nên em đang muốn tìm video nào đó nói sơ qua về database ạ.
Về vector database, cơ bản thì nó sẽ compression dạng dữ liệu raw: image, video, text thành một vector, người ta có thể gọi nó là feature vector đại diện cho dữ liệu đó. Và số chiếu của mỗi loại dữ liệu sau khi đươc embedding bởi model thì sẽ có chiều giống nhau ví dụ như 512, 1024. Các vector này sẽ đưa vào database để lueu trữ và retrivel Khi cần query thì dữ liệu input cũng sẽ được embedding. Sau đó nó sẽ được search trong database em vector input sẽ liên quan đến vector nào nhất trong database. Để search t nhớ lại một chút về khoảng cách 2 vector đã học. Cơ bản là chúng ta cố gắng define 1 metric để so sánh khoảng cách 2 vector: VÍ DỤ như L1, HOẶC L2 nhưng phổ biến hơn cả là cosin similary. Có nghĩa là tính cos(a) a là góc giữa 2 vector. Khi đó cos(a) = 1 có nghĩa 2 vector đó hoàn toàn trùng khớp và cùng sự tương đồng. Khi cos(a) = 0 thì 2 vector đó gần như không liên quan. Search engine này sẽ số gắng tìm K mẫu từ db liên quan nhất với input. Sau đó từ dữ liệu này thì AI sẽ đưa ra phản hồi cho người dùng. Phương án có tên thuật ngữ là RAG Ví dụ: Bạn có bài toán nhận diện khuôn mặt, nhưng bạn chỉ có 1, 2 ảnh khuôn mặt của người đó. Và bạn cần nhận diện được nó là ai, hoặc k biết trả về unknow. B1: Bạn emdedding khuôn mặt bạn thành vector bởi model AI -> tạo vector có kích thước 512 ( có nghĩa là 512 giá trị này đang đại diện biểu diễn cho khuôn mặt của bạn) -> Save database B2: Khi có user mới cần check và validate khuôn mặt -> bạn sẽ emdedđing input thành vector 512 của input B3: Bạn search trong db xem khuôn mặt nào có sự tương đồng cao nhất với khuôn mặt input bằng khoảng cách cosin B4: Bạn cần define 1 ngưỡng, khoảng cách cosin là anpha, để biểu diễn rằng khi giá trị đó gần bằng bao nhiều thì 2 khuôn mặt đó bằng 1. Ví dụ như cosin_similary - 0.8. -> input và ảnh trong db là 1 người.. -> Nguyên lý cơ bản của vector search database là vậy
Quan hệ xử lí logic còn ở cách mà chúng đc embedding. Ví dụ với Text, ta có word embedding. Có nghĩa là với 1 câu “ Elizabeth is queen”, sẽ tạo thành 1 ma trận embedding ( 3 dòng 2 cột ( cột men và women chẳn hạn ) ) vi dụ với queen thì giá trị tương ứng với cột women là 1, còn giá trị tương ứng với cột men là 0. Khi query 1 câu “Queen is man or woman”, nó sẽ sử dụng Cosine Similarity để tìm độ tương đồng giữa 2 vecto
Em thấy model của gemini hay chatgpt đều hơn tỷ tham số thì số chiều vector chắc là nhiều lắm anh nhở? Mà nhiều chiều như vậy sao có thể lưu trữ hết được. Em research thì thấy postgres hỗ trợ lưu vector hơn 16k chiều, nhưng vector dưới 2k chiều ms đánh index được. Và postgres có hỗ trợ hnsw index rùi ạ.
Số chiều của vector phụ thuộc vào layer encode cuối của mạng neuron của embedding model thôi bạn ạ. Các layer giữa càng rộng và càng sâu (nhiều layer) thì model càng nhiều tham số.
Không có cái nào mặc định nhanh hơn cái nào cả anh em nhé. Xem thêm các video khác ở kênh mình sẽ thấy. SQL tối ưu thì cũng về gần 0s trả ra kết quả bình thường
Gửi mọi người Group Telegream Wecommit Public Community : www.wecommit.com.vn/wecommitcommunity ,anh em có thể trao đổi những câu hỏi , vấn đề khi xem Video và kết nối với tôi trong Group nhé (trường hợp click trực tiếp bị lỗi thì ae copy link ra browser nhé)
về chất lượng cách quay ,bố trí bài giảng, giải thích nội dung thực sự rất dễ hiểu, trực quan. cá nhân em là một người không làm về lĩnh vực liên quan đến database nhưng xem cũng rất dễ hình dùng và tưởng tượng. UA-cam Việt Nam cần những người làm nội dung này như anh. kênh của anh xứng đáng được nhiều người biết đến hơn !
lời chia sẻ rất truyền cảm hứng anh em ah.
Nhờ anh em giúp tôi chia sẻ video này cho các bạn bè của mình nữa nhé.
Cảm ơn anh em rất nhiều.
Khóa học của anh này rấtđang tiền. Mình đã trở thành kỹ sư giỏi nhất công ty nhờ khóa học
Dân tech xem video này học được rất nhiều thứ, từ cách anh present và kiến thức sâu rộng về database. Channel để gối đầu giường đây rồi.
Ông anh nch vui á :)) "thế đ nào gọi là giống nhở" vừa giúp mở mang kiến thức vừa k nhàm chán. Keep it up bro!
Anh em edit phải cho tiếng Bíp Bíp hơi nhiều =))
Anh chia sẻ rất đúng trọng tâm, dễ hiểu và trực quan. Cảm ơn anh rất nhiều ạ!
Một người không biết nhiều về lĩnh vực này nhưng có thể theo kịp những gì anh đang nói. Quá tuyệt vời! Cám ơn anh :D
không có khả năng xác thực tất cả các thông tin a đã cung cấp, nhưng cách a cung cấp thông tin theo thứ tự và đặt ra các vấn đề phù hợp với thắc mắc người xem ở từng đoạn làm e cảm giác người làm nội dung video rất hiểu cái mình đang làm, cảm ơn a đã chia sẽ kinh nghiệm quý báu của mình
cảm ơn em đã theo dõi và ủng hộ nội dung trên kênh của anh
video quá ngắn, gọn, quá dễ hiểu. dù mình chẳng biết gì về database cả 👌💕💕💕💕
Công việc của em ít đụng tới database nhưng xem các video trên kênh của anh như được mở mang đầu óc vậy. Chúc kênh ngày càng phát triển.
Hẹn gặp anh em ở video tuần tới anh em nhé.
Cảm ơn anh em đã đanh thời gian cho kênh của tôi nhé
Thật là dễ hiểu, chúc a có sức khỏe để đóng góp các video chất lượng cho cộng đồng
Giải thích rõ ràng, rành mạch về nội dung...ngày AI thao túng con người không còn xa
Em vừa xem hết clip, chốt lại là chọn Qdrant ạ :D cảm ơn anh :D
Nội dung chỉnh chu dễ hiểu trình bày rõ ràng
Video rõ ràng, dễ hình dung cho cả người không biết gì về vector db như em
Video thật hữu ích, Mong bạn ra nhiều video nữa mang thêm nhiều kiến thức bổ ích tới cộng đồng!
video rất bổ ích. chúc a sức khoẻ để tạo nhiều video khác bổ ích cho mọi người
Video chất lượng, bài bản, rất cấu trúc và dễ theo dõi ạ.
Anh này đỉnh quá, top người giỏi VN ẩn giật
Cảm ơn a Huy đã chia sẻ ạ. Video này thực sự rất hữu ích với em.
Video giải thích rất dễ hiểu và bổ ích anh ạ! Mong anh sớm ra thêm các video bổ ích nữa. Cám ơn anh nhiều
cảm ơn anh em đã ủng hộ kênh mình nhé.
Trong video có nói về phần tối ưu, anh em có thể xem các video khác nữa trong kênh sẽ có nhiều demo và phân tích chi tiết hơn nhé
Cảm ơn anh. Video cuốn không rời mắt luôn anh ạ.
Âm thầm để lại subscribe và like ủng hộ anh mọi người nhé!
cách bạn truyền đạt rất thú vị, giản dị nhưng dễ nắm bắt
Dễ hiểu quá a ạ. Hy vọng các video sau sẽ chất lượng như này
Anh em đăng ký kênh để đón xem video tiếp theo ngay khi lên sóng nhé.
Thích cái cách chữi thề vs nói chuyện dân dã chợ búa của anh quá, xem cuốn thật sự
vãi lú chợ búa =))
Quá hay và dễ hiểu. Cảm ơn bạn nhiều
Anh chia sẻ hay quá, cảm ơn anh Huy ạ
kênh chất lượng thật sự. chúc anh ngày càng thành công.
cảm ơn người anh em nhé.
Hẹn gặp anh em ở video mới trong tuần tới.
nice :3 hy vọng anh lên thêm bài về các giải thuật tìm kiếm vector nữa cho anh em mở rộng tầm mắt
Rất dễ hiểu và bổ ích. Cảm ơn anh Huy nhé
Cảm ơn Anh, video rất chất lượng!
Cảm ơn anh ! Nhân tiện anh cũng hài hước phết =))
tuyệt vời! xứng đáng được 1 Sub và 1 like
Thanks u hay quá
Vd người dung bình thường
Làm sao để text 1 vấn đề j đó chuẩn để nó chuyển về dữ liệu đúng --> trả ra kết quả gần đúng nhất 😅
a ôi a ra seri của database thì hạp lý lắm ạaa:>
Thông tin rất hữu ích. Xin chân thành cảm ơn!!!
Video rất bổ ích, giải thích rất trực quan và dễ hiểu. Cảm ơn anh nhé
Cảm ơn thầy, rất dễ hiểu
Dễ hiểu quá cảm ơn anh rất nhiều
quá giỏi luôn anh ơi, ngượng mộ.
Hay quá 👏👏👏
Cảm ơn anh video rất hay và dễ hiểu
Bài giảng rất hay và dễ hiểu ạ ❤
Cảm ơn anh em.
Video ngắn gọn, dễ hiểu quá a à
Đúng thứ mình cần, đang học training model, tự nhiên đẻ ra ông vector làm lú ngang, giờ mới hiểu đc
Mình cũng đang tìm hiểu về vector DB. Bạn có tài liệu về ó ko, cho mình xin với
Em chào anh ạ, cảm ơn anh đã chia sẻ kiến thức hay. Không biết ngoài kênh của anh ra, anh còn biết thêm kênh yt nc ngoài nào hay phân tích các thuật toán hay công nghệ của gg có thể share cho e dc k ạ.
nghe rất hay, dễ hiểu, cảm ơn anh rất nhiều.
Video đầu tư quá. Thanks bác.
cảm ơn anh em. Video mới sẽ có hàng tuần.
Hẹn gặp anh em ở video thú vị tiếp theo nhé.
Cảm ơn bạn ❤
Em có một thắc mắc tý ở bài toán đầu tiên, nó có 3 thứ : cuốn sách, bức ảnh và yêu cầu. Em nghĩ việc so sánh vector giữa cuốn sách và bức ảnh là điều dễ hiểu nhưng cái yêu cầu thì e thấy nó giống "operator" hơn là "data" để so sánh.
Liệu có phải là cái yêu cầu sẽ được chuyển về vector rồi AI sẽ phải so sánh nó với các vector của các hành động mà nó hiểu sẵn ( vd: tìm cái tương tự, tìm cái đối ngược) rồi mới biết được cách xử lý giữa 2 vector của cuốn sách và bức ảnh :33
EM đang muốn biết nó giải quyết bài toán hiểu yêu cầu như thế nào, có phải mình phải nạp sẵn dạy cho nó biết các vector của tất cả thể thoại yêu cầu trên đời vào nó sẵn không ?
Cảm ơn anh. Video hay và dễ hiểu ạ
Vector database lên ngôi, thì loại truyền thống sẽ bị thu hẹp hoạt động ư?
Riêng việc không cần thêm trường, khi đó là dữ liệu mới.
Công nhận... thích!
ko có ổ bánh mì nào là miễn phí đâu bạn, sẽ đánh đổi bằng tốc độ, tài nguyên hệ thống và năng lượng ^^"
cách đây 4 năm mình từng phải xây dựng 1 vector db dựa trên sql truyền thống. hiện tại một loạt vector db ra đời hiệu năng rất tốt, lại còn free, thực sự rất tuyệt vời. tuy nhiên sql truyền thống vẫn còn nguyên giá trị cho các ứng dụng ko cần dùng đến việc tìm kiếm vector, có những tính năng mà vector db ko chú trọng đến
Hay quá pro😊
video rất bổ ích ạ.
Em chào anh ạ.
Bài toán em cần làm là chuyển đổi hình ảnh từ video và tìm kiếm hình ảnh bằng text.
Em đã cover hình ảnh sang vector để tìm kiếm hình ảnh. Giờ em cần lưu hình ảnh để hiển thị sau khi search.
Em xin phép hỏi ảnh có giải pháp nào lưu trữ tối ưu hình ảnh trong db không ạ.
Em cảm ơn anh ạ.
làm sao để dùng những công cụ như ví dụ trong video ạ?
Video bổ ích 🎉
Dễ hiểu.
dễ hiểu, thank you.
Có cách nào chuyển file PE windows sang vector không anh?
chất lượng quá thầy ơi nhưng chình độ em không đến dc mức đó :(
Khi bạn nhận ra rằng học toán cao cấp không thừa 😆😆
Quá đỉnh anh ơi
Vấn đề chuyển text, hình ảnh thành vector có khó triển khai không
không hề anh em, các embedding model đã được cung cấp sẵn
Qdrant, nghe có Q chắc là Quick, uy tín 😅
Hay và dễ hiểu
Em cảm ơn chị Trang nhiều
Anh giải thích thêm về Index được không ạ? Em cảm ơn ạ.
anh em xem thêm các video khác về tối ưu trên kênh của mình trước nhé, có nhiều thứ trong đó đấy
hay qua anh oi
Hay, dễ hiểu cho dân gà IT
Hay quá
Nghe a nói cuốn v
tuần tới sẽ tiếp tục ra video, hẹn anh em ở video đó lại tiếp tục xem ủng hộ tôi nhá
Anh ơi, anh có trình bày database không ạ. Tại em không hiểu phần database thông thường ạ
trình bày database ý là sao em nhỉ?
@@tranquochuywecommit ý là kiến thức về database thông thường ạ
@Sun_sun_19 có em ơi, ngay trên kênh này anh có rất nhiều bài về database thường như mysql, postgresql, sql server, mongodb. Em đang tìm hiểu database nào
@@tranquochuywecommit dạ, do em chưa có biết về database, cũng như cách nó hoạt động em mới nghe mọi người nói lưu dữ liệu có cấu trúc,... Nên em đang muốn tìm video nào đó nói sơ qua về database ạ.
@Sun_sun_19 thế em có thể xem 1 loại là hiểu. Em xem video MySQL full course trên kênh anh là okie nhé
khá hay nhưng cho mình hỏi thì vector database mà không có quan hệ thì xử lý logic trong lúc truy vấn kiểu gì nhỉ
Về vector database, cơ bản thì nó sẽ compression dạng dữ liệu raw: image, video, text thành một vector, người ta có thể gọi nó là feature vector đại diện cho dữ liệu đó. Và số chiếu của mỗi loại dữ liệu sau khi đươc embedding bởi model thì sẽ có chiều giống nhau ví dụ như 512, 1024. Các vector này sẽ đưa vào database để lueu trữ và retrivel
Khi cần query thì dữ liệu input cũng sẽ được embedding.
Sau đó nó sẽ được search trong database em vector input sẽ liên quan đến vector nào nhất trong database. Để search t nhớ lại một chút về khoảng cách 2 vector đã học. Cơ bản là chúng ta cố gắng define 1 metric để so sánh khoảng cách 2 vector: VÍ DỤ như L1, HOẶC L2 nhưng phổ biến hơn cả là cosin similary. Có nghĩa là tính cos(a) a là góc giữa 2 vector. Khi đó cos(a) = 1 có nghĩa 2 vector đó hoàn toàn trùng khớp và cùng sự tương đồng. Khi cos(a) = 0 thì 2 vector đó gần như không liên quan.
Search engine này sẽ số gắng tìm K mẫu từ db liên quan nhất với input.
Sau đó từ dữ liệu này thì AI sẽ đưa ra phản hồi cho người dùng. Phương án có tên thuật ngữ là RAG
Ví dụ:
Bạn có bài toán nhận diện khuôn mặt, nhưng bạn chỉ có 1, 2 ảnh khuôn mặt của người đó. Và bạn cần nhận diện được nó là ai, hoặc k biết trả về unknow.
B1: Bạn emdedding khuôn mặt bạn thành vector bởi model AI -> tạo vector có kích thước 512 ( có nghĩa là 512 giá trị này đang đại diện biểu diễn cho khuôn mặt của bạn) -> Save database
B2: Khi có user mới cần check và validate khuôn mặt -> bạn sẽ emdedđing input thành vector 512 của input
B3: Bạn search trong db xem khuôn mặt nào có sự tương đồng cao nhất với khuôn mặt input bằng khoảng cách cosin
B4: Bạn cần define 1 ngưỡng, khoảng cách cosin là anpha, để biểu diễn rằng khi giá trị đó gần bằng bao nhiều thì 2 khuôn mặt đó bằng 1. Ví dụ như cosin_similary - 0.8. -> input và ảnh trong db là 1 người..
-> Nguyên lý cơ bản của vector search database là vậy
thank you bác@@trunghoang4033
Quan hệ xử lí logic còn ở cách mà chúng đc embedding. Ví dụ với Text, ta có word embedding. Có nghĩa là với 1 câu “ Elizabeth is queen”, sẽ tạo thành 1 ma trận embedding ( 3 dòng 2 cột ( cột men và women chẳn hạn ) ) vi dụ với queen thì giá trị tương ứng với cột women là 1, còn giá trị tương ứng với cột men là 0. Khi query 1 câu “Queen is man or woman”, nó sẽ sử dụng Cosine Similarity để tìm độ tương đồng giữa 2 vecto
quá hay quá nhiều cái phải học
Em thấy model của gemini hay chatgpt đều hơn tỷ tham số thì số chiều vector chắc là nhiều lắm anh nhở? Mà nhiều chiều như vậy sao có thể lưu trữ hết được. Em research thì thấy postgres hỗ trợ lưu vector hơn 16k chiều, nhưng vector dưới 2k chiều ms đánh index được. Và postgres có hỗ trợ hnsw index rùi ạ.
Số chiều của vector phụ thuộc vào layer encode cuối của mạng neuron của embedding model thôi bạn ạ. Các layer giữa càng rộng và càng sâu (nhiều layer) thì model càng nhiều tham số.
@@MinhNhat-hf9cl mình hiểu rồi. Cảm ơn bạn!
cứ theo anh Trịnh Văn Mớt thôi
hợp lý anh em ah
nếu v thì cái gg search ảnh này nọ thì nó cũng search giống cái vector database này nhỉ
tương đối hay
Theo như kinh nghiệm của a thì NoSQL có nhanh hơn SQL ko a
Không có cái nào mặc định nhanh hơn cái nào cả anh em nhé.
Xem thêm các video khác ở kênh mình sẽ thấy. SQL tối ưu thì cũng về gần 0s trả ra kết quả bình thường
Quá anh ui...
hay quá a.
Hay vãi lìn 💪🏿
anh em bình luận cảm xúc vãi nhái. Tôi thích phong cách của anh em đây.
Kiểu nội dung hình ảnh như trong clip mình thấy nhiều ở các kênh nước ngoài, chứ ae ở VN mình ít thấy. (Hoặc do mình không biết hehe)
các lời khen của anh em truyền động lực vãi chưởng.
Hẹn gặp anh em ở video mới trong tuần tới nhá.
quá hay
thank u
giải thích dễ hiểu +1 sub
cho anh 2 like !
thế lại về ZERO hả anh em.
Cho 3 Like đê
không anh em dùng 2 nick =)))@@tranquochuywecommit
@@manhtunghoang8370 ái chà, anh em quá tuyệt vời =))))))
1000 likes cho video
hay
vãi cả Trinh Văn Mớt. a Huy khịa ác
khịa gì đâu, tôi hơi bị thích anh Trịnh Musk này
Pure gold
❤
Trịnh Văn Musk 😂😂
Trịnh Văn mớt =))