딥씨크 개발, NVIDIA CUDA 해자가 무너진다…? 딥시크 AI 퀀트 엔지니어들이 선택한 CUDA 우회 개발의 의미 | PTX

Поділитися
Вставка
  • Опубліковано 4 лют 2025
  • 이번 영상에서는 DeepSeek AI 퀀트 엔지니어들의 PTX(Parallel Thread Execution) 활용 사례를 통해, NVIDIA의 CUDA 생태계가 과연 무너질 수 있는지 그 가능성을 살펴봅니다. DeepSeek은 GPU 자원을 최대한 활용하기 위해 CUDA라는 고수준 API를 우회하고, GPU 저수준 명령어 집합인 PTX를 직접 다루는 극단적 최적화를 택했습니다. 이렇게 SM 자원을 일부 통신 전용으로 전환하고 레지스터 수준까지 맞춤 설계함으로써, GPU 시대에 한정된 성능의 GPU로 수십% 향상된 최적화 성능을 끌어냈습니다. 하지만 PTX 수준의 코드는 개발 난이도와 유지보수 비용이 매우 높기 때문에, 일반적인 AI 기업이나 빅테크조차 쉽게 선택하지 않는 길입니다. 그럼에도 DeepSeek은 GPU 자원의 한계를 극복하고 초저지연이 절실한 퀀트 트레이딩 등에서 활용한 방식으로서 최적화를 한 것으로 보이는데요. NVIDIA가 지배하는 GPU 생태계와 그 균열의 가능성이 왜 없는지를 정리하였습니다.
    Written by Error
    Edited by Error
    unrealtech2021@gmail.com

КОМЕНТАРІ • 688

  • @gutizz3537
    @gutizz3537 5 днів тому +380

    형님 건강보다 유튜브가 우선입니다 잠은 죽어서 자겟다는 마인드로 노젓는 모습 너무너무 좋습니다 화이팅!!

  • @이조이-y2o
    @이조이-y2o 5 днів тому +148

    성능을 최대한으로 끌어 올리기 위해 어셈블리 레벨까지 건드리다니. 대단하네요.

  • @anh2638
    @anh2638 5 днів тому +339

    하드웨어에 밀착된 코딩을 했다는거죠. 일반적으로 엄청난 노가다고 하드웨어가 신버전으로 교체되면 다시 코딩해야 되어서 미국에서는 잘안하는 짓인데... 저성능 칩 쓰니까 성능 끌어올리기 위해서 한거 같은데... 딥시크 개발자들이 대학 갓 끝난 사회 초년생이 많다던데 열정이 대단하네요 ㅋㅋㅋ

    • @원두허니
      @원두허니 5 днів тому +15

      현재 cudatoolkit 12.1 + cudnn 9.1이 고정입니다. 안정버젼이라고하죠. 버젼 올라가면 느려져서 다들 안쓰는듯요. cudnn_ops의 cudnnOpTensor함수를 고쳤을 것 같아요. 텐서 간 수학적 연산(덧셈, 곱셈, 최대/최소값 연산 등) 수행하는 함수라 성능 올리기에는 딱 좋죠. 다른 함수들도 변경했을수도 있고요. 우리나라에는 필요 없는 기술일듯요. GPU도 없고 설비비를 줄일 필요성도 없으니까요. 어셈블 쉬프트 연산은 80년대 후반 90년대 초에 유행했었죠. 리니지1도 그런 성능향상이 없었다면 뜨지 못했을지도요.

    • @조과스키
      @조과스키 5 днів тому +47

      열정이 아니라 중국인이 소프트웨어 개발을 잘하는 것이지
      한국인아 정신승리 그만해라
      안 챙피하니

    • @superspeedmotor
      @superspeedmotor 5 днів тому +92

      @@조과스키천안문 사태에 대해서 어떻게 생각하니?

    • @minkim4487
      @minkim4487 5 днів тому +22

      @@superspeedmotor 김건희 특검에 대해서 어떻게 생각하니?

    • @조과스키
      @조과스키 5 днів тому

      서울대 논문 수준 봐라
      어디가서 명함도 못 내밀어
      니들 수준 파악 부터 잘 해라
      중국인 뿐만 아니라
      인도애들도 한국인 무시하는 상황이야
      지금 상황이

  • @danielchoi2260
    @danielchoi2260 5 днів тому +169

    퀀트트레이딩이야말로 컴퓨터공학에서 다루는 자료구조, 알고리즘, 네트워크 기본기를 극한으로 끌어올리는 데 방점을 찍는분야임. 결국 AI분야에서도 기본기의 중요성은 절대 녹슬일이 없다는 것에 의의를 둬야함.

    • @李수
      @李수 5 днів тому +6

      그냥 라이브러리에서 뽑아 쓸래

    • @zz-ux2tf
      @zz-ux2tf 5 днів тому +5

      근데 퀀트트레이딩으로 부자가된사람은 손에꼽는거아님? 왤까

    • @Dowload_Video_4729
      @Dowload_Video_4729 5 днів тому +1

      ​@@zz-ux2tf
      1. 비효율적이니까
      2. 언제 왕자리를 내줄지 모르는 곳이라

    • @Dowload_Video_4729
      @Dowload_Video_4729 5 днів тому +1

      ​@@zz-ux2tf
      1. 비효율적이니까
      2. 언제 왕자리를 내줄지 모르는 곳이라

    • @성이름-s8u4y
      @성이름-s8u4y 5 днів тому

      알고리즘,초빈도 트레이딩이 늘어날 수록 시장에서 수익을 먹을 수 있는 간극이 줄어드는거임@@zz-ux2tf

  • @K_Instead_of_D
    @K_Instead_of_D 5 днів тому +103

    이쯤되면 노가 아니라 모터를..😂😂 잘보고 있습니다!

    • @hohohohohoho1900
      @hohohohohoho1900 5 днів тому +2

      모터를 넘어 딥시크와 동화 되어가는듯 보이네요

  • @김승철-r2i
    @김승철-r2i 3 дні тому +6

    High Level 랭귀지, 라이브러리들이 발전하고 주를 이뤄가는 상황에서
    역설적으로 Low Level 랭귀지의 중요성을 다시 한번 되새기는 사건 같네요.
    복싱선수 역시도 가장 기본기술인 원투연습을 평생 수련하듯이, 소프트웨어도 마찬가지로 기본기의 중요성은 몇번 강조해도 모자란듯 합니다

  • @mon5319
    @mon5319 5 днів тому +27

    이 채널 정말 좋네요.
    댓글도 하나하나 모두다 주옥 같습니다.

  • @sy5616
    @sy5616 5 днів тому +22

    역시 혁신은 결핍에서 나오나 봅니다.

  • @user-ck1mq4id3h
    @user-ck1mq4id3h 5 днів тому +124

    어셈블리 영역까지 건드렸다는건 그냥 진짜 중국, 인도 에서나 가능한 엔지니어 인해전술 뼈 갈아마시기 전법이라는 소리..
    인구가 많은 만큼 엔지니어들 능력이 출중한 사람들이 쌔고 쌨으니 가능한 일...

    • @macaroon103
      @macaroon103 5 днів тому +15

      딥시크 직원 150명 규모인데 평범한사람은 갈아넣어봤자 일듯
      개개인의 능력이 뛰어난사람이 갈린거
      한국은 어중간한 사람이 많아서

    • @xj1lr1dn209c
      @xj1lr1dn209c 5 днів тому +2

      쑈들은.. 갈아 넣으면 미국은 돈을 갈아 넣어서 하면 됨... 결국 딥식이 뭔짓을 한건지는 까보면 알겠지

    • @Douglas-sq1xq
      @Douglas-sq1xq 4 дні тому +7

      ⁠​⁠@@xj1lr1dn209c?? 미국보다 돈과 사람 가는게 중국이 전문임. 어차피 오픈소스라서 까보면이 아니라 이미 까보고 있는거고

    • @shy2634
      @shy2634 4 дні тому +2

      한국보다 낫네 한국은 언제 소프트웨어 강국되나

    • @user-ck1mq4id3h
      @user-ck1mq4id3h 4 дні тому +9

      @@xj1lr1dn209c 주변에서 님이랑 대화를 안하려고 하지 않나요?

  • @kinghm9713
    @kinghm9713 5 днів тому +160

    인정할 것은 인정 해야 할 것 같습니다. 어셈블리를 통해 최적화를 했다는 것은 엔비디아의 CUDA 그외에서도 다룰수 있는 실력을 증명 한 것이라는 반증의 증거라고 생각합니다.

    • @Dowload_Video_4729
      @Dowload_Video_4729 5 днів тому

      그쵸 뭘 써도 잘햇을거에요
      능력 갖춘 칩만 되엇다면

    • @bigzynzoogangB
      @bigzynzoogangB 5 днів тому +7

      물들어올때 노젛는 안될공학의 타이밍 최적화도 상당합니다

    • @himchan-han
      @himchan-han 5 днів тому +11

      PTX를 사용했다면 자체 최적화 컴파일러를 개발했을지도...

    • @kinghm9713
      @kinghm9713 5 днів тому +15

      @@himchan-han 화웨이 GPU 자체 플랫폼에 최적화 적용이 사용 되는 상황이 연출되면 진짜 엔비디아를 흔들지도 모른다는 생각도 들어요.

    • @himchan-han
      @himchan-han 5 днів тому +1

      @@kinghm9713 Multi-Level Intermediate Representation (MLIR)가 있어서 불가능하진 않아요. 그 GPU 하드웨어 의존적인 부분만 인라인 코드로 작성하기만 하면 되니...

  • @ohcho-fg4co
    @ohcho-fg4co 5 днів тому +77

    cuda를 우회한게 아니고 통상 c로 개발을 한다음 ptx로 compile해서 쓰는데 직접 ptx assembler로 개발해 쓴다는 것임.

    • @원칙대로-z6w
      @원칙대로-z6w 4 дні тому +4

      어렵다. 그래서 엔비디아는 어찌되는건가요?

    • @Jewisaosj
      @Jewisaosj 4 дні тому

      @@원칙대로-z6w ㅈ된거죠

    • @ohcho-fg4co
      @ohcho-fg4co 4 дні тому +9

      @@원칙대로-z6w 보통 ptx같은 assembly 언어로 개발하면 c로 개발한 것보다 몇배 빠르게 할수 있는데 nvidia gpu가 그만큼 적게 팔린다는 것임.

    • @zkdnfld
      @zkdnfld 4 дні тому +3

      ​@@ohcho-fg4co 돈많은 빅테크기업들만 쓰던 엔비디아 고성능칩을 적은양 또는 저사양칩으로도 쓸수있게되어 작은기업들도 ai를 개발할수있으니 결과적으론 더 많은 기업들이 뛰어들수있게되어 더 많이 팔리는건 아닌지 고견을 듣고 싶습니다..박리다매 같은...

    • @ohcho-fg4co
      @ohcho-fg4co 4 дні тому +2

      @zkdnfld 근본적으로 llm은 훈련용데이타를 만드는 것에 따라 llm의 성능과 질이 달라짐. 이것을 하는데 많은 인력이 필요함. 공짜가 있기 때문에 만들어 봐야 손해 남. 한두개만 남고 다 망할것임.

  • @김단테
    @김단테 5 днів тому +73

    아 정말 사소한 얘기(?)이긴 한데 딥시크는 HFT 는 아니고 MFT(Mid Frequency Trading) 입니다. HFT 가 거의 초단위로 포지션을 바꾸는것에 반해서 미드 프리퀀시는 1시간에 1번정도만 포지션을 바꾸고요. HFT 는 주로 호가창을 많이 보는데 미드프리퀀시는 다양한 데이터를 활용합니다. 르네상스테크놀로지가 미드프리퀀시 트레이딩의 제왕이고, 시타델은 HFT 위주로 더 하는 것 같습니다. (물론 컴퓨팅이 많이 필요한건 마찬가지겠죠)
    테이버랑은 제가 친한데 다음에 자리 한번 마련할까요? ㅋㅋㅋ

    • @raramra9267
      @raramra9267 5 днів тому +4

      단테형! 형 채널에서 자세히 풀어주세요

    • @unrealtech
      @unrealtech  5 днів тому +10

      오호 역시 단테님! 교정 감사합니당 요렇게 또 배우네요! ㅎㅎ 저쪽 회사들의 컴퓨팅에 대해 궁금해지더라구요! 테이버님하고는 자리마련해주시면 저야 두분의 팬으로써 너무 좋죠 헤헤 :)

    • @나당-l6s
      @나당-l6s 4 дні тому

      단테형 미드쿼리랑 hft랑좀자세히설명해주세요.

    • @DennisKimTV
      @DennisKimTV 3 дні тому +3

      댓글을 보다가 조금 HFT, MFT 등에 대해서 정리를 해야할 것 같아 피드백 드립니다. 딥시크의 모회사는 직접 물어본 결과 HFT와 MFT 전략을 자유롭게 구사하는 팀입니다. HFT이라고 해서 차트만 보지 않습니다. 차트를 구성하는 데이터와 시그널, 인게이지먼트 팩터를 가지고 트레이딩을 하는 것이 요즘 트렌드입니다. 저는 HTS와 HFT, 머신러닝을 실제로 개발해왔고 지금은 크립토쪽에 있지만, 이쪽 분야와 중국 AI 업계와는 잘 소통이 되는 쪽입니다. 지금도 일하는 파트너니까요. 초단타 매매에서 밀리세컨드 단위 매매 빈도가 많아지면 물리적으로 트레이딩 체결을 받아주는 증권사 체결 엔진의 병목으로 실제적으로 수익이 급감하는 현상이 있어 적절 빈도와 속도, 최적화를 찾습니다. 중간 거래 빈도라고 하더라도 시장의 급변과 대외 변수가 끼어들지 않을 정도로 트레이딩을 해서 수익을 확정 짓고 레버리지 비율을 높여 수익을 높이는 전략을 사용하는 경우가 많습니다. 딥시크의 모회사는 모델을 읽는 능력, 데이터를 가공하는 능력과 더불어 OS 커널 레벨까지 최적화하는 팀을 올인원으로 가진 몇 안되는 금융 공학 회사라고 보면 적당할 것입니다.

    • @가은-r4v
      @가은-r4v 2 дні тому

      감사합니다

  • @미네소타-m7o
    @미네소타-m7o 5 днів тому +50

    와 씨
    딥시크 나온담에 이 형 영상 알고리즘 뜰 때마다 꼬박꼬박 챙겨봤었는데
    지금 보니 영상 두개 놓쳤었네….
    노를 얼마나 저섰던거야…

    • @Z3r0CO01-x
      @Z3r0CO01-x 5 днів тому +1

      구독버튼이나 알림설정안하신 증거 ㅋㅋ

  • @우수수-r1q
    @우수수-r1q 5 днів тому +89

    deepseek 개발자가 CUDA의 비효율적인 부분을 찾은 것 같네요. 그래서 PTX 프로그래밍을 한 것 같네요. C 언어로 개발 중에도 성능을 필요로 할 때 어셈블리 코딩을 합니다. 일반적으로는 하지 않고 성능 낮은 CPU로 성능 높일 때 사용하죠 같은 원리로 성능 낮은 GPU를 사용하다보니 더 성능을 높이려고 사용했을 겁니다. 개발자들에게 찬사를 보냅니다.

    • @ALETHES
      @ALETHES 5 днів тому +4

      이 댓글 보고나서야 미중간 AI 전쟁이 일어나고 있단 생각이 드네요

    • @AP-vo8px
      @AP-vo8px 5 днів тому +3

      컴파일러 개발자가 갓티어이기 때문에 일반인이 어셈블리로 짜서 컴파일러보다 더 나은 성능을 내는 코드를 짤 확율은 0프로 가까움.

    • @gimjuncheol
      @gimjuncheol 4 дні тому +3

      @@AP-vo8px 프로그램에 따라서 다르지 0프로는 아닙니다. 어느정도 복잡도 이상의 코드이면 컴파일러가 더 좋은 결과물을 낼 가능성이 높지만 특수 목적코드 같은 경우 어셈블리로 성능이 향상되는 경우가 아주 많아요. 그게 아니라면 암복호화 모듈이나 압축프로그램들에 어셈블리 코드들이 그렇게 많이 들어갈 이유가 없죠.

    • @tamburinss7501
      @tamburinss7501 4 дні тому +2

      그렇다기 보다는 gpu를 솔직히 다른 기업들처럼 많이 쓸 수 있었으면 모르겠는데, 중국은 수출 제한이 걸렸고 특히 communication에 병목이 생긴 칩으로 하는겁니다.
      그러니까 gpu core를 communication, computation 비율이 최적이 될 수 있도록 최적화하거나 8bit training을 하기 위해서 (원래는 half, single precision) low level을 건드린겁니다.
      만약에 gpu가 2천장이 아니라 2만장을 쓸 수 있었다면 솔직히 본인들이 잘하는 알고리즘이나 다른데 시간 투자하는게 훨씬 나았을 수도 있습니다.

    • @Laddercar
      @Laddercar 4 дні тому

      ​@@AP-vo8px인재풀이 엄청난 중국은 가능 할꺼 같은데요😢

  • @브레이크끼익
    @브레이크끼익 5 днів тому +6

    딥씽크가 어셈블리 영역에서 프로그래밍을 했다면..
    짐캘러의 텐스토렌트 웜홀칩처럼 사용자가 직접 코딩가능한 npu를 사용했을때 비용적이나 효율성에서 어떨까요?
    하드웨어적인 부분에서 엔비디아의 독주를 살짝이라도 미뤄낼수 있을만한 저비용 고효율(고노가다) 하드웨어시장이 열릴 가능성이 있을까요?

  • @이수원-t6c
    @이수원-t6c 5 днів тому +51

    딥시크가 대단한일은 한건 맞는데... 저사양 칩을 사용해서 비슷한 결과물을 만들어냈으니 초기 하드웨어 투자비용은 줄였는지 몰라도 저런식으로 개발하면 결국은 향후 유지보수 비용측면이나 인건비 비싼 유럽미국 관점에서 보면 과연 전체 총비용이 줄어든건지는 모르겠네요.. 저렴한 비용으로 괜찮은 인력을 충당가능한 중국에서만 가능한 방식인것 같은데.. 당연히 로우레벨로 내려가서 코딩하면 성능측면에서 유리한건 누구나 다 알지만 그럼에도 체계화된 프레임웍을 쓰는건 결국은 중장기적으로 봤을때 비용측면에서 유리한 탓인데.. 딥시크가 주장하는 초기개발 비용만 따져보지 말고 전체 총 비용은 따로 계산해야 할듯...

    • @소미-n9x
      @소미-n9x 4 дні тому +23

      멀리 봐야할듯 저런 경험 자체가 무서운거임 그로 인해 파생되는 효율성이나 기술력이 누적되는건데 나중에 하드웨어 성능까지 갖추면 어쩔껀지 단점만 볼께 아니라 저기서 얻는 파생되는 이점이나 저로 인해 sw 기술력까지 갖추는건데 새로운 분야를 파는거까지 고려해야지 참..

    • @목하늘-w4f
      @목하늘-w4f 4 дні тому +3

      전체비용끼리 비교하는게 맞음. 한번 돌리는데 비용 가지고 전체 비용이랑 비교하니 이런 이야기가 나온거. 그냥 숏쟁이들이 과장되게 뉴스낸거임

    • @shy2634
      @shy2634 4 дні тому +4

      개발자들 자기들 못하는 거라고 뒷짐지고 까내리려하는 사람도 있던데 그건 좀... 한국의 소프트웨어 개발 수준이 높지 않은 거 보면 달리 할말이 없습니다

    • @BULKENGLISH
      @BULKENGLISH 4 дні тому

      @@이수원-t6c 유지 보수도 AI가 한다면?

    • @잭프-x5x
      @잭프-x5x 4 дні тому +2

      ​@@shy2634 잘모는것같아서요icpc 에서 한국은 나쁘지않은 성적을 가지고있음 근데 왜 한국에서는 ai안나오냐? 자본이딸림 그리고 내수시장딸림 투자유치가 쉽지않은 상황이라 한국에서ai가 안나오는거 그럼여기서 딥씨크는 ? 시작이 5조로 시작해서 투자유치에대해 크게 생각 안하고 시작한것같음요 ㅋㅋ

  • @BULKENGLISH
    @BULKENGLISH 5 днів тому +4

    저수준의 프로그래밍을 바꿔서 레이턴시나 이런걸 고쳤다면 엔비디아도 그걸 연구해서 cuda생태계를 더 빠르게 수정해나가지 않을까요? 그런 성가신거는 신경쓰고 싶지 않아서 cuda가 나온거니까요. LLM은 모르겠고 확실히 하이엔드 제품이나 특정산업전용 제품 이런건 확실히 레이턴시 같은 부분이 중요할겁니다.

  • @최준영-e6c
    @최준영-e6c 4 дні тому +1

    높은 퀄리티의 영상 항상 감사합니다 영상 잘 챙겨보고 있어요!

  • @rollsrani
    @rollsrani 5 днів тому +34

    내용은 사실 들어도 들어도 잘 모르겠는데 😅 그냥 열심히 하시는거 보고 있으면 기분이 좋아지고 똑똑해지는 느낌도 들고 👍👍🏻👍🏾

  • @JoonheeByun
    @JoonheeByun 5 днів тому +8

    고생많네요 형님덕에 편안히 투자하고 잇는거같네요

  • @leejunhyeok7089
    @leejunhyeok7089 5 днів тому +58

    답답해서 몇자 적는다.. 현직 ai 프레임웍 10년 다루고 있고, ai초창기 15년 부터 이미 nvidia외 amd , arm ,x86 에서 동작가능한 프레임워크 엄청 많이 시도되었음 , 그중 openvino , opencl 기반 math 라이브러리들 등 그당시 중국 텐센트등 자체 프레임워크도 많이 출시 되었고 , 그당시 caffe 초기 학습플랫폼 변형된 cl기반 대부분 중국 git 많으며 중요한것은 cuda 에서 이미 인라인 어셈 많이 사용하고 있고, 초기 다이렉트x에서 어셈으로 게임 만들던 시절도 있었음.
    Ptx cuda 사용한다고 우와.... 거릴게 아니고 , simd ,mimd ,sics,risc 구조만 알아도 개발할때 튜닝 여지 엄청 많음. Blas,atlas 연산 라이브러리등도 중요도가 높고 , 크로노스 그룹 초기에 삼성 퀄컴 amd nvidia 등 참여 기업 많았는데 nvidia 독자 류틴 탄거고 , 화웨이보다 퀄컴 ai sdk 사용하는게 훨씬 빠름.
    결론은 뭔 중국 뛰우기 기사인지.. 그럼 xilinx 는 신이냐???
    고가 gpu 중국으로 안들어가니 특정 gpu 쥐어짜서 튜닝해서 사용한것인데 무슨 nvidia 없이 개발해서 출시 한것처럼 나오는지... 여론에서 계속 중국 기술 선전하는 이유가 뭡니까??
    중국전기차는 많이들 까면서 ... 이런거는 기술잘모르눈 분들보면 잘못된 정보 받아들일수 있을겁니다. 조심 해야하고 이왕 컨텐츠 만들거면 탈 gpu 시도 많았던 15년 부터 자료를 찾아서 설명울 하던지....
    국내 공대 기피화가 결국 파이썬수쿠립터 양산으로 .. 이지경난것임.
    김대중초기 웹개발자 학원 양산해서 너도나도 개발자 ..닷컴붕괴 ㅎ 등 그땨 시절과 다른게 뭐임??
    대학에서도 제대로된 c,어셈 가르키는데 많지만.. 이론교육보다 로레벨 코딩등 다양한 디바이스 npu,fpga 등 ㅎ활용만 해도 기초 math라이브러리 왜 사용을 하고 , 어떤 튜닝 여지가 있는지 체감이 됩니다. 중국은 초기 공대 교육이 저렇게 심도있게 진향을 해왔던거고.. 국내는 파이썬 토치만 다루면 뭔 ai 개발자 라고... 회사들고 정부 과제 99프로가 파이토치에 의존되어져 있고, 자체 c 및 저수준 컴퍼일러로 프레임워크로 러닝 프로세스만 돌려도 파이썬 보다 몇십배 빠른 infer 속도 나옵니다.
    너무 중국 뛰우기 마세용...

    • @hanschoi7166
      @hanschoi7166 5 днів тому +10

      딱히 중국 띄우기 영상이 아니라 딥시크 관련 뉴스 분석인데... 이런 분석도 공산주의 칭찬하는거 같아 불편하신가봐요. CIA에 신고하진 말아주세효 저는 중국이랑 아무 관련없습니다 나는 개인이요.

    • @masterediy
      @masterediy 5 днів тому +1

      ​@@hanschoi7166댓글에서 중국빠니깐글죠.

    • @duto456
      @duto456 5 днів тому +11

      저는 나름대로 이분 의견에 어느정도 공감합니다.
      게임으로 비교한다면
      다들 언리얼 엔진(쿠다) 가지고 편하게 개발하는데
      미국에서 언리얼 안주니까
      프로토타입 게임 하드코딩으로 만들어서
      이정도 저사양 GPU에서도 돌아간다
      뭐 이런거랑 다를게 없어요.
      딥시크가 앞으로 얼마나 신속하게
      다음 버전을 내놓냐 따라서
      내부적으로 현실적인 개발 로직이 정립되어 있는지
      알게 될겁니다.

    • @DrumTimes_
      @DrumTimes_ 4 дні тому

      ㄹㅇ 개선 시급합니다

    • @pepsipower11
      @pepsipower11 4 дні тому

      우리나라에서 로레벨하다간 굶어죽기 딱 적당하다

  • @윤경식-x4u
    @윤경식-x4u 5 днів тому +17

    대단하긴 대단한거네.
    C언어 프로그래밍 프로그램이 있는데, 프로그램 안 쓰고 굳이 하나하나 수동으로 코딩 했다는 거자나...

    • @브라이언코리아
      @브라이언코리아 5 днів тому +1

      AI로 Compiler 까지 만들었겠죠.

    • @kkyetnip
      @kkyetnip 5 днів тому +2

      대체 개발자 몇명을 갈아 넣었을까요

    • @dudukiwi
      @dudukiwi 5 днів тому +2

      AI로 쿠다 코드를 ptx 어셈블리로 바꿨을수도 있죠

    • @조과스키
      @조과스키 5 днів тому +3

      참나 아직도 사람 여려명 갈아쓴거라고 정신승리하고 있네 ㅋㅋㅌ
      이게 여기 수준인가 ㅋㅋㅋ

    • @뽀로로-w8y
      @뽀로로-w8y 5 днів тому +7

      @@조과스키 어셈블리어 알긴암?? 마오쩌둥이가 문화혁명하는 소리하고잇네

  • @MCthe맥스
    @MCthe맥스 День тому

    거의 기계어 아니면 어셈블러 개발 수준의 작업을 한건가;; 대단하긴 한듯....

  • @DennisKimTV
    @DennisKimTV 3 дні тому +2

    덧붙이면, 원래 HFT하는 쪽은 커널을 깎아내고 TCP에 헤더를 날리고 경량화해서 살아가는 것이 기본입니다. 엔비디아 그래픽 드라이버와 CUDA가 최적화 면에서 할 것이 많기 때문에 PTX로 하는 것은 퀀트와 HFT쪽에서는 상식인지라 그렇게 접근해서 성능 향상이 당연한 발상입니다. 여기에 자체 데이터센터를 구축했기 때문에 클라우드 구축을 오픈 스택 레벨에서 하면서 최적화도 이루었다고 들었네요.

    • @unrealtech
      @unrealtech  3 дні тому +1

      상세한 설명 감사합니다!! 빅테크들에겐 비효율, 그들에겐 너무나 자연스러운 접근으로 정리되겠네요 ㅎㅎㅎ

  • @Tren-g7jt
    @Tren-g7jt 5 днів тому +22

    요즘은 안될공학영상도 링크따서 잼민이한테 쉽게 요약해달라니까 너무 편함... 한문장으로 ptx가 cuda보다 저수준 프로그래밍 언어라 비용도많이들고 복잡하지만 훨씬 더 고성능의 최적화가 가능하다. 요로코롬 쉽게 이해가 가능

    • @캬캬켜켜켜캬캬
      @캬캬켜켜켜캬캬 5 днів тому

      님 잼미니 몇버전씀? 요약잘안되던데

    • @Tren-g7jt
      @Tren-g7jt 5 днів тому

      ​@@캬캬켜켜켜캬캬갤럭시 홈버튼 꾹 누르면있는 잼미니써용. 버전이 몇인진 모르겠네요... 링크떤져주면 자동 자막이라도 있는 영상은 호다닥해줘요. 물론 줄글로 좀 길긴한데 문단끝이 대충 중요해보여서 그것만 읽어요

    • @호동동이-n6l
      @호동동이-n6l 5 днів тому

      @@Tren-g7jt 영상 링크거는거 챗지피티랑 코파일럿은 안되던데 재미나이는 왜 되나요??

    • @YU-wk2ce
      @YU-wk2ce 5 днів тому +1

      이 기능 처음알았다 ㄱㅅㄱㅅ 좋네

    • @jslee786
      @jslee786 5 днів тому

      ​@@Tren-g7jt1.5 Flash

  • @infested_pigeon
    @infested_pigeon 5 днів тому +15

    어차피 sw 라이브러리 최적화는 시간문제라 엔비디아가 얼마까지 해자를 두를수 있을지 모르겠습니다...

    • @이아비아
      @이아비아 5 днів тому +4

      중국은 유사 소프트웨어 만드는 도사 들이라 ᆢ

    • @ocean_color
      @ocean_color 5 днів тому

      결국 칩이 문제에요

    • @p4rk5h
      @p4rk5h 5 днів тому

      기존 설계를 완전히 내다버리고 새로운걸 만든거면 모르겠지만 그게 아니라서
      기존에 나왔던 컨셉트 (fp8) 를 이용한거라, 그리고 진짜 시간 문제였다면 ONNX 나 ROCm 이 진작에 학습시장 다 먹었었겠지....

    • @p4rk5h
      @p4rk5h 5 днів тому +2

      @@이아비아 유사하게 만들지만 쓸만하게 못 만드는게 한국이랑 중국임.
      솔직히 중국이 진짜 탈-엔비디아 하려는게 목적이었으면, 우리 "ONNX" 기반으로 학습했어요 했겠지
      개인적으로는 우리 이뤄낸거 많아요 이부분 자랑하려고 (특히 스타트업이기도 하니까) 쿠다 써놓고 일부 서브루틴 최적화 한거 가지고 이렇게 써놨을수도 있겠다 싶음

    • @sihyun313
      @sihyun313 5 днів тому

      라이브러리 최적화 따위가 문제가 아닌거 같아요 솔직히 그건 그냥 시간 갈아넣으면 해결되는 1차원적인 문제입니다. 렉스 프리드먼 AI쪽 팟캐스트들 추천합니다. 제가 최근에 본 딥시크 관련 영상들중 기술적으로도 다각도로 정말 정확하다 느낀건 해외유튜버들 제외하고 월텍남이었어요 한번 보세요. 여기서 길게 설명하긴 좀 그렇네요. 참고로 재미있고 정확하면서도 쉽고 유익하게 좋았던건 슈카월드 코믹스였어요 ㅋㅋ 슈믹스 추천합니다 둘다 절대로 시간이 아깝지 않습니다

  • @duto456
    @duto456 5 днів тому +22

    게임 개발로 비유하자면
    쿠다를 통하는 것은
    개발 에디터와 코드를 혼용해서 편하게 개발하는대신
    최적화가 좀 딸리고 시스템 리소스를 더 먹는거고
    PTX 방식은
    말단부터 모조리 하드코딩해서
    작동에 필요한 것외에
    확장되는데 들어가는 코드는 모조리 삭제해서
    최적화, 시스템 리소스를 덜먹도록 가볍게 만드는건데
    이거는 본격적으로 개발하기 시작하면
    답이 없을거 같은데요.
    매번 기능 업데이트나, 확장, 유지보수 할때마다
    하드코딩으로 붙여주고 덜어주고
    다시 코딩하고 자시고 해야할텐데
    개발자가 산더미같이 있어도 불가능할듯
    거기에 하드코딩 방식이라면
    다수의 개발자가 협업하는것도 쉽지 않을텐데
    그냥 보여주기식 같네요.
    테크 뉴스 보면
    정답률도 형편 없고 정확도,
    정보의 신뢰도도 너무 떨어진다고 합니다.
    AI라면 정확도와 신뢰도가 핵심인데
    대충 굴러만 가는거면 의미가 없죠.
    게다가 공산당에서 정보를 통제하는거라
    중공에서 만든 AI가 의미가 있을지 모르겠네요.
    제 개인적인 생각은
    중국 제재를 본격화할
    트럼프 행정부를 겨냥해서 발표한거라고 생각됩니다.
    후에 중국에 대한 제재에서
    협상력을 높이기 위함이라고 봅니다.

    • @user-eq1hy6ft5l
      @user-eq1hy6ft5l 4 дні тому +3

      지금이야 괜찮지만 시간이 지나고 사람이 바뀌면 바뀔수록 히스토리때문에 엄청난 후폭풍!!

    • @목하늘-w4f
      @목하늘-w4f 4 дні тому +1

      협상력 보다 자국내 ai투자의 정당성을 부여하기 위함이죠. 중국도 결국 ai에 돈 투자하겟다고 하고 그에 발 맞춰 준비햇던거 터트리지 않습니까? 미중 기술 전쟁중이란거죠.

    • @duto456
      @duto456 4 дні тому +5

      ​@@목하늘-w4f
      보통 어떤 비지니스 테이블에 가보더라도,
      협상을 원하는쪽이 들고나오는게 비용절감과 효율입니다.
      만약 중국이 자신들도 충분히 AI개발할수 있다
      우리도 AI투자한다 하면
      비용이 아니라 완성도를 들고 나왔어야죠.
      게다가 중국은 돈 많은 나라입니다.
      그런 나라에서 싸게 개발했다는게
      무슨 어필이 되는지 모르겠네요.
      개인들이 쓰는 양산형 pc가 아니라
      어차피 거대한 서버를 사용하는
      클라우드 시스템에 들어가는게 AI아니겠습니까?
      수백 수천대로 양산형 된느것도 아니고
      결국 최종 완성된 하나가 주류를 이룰겁니다.
      그럼 가격보다는 성능이죠
      수펴 컴퓨터 구입하는데
      가격보고 구입한다는 말 들어 보셨나요
      지금 중국에 필요한건 효율과 돈이 아니라
      개발에 필요한 기술력, 장비등입니다,
      엔비디아 제품 같은것 말이죠
      미중 기술 전쟁이라는
      말은 20년도 넘게 더 들어 본것 같습니다.
      현실적인 위협은 기술력 보다는
      양산형 제품 밀어내기로
      자본주의 생태계 교란 행위밖에는 본게 없네요
      프로토 타입 정도로 상대방을 위협하는건 아마추어입니다.
      그런정도는 우리나라도 충분히 할수 있지만
      전문가 단계에서는 헛짓거리라 안하는거죠
      중국 딥시크가 노리는것도
      전문가 레벨을 흔들려고 하는게 아니라
      대다수의 아마추어 일반인들에게 공포를 심어 주려는것입니다.
      전형적인 공산당 방식이죠.
      지금까지 중국이 이런방식을 한두번 써왔나요.
      수도 없습니다.

    • @duto456
      @duto456 4 дні тому +3

      ​@@user-eq1hy6ft5l 솔직히 요즘 시대에 이런 방식으로 개발하는걸
      잘했다 라고하는게 맞는지도 모르겠습니다.
      언어에 능숙한 네이티브 개발자도
      그 누구보다도 하드코딩은 반대하는 입장이 대다수고
      자동화, 유지보수 간편화
      이런것에 중점을 두고 있는게 요즘 개발방식인데
      중국은 이걸 역행해서 만든건데요.
      네이티브 개발자가 에디터
      의존증 있는젊은 개발자에게
      난 에디터 없이도 이정도 툴 만들수 있어
      하고 자랑하는거랑 다를게 없어 보이네요.
      툴을 만드는건 문제가 안되지만
      그 툴이 실제 개발 단계에서
      상용 에디터급으로 활용할수 있냐는 전혀 다른문제거든요

    • @유투브이름채널
      @유투브이름채널 3 дні тому

      @@duto456wow

  • @길을묻다-s3x
    @길을묻다-s3x 5 днів тому +16

    제가 미국서 일할때(90년대 중반이었슴) C++로 동영상처리를 개발하는 어플리케이션 개발시 보통 속도가 중시되는 부분만 어셈블리 랭귀지 코드를 삽입해서 개발합니다. 아마도 딥시크도 그런 전략을 쓰지 않았을까 싶네요

    • @루루-z4l
      @루루-z4l 4 дні тому

      코딩으로 밥먹고살지만 이해가 안되서요; 인간이 짠 어셈블리어를 직접 쑤셔넣으면, 컴파일러가 만든 어셈블리어 기계어보다 성능이 왜 좋아져요??
      컴파일러가 인간보다 왠만한 코드번역은 더 잘할거 같은데 싶어서요... 더하기 곱하기 연산을 >시프트 연산 같은거로 바꾸면 성능이 좋아진다 학교에서 배운거 정도는 이해가 가긴 하는데..

    • @endlesswork287
      @endlesswork287 3 дні тому

      ​@@루루-z4l90년대 컴파일러면 좀 성능이 떨어지지 않았나여?

    • @kid-v2k
      @kid-v2k 3 дні тому

      컴파일러는 최적화하면서 최적의 어셈이 생성되지 않을 수 있음
      개발자가 직접 어셈 넣는게 더 빠름

    • @donghyuknoh5687
      @donghyuknoh5687 3 дні тому

      @@루루-z4l 컴파일러는 코드 전반의 구조.. 정확히는 의도나 전략을 이해하고 작동하는게 아니니까요. 만약 Shallow Copy 보다 Deep Copy가 더 효율적인 일반적이지 않은 상황인 경우, 사람이 개입해서 최적화 하면 더 빨라지는 거죠.

  • @홍신희-z7k
    @홍신희-z7k 5 днів тому +55

    형님 안자여?

  • @megadeth5953
    @megadeth5953 5 днів тому +3

    하드웨어만 중요한것이 아니라 소프트웨어 최적화도 중요

  • @nine99korea
    @nine99korea 5 днів тому +20

    예전에 c로 작성한 것을 디스어셈블해서 다시 최적화해서 속도를 높이곤 했는데…
    Cuda와 ptx 의 관계도 이와 같다면 난이도가 확 줄어들 수 있습니다

    • @nine99korea
      @nine99korea 5 днів тому +5

      결국 하드웨어 팔아먹자고 컴파일러 옵티마이징에 소홀했다는 얘긴데…
      방금 있던 주식 매도하고 왔습니다 ㅎㅎ

    • @dudukiwi
      @dudukiwi 5 днів тому +4

      게다가 AI 이용해서 어셈블리 짜기도 쉬워졌어요. Cuda to Ptx 를 chatGpt 나 DeepSeek에게 시키는거죠.

    • @wbkim2229
      @wbkim2229 5 днів тому +2

      @@nine99korea소홀이 아니라 그런 프레임워크류는 비효율을 깔고 갈 수 밖에 없습니다.

    • @nine99korea
      @nine99korea 5 днів тому

      @@wbkim2229 컴파일러단이 아니고 플레임워크단인가요?
      보통은 플레임워크단이 옵티마이즈가 더 쉽지 않나요?
      AI 개발은 잘 몰라서… 살짝 이해가 안가네요 ㅎ

    • @user-eq1hy6ft5l
      @user-eq1hy6ft5l 4 дні тому

      ⁠@@nine99korea 플레임워크단이 쉽죠

  • @eclipse4419
    @eclipse4419 5 днів тому +41

    말씀하신대로 해자를 깬건 아니고
    CUDA를 우회했다 라는 말보다 CUDA 고수준 Runtime API가 아닌 저수준 ptx 저수준 레벨에서 최적화 했다가 맞을거 같습니다.
    Cuda 툴킷이 runtime api뿐 아니라 그 모든 것을 포함하는 개념이라서요.
    Abstraction 수준이 올라간다
    쓰기 편해진다.
    속도가 조금씩 느려진다
    거치는게 많으므로
    Abstraction 수준이 내려간다
    쓰기 ㅈ같아진다.
    빨라진다
    거치는게 줄어들므로
    Runtime api 말고도 driver api도 있는데 결국 더 저수준으로 가면 갈수록 저수준에서 컨트롤 및 최적화할 거리가 늘어나긴 합니다.
    최적화로 유명한 라이브러리들은 cuda를 써도 그수준까지 가서 최적화한게 대부분이구요
    이거를 해자를 깼다라고 하면 cuda에 대해 모르는 사람이라고 생각하고 무시하면 됩니다.

    • @김치맨-m1t
      @김치맨-m1t 5 днів тому +1

      탈 CUDA한거 자체는 맞습니다 CUDA가 아닌 하드웨어에도 적용이 가능한 확장성을 열어둔거니깐요.

    • @eclipse4419
      @eclipse4419 5 днів тому +5

      글쎄요 당장은 그 ptx라는게 cuda프레임워크 엔비디아 제품 전용이라 우회했다고 보는게 맞을지

    • @김치맨-m1t
      @김치맨-m1t 5 днів тому

      ​@@eclipse4419 PTX같은 경우 먼저 하이레벨 언어인 CUDA에서 컴파일 해서 마지막 바이너리로 컴파일되기 직전의 Intermediate Representation (일종의 LLVM 같은)이니 최종적으로 해당 하드웨어로 호환되는 컴파일러만 만들면 되는 문제겠죠.

    • @sihyun313
      @sihyun313 5 днів тому +4

      @@김치맨-m1t 님이 말하시는건 탈 cuda 가 아니라 탈 nvidia 아닌가요. 다른 ai칩들이 nvidia 와 같은 명령어셋을 쓰는것도 아니고요. 만일 크로스컴파일이 된다면 그건 탈 cuda 수준이 아닌데요. 님 말대로 향후에 llvm 같이 여러 아키텍쳐를 지원하는 툴체인이 나온다면 굳이 ptx 를 쓸 이유도 없을텐데요. 그렇게 된다면 그냥 탈 nvidia 고요. 현재 cuda를 아예 안썻다는건 말이 안되고 cuda 의 의존도를 줄였다 정도가 맞는거 같습니다.

  • @tsuyoshi_saijo
    @tsuyoshi_saijo 3 дні тому +1

    영상 감사합니다. 저는 자동차업계에 있는 사람이라 IT나 AI, 소프트웨어 쪽은 지식이 수박 겉핧기 수준입니다만, 이번 영상 보면서 한 가지 느낀 건, 결국 중국은 미국을 정면 승부하려면 아직까지 좀 리소스가 부족하다는 측면이 있다는 것이죠. 자동차 쪽에서는 중국이 요즘 전기차로 치고나가고 있고 하니 전체적으로 자동차업계도 중국에 관해서 공포?를 느끼는 상황입니다만, 솔직히 까놓고 보면, 기존의 자동차산업이 엔진이라는 기득권 중심의 산업이었고, 거기에 들어갈 수 없었던 중국이 환경규제 등을 토대로 전기차로 우회해서 간 것이 지금의 상황이 된 것이거든요. 다만, 지금 전기차는 중국시장을 제외하면 전체적으로 아직 저조합니다. 다른 시장은 아직 소비자들이 전기차라는 솔루션을 따라가기에는 경제적으로 인프라적으로 등등... 시간이 생각보다 걸리는 상황이지요. 제가 말씀드리고 싶은 건, 중국은 우회전략을 잘 합니다. 다만 정면승부를 할 수 없어요. 정치적 제약? 규제? 뭐... 여러가지. 근데, 중국은 우회전략을 하면서 하향 보편화를 잘 합니다. 전체적으로 가격을 떨어뜨리고, 경쟁 수준을 낮추고 있지요. 그렇다보니 결과적으로는 기존의 상급 또는 고급 시장의 경우는 좀 더 프리미엄으로 올리고, 이 이하의 것들은 다 공통 보편화 되는 상황이 되고 있습니다. 실제로 자동차, 스마트폰 포함 가전 등, 중국이 치고 올라온 곳들은 그렇게 되었습니다. AI는 솔직히 어떤 분들도 얘기하셨지만, 저는 이 Deepseek라는 게 결과적으로는 중국 한정으로 끝나지 않을까 조심스레 전망하는 바입니다. 결국, 중국에서 가지고 나오는 기술?은 결과적으로 글로벌 스탠다드로 성장하기엔 너무 부담? 되고 정서적이나 감정적 측면에서 제한될 가능성도 있습니다. 마지막으로 한마디만 더 추가하자면, 저들에게 원천 기술, 즉 오리지널의 기술이 세계최초로 나올 때가 그들이 바라는 진정한 시장 컨트롤이 가능한 때이겠지요.

  • @JUSTICE-n6d
    @JUSTICE-n6d 5 днів тому +3

    감사합니다

  • @jassheien
    @jassheien 4 дні тому

    대단하네요 엔비디아에서 저수준 라이브러리 제공 하게 될듯하네요

  • @Al-Paco-z2p
    @Al-Paco-z2p 2 дні тому +1

    옛날 486 때 하던 어셈블리 최적화 작업을 지금도 하고 있다구?

  • @runonio
    @runonio 5 днів тому +1

    운용자산이 적지 않은데 고빈도 매매쪽을 했을까요.. 시타델같은 광범위 데이터 분석쪽으로 했을거같은데요.. 고빈도매매는 수조원의 자산을 돌리기에는 적합하지 않은거 아닌가요?

  • @NGG-j5f
    @NGG-j5f 5 днів тому +7

    이분 열정이 넘치시는 분이시네요 부럽습니다 AI는 잘 모르지만 테크는 관심분야라 .. 관심만 ㅋ

  • @꼭두각시-t2k
    @꼭두각시-t2k 4 дні тому

    새해 소원성취하시고 환절기 늘 건강하시길..................역사청화수

  • @vshp
    @vshp 5 днів тому +19

    멀리 갈 것도 없이 한국의 npu개발 업체 리벨리온의 CEO도 모건스탠리에서 퀀트 트레이딩 칩 설계 하던 분으로 알고 있는데 퀀트쪽에서 FPGA, ASIC, SoC 기기에 배포할 프로토타입 이나 프로덕션 응용 프로그램 개발하던 퀀트 엔지니어들이라면 추상화 레벨이 낮은 PTX로도 최적화 작업이 가능 할 수도 있었을 듯 싶네요. 근데 저렇게 하면 아키텍쳐 바뀔때마다 최적화 다시해야 할텐데 저정도 실력과 노력이면, CUDA는 inline PTX assembly를 지원하니까 , CUDA kernel에 assembler statement를 추가해서 쓸수도 있었을텐데 정녕 CUDA를 의도적으로 우회하기 위한 것인가? 싶은 생각도 드네요

    • @dudukiwi
      @dudukiwi 5 днів тому +2

      요즘엔 AI로 바뀐 아키텍처에 대항해서 어셈 짜면 되잖아요 ㅎㅎ
      쿠다로 짠거 PTX로 변환한뒤 디버깅 했을수도 있구요

    • @p4rk5h
      @p4rk5h 5 днів тому +6

      @@dudukiwi 사실 PTX 일부 사용해놓고 블러핑 했을 수도 있고 fp8 로 썼다는 거 거려했을 때 쓴 GPU 가 CUDA Compute Level fp8 미지원 해서 이쪽 arithmetic 부분만 그랬을 수도 있음
      아니면 엔비디아 얘네들 워낙 드라이버로 기능 잠구는거 좋아하는 애들 (예 vGPU 등) 이라서 바인딩 짠걸 수도 있고

    • @원두허니
      @원두허니 4 дні тому +2

      래퍼 dll이나 so 만들어서 수정할 함수 빼고 리다이랙트 걸고 수정할 부분만 직접 c, ptx로 구현하거나 해당 부분 가져와서 연산부분만 수정했을수도. 다들 성능이 더 필요하다고 하는데 최적화에 소홀한 회사라니. 상품 좀 더 팔고싶은 욕구가 더 강했을지도. fp4는 어느장비까지 지원해줄지 최적화는 되어있을지 의문.

    • @p4rk5h
      @p4rk5h 2 дні тому +2

      ​@ 정확하게는 CUDA Compute Level 이라고 얘네 성능을 저가 라인업에 제공을 안해 줌. 약간 H100 같은거랑 RTX 4090 둘 다 아키텍쳐는 똑같지만 H100 에만 기능을 더 풀어준 방식임. (생각해 보면 H100 이 훨씬 비싸게 팔리니까, 기능 쓰고 싶으면 비싼거 써라 이거지)
      예전부터 저런건 많았음 (RTX 20시리즈는 데이터센터용이랑 다이 똑같은데 vGPU 기능 데이터센터 라인업만 열어준다던가), 카드 급차이라면서 안넣어 준거임.
      (이거도 드라이버 뚜따하면 vGPU 기능 열리고 그럼)
      차로 예를 들면, 그랜져급이랑 아반떼급이랑 차급 차이나니까 원격주차 같은거 안넣어주는거 같은거임. 근데 엔비디아가 이런게 되게 심했었음.
      아마 deepseek 는 대중규제 때문에 얻을 수 있는 GPU가 되게 한정적이었을 꺼고, 규제 대상에 데이터센터 GPU 가 있었으니까 급마다 제한 거는거 우회 (CUDA 바이너리 적재 중에 function call (cuda에서 병렬처리는 대부분 함수 호출로 진행함) 은 막을 수 있어도 inline 어셈블리까지 체크하는 건 좀 힘들테니까) 할려고 그랬을 가능성이 높다고 생각함., 이게 이슈화 됐으니까 이제 엔비디아 더 빡세게 막겠네....
      그리고 이게 원래 100% 최적화 하기가 힘든게... NVIDIA 에서 공식으로 주는거는 어쩔수 없이 구버전 호환성이라던지 이런것들 고려하고 만들어야해서, 어쩔수 없이 boilerplate 가 생길 수 밖에 없긴 함. 물론 deepseek 처럼 전부 쌩까고 구현해버린걸 공식으로 제공하면 빠르긴 빠르겠지만, 고객들이 코드 작동안된다고 난리칠께 뻔한데.... (상업용 소프트웨어에 백준에서 런타임시간 깎는거 마냥 코드골프 최적화게임을 항상 적용할 수는 없음 ㅇㅇ)
      아 씨 중국형들아;;; 우회방법 공유하지 말라고;;;

    • @원두허니
      @원두허니 2 дні тому +1

      @ 최적화를 쉽게 생각했는데 조사해보니 엄청 어려움. 메모리 액세스 최적화를 잘하면 3~10배, 커널병합은 20~50%, PTX/SASS 수준 최적화가 15%, 동적 패러럴리즘이 20~40%, 연산 최적화(행렬곱셈)이 20%정도, 아키텍쳐 민감도가 1.8~4배.
      결론적으로 보면 20%~4배까지 개선될 수 있음. 이중에 큰게 메모리 액세스 최적화와 아키텍쳐 민감도 정도 건드렸을듯. 그런데 이게 cuda toolkit을 전체적으로 고치는 수준임. 이걸 진짜 했으면 OpenBlas 정도는 NVidia 최적화 적용해서 자체적으로 보유하고 있다는 소리일듯.

  • @madiafan
    @madiafan 5 днів тому +1

    잘모르지만 꼭 엔비디아만 써야함? 어쎔이면 다른 것도 최적화해서 사용할수 있을 것 같은데

  • @성이름-s8u4y
    @성이름-s8u4y 5 днів тому +8

    역시 기술의 끝은 노가다

  • @dor_jake
    @dor_jake 4 дні тому

    황회장이 제공하는 인터페이스의 비효율 적인 부분 때문에 글카를 더 효율적으로 사용하기 위해 더 비효율 적인 코드작성 방식을 사용했다는 말로 들립니다.
    만약에 황회장 쵸 각성~ 한 다음에 제공하는 인터페이스가 ptx로 누릴 수 있는 긍정적인 효과의 90% 95% 를 상쇄할 만큼 좋아지면요?
    그때는 누가 다 벗고 수영하고 있던건지 증명되려나요?

  • @귀쟁이-q1v
    @귀쟁이-q1v 5 днів тому +21

    엔비디아 주주가 무조건 구독해야할 유튜버 No.1
    Approve

    • @sihyun313
      @sihyun313 5 днів тому

      월텍남 추천함

  • @fastdunn
    @fastdunn 5 днів тому +6

    재밌네요. PTX level codes 는 AMD 에 포팅하기 매우 쉬울듯...

  • @hyunchuljung9631
    @hyunchuljung9631 5 днів тому +5

    이젠 뱃사공 돼신듯

  • @1742ti
    @1742ti 2 дні тому +1

    중국인구가 많으면 그안에 천재비율도 분명 더 많을거임
    그러니까 천재 고지능 개발자들이 갈려나갔다는말

  • @dojo3872
    @dojo3872 5 днів тому +5

    쿠다 촤적화를 외부에서 해야지 하드웨어 만드는 놈이 참 최적화해서 잘 팔것다 외부에서 최적화를 하지 않으면 엔비디아는 최적화해서 자기 하드웨어를 깍아먹을 이유가 없지 더 많은 하드웨어를 사용하게끔 널널하게 쿠다를 이용하게끔해서 최대효율을 내지 못하게 할 것이다

  • @콩밥먹는윤두창
    @콩밥먹는윤두창 2 дні тому +1

    기계어로 다뤘으면 인력을 갈아썼네

  • @hj43l2kl
    @hj43l2kl 5 днів тому +44

    혹시 편집실에 감금되어 계시다면 덤벨을 흔들어주세요.

  • @SongBird-b2t
    @SongBird-b2t 4 дні тому

    CUDA SDK 내부가 최적화가 안되어 있거나 오버헤드로 인해 그동안 하드웨어 성능을 잡아먹었을 것 같네요. 성능이 개선된 CUDA 대체 SDK가 나온다면 큰 관심을 받을 것 같네요. 기대해 봅니다. 뭐 니가 해라구요? ㅋㅎ

  • @skbc5792
    @skbc5792 3 дні тому

    예전 스타크래프트가 저사양에서도 잘 돌아가는이유가 어셈블리수준의 코딩을 섞어 만들어서 그렇다는 소문을 들었는데 얘네도 그렇게 한거라면 대단한겁니다.

  • @김진혁-l4l
    @김진혁-l4l 5 днів тому +2

    형님 알고리즘덕에 계속 올려주셔서 감사합니다 앞으로도 1일 2영상 부탁드립니다

    • @김진혁-l4l
      @김진혁-l4l 5 днів тому

      아키텍쳐 분야에서 LLM, DNN 관련 최적화 연구가 활발하게 이뤄지는 걸로 들었는데, 한번에 이걸 뒤집는 걸 보면 중국 자본의 힘은 대단하네요

  • @하루또하루-m4s
    @하루또하루-m4s 5 днів тому +2

    ptx도 ai 학습시켜서 최적화시키면 되는거 아닐까

  • @phoenix_in_kor
    @phoenix_in_kor День тому

    8:29 테이버 불러줘

  • @chordzin
    @chordzin 2 дні тому +2

    사람을 갈아넣었네ㅜㅋㅋ

  • @tmaster-r5x
    @tmaster-r5x 5 днів тому

    안공 형아 있어서 우리나라는 아직 기회가 있다!!! 쭉쭉 올려주세요!! 정말 도움 됩니다!

  • @masterediy
    @masterediy 5 днів тому +1

    엔진다셨네 ㄷㄷㄷ

  • @slue777
    @slue777 4 дні тому

    안녕하십니까 31일 출시된 O3미니와 O3-MINI-HIGH에 대해서도 영상으로 분석해주시면 감사하겠습니다. 노들어올때 물저어주셔서 감사합니다.

  • @fkalsh
    @fkalsh 4 дні тому

    대량의 대이터에 대한 연산 집약이기에 무거운 고수준 레이어를 들어내고 저수준에서 개발했을때 가능성을 노릴만 하겠네요 ㅋ

  • @user-hakjeong
    @user-hakjeong 5 днів тому +17

    확실히 딥시크는 실력있는 회사같습니다...

  • @k123-y2u
    @k123-y2u 5 днів тому +3

    결국 ptx도 cuda를 위한 어셈블리어 오픈소스라는 것으로 이해되고 cuda 생태계 위에서는 벗어날수없다고 생각이 드는데요. 계속 홀딩이 맞지 않을까요?

  • @hgd2619
    @hgd2619 5 днів тому +4

    영상은 보고 댓글다는거임..?

  • @sonson6639
    @sonson6639 4 дні тому +1

    결국 엔비디아를 벗어날수 없다

  • @himchan-han
    @himchan-han 5 днів тому

    LLVM IR처럼 MLIR을 확장해서 CUDA PTX ISA와 AMD GPU ISA, SPIR-V를 아우르는 것을 만들면 좋겠네요.

  • @구자현-c8u
    @구자현-c8u 4 дні тому

    저렇게 하면 보통 효율이 얼마정도 올라가나요?

  • @응슷응응슷응-r9z
    @응슷응응슷응-r9z 3 дні тому

    인건비가 가능하게 만든건가

  • @rocketmoon1910
    @rocketmoon1910 4 дні тому

    현기증 나네요. 결론은 엔비디아 롱인가요? 잘 아시는분 답좀..(머리는 비었고 주머니는 두둑한 상태라..)

  • @jhh7326
    @jhh7326 5 днів тому +1

    부지런하다,,

  • @함종완-s1q
    @함종완-s1q 5 днів тому +2

    어셈블리로 코딩했으면.. 개빡샜을텐데.. 이 코어 코드는 공개 안했을텐데 21세기에 어셈블리로 짜는 코드는 어떤가 궁금하네요. 열정보다 광기에 가까운데..

    • @XT55555
      @XT55555 5 днів тому

      21세기 태어난 사람들이 20세기 사람들처럼 참을성과 무던함과 성실성을 가지고 있다는 말이니깐
      더 무서운거 같음 ㅋㅋㅋㅋㅋ
      아주 참을성이 높거나 변태 너드이거나 ㅋ

  • @김재철-d6z
    @김재철-d6z 4 дні тому +2

    금융쪽 IT 인력들이 초단타와 극한의 처리속도를 위해 어셈블리와 같은 저수준 레벨을 다루는 것은 상식이죠. 심지어 통신 기지국에 얼마나 가깝게 위치하느냐도 따지는 상항까지 고려한다면 이러한 I/F 개선을 통한 GPU 성능을 끌어올는 것은 비용 최적화의 일부이고, 단지 저들이 잘하는 분야에서 인터페이스에 올인한 결과 중에 하나라서 이게 비용 해결의 핵심으로는 생각되지 않네요.

  • @misia8676
    @misia8676 5 днів тому +8

    zluda 사용하면 nvidia gpu 대신 amd 나 intel gpu 에서도 cuda 를 돌릴수 있어요. (예전에 댓글로 zluda 한번 다뤄달라고 comment 달았었는데…) amd intel 제품들이 nvidia 제품들보다 성능이 많이 떨어지거나 한건 아니기에 zluda를 이용해 cuda 생태계에 들어가려고 시도하다가 법적 문제로 그만두었고 zluda 개발자가 open source로 공개했었어요. 즉 상대적으로 미 정부의 관리 감독이 덜하고, 세상의 관심이 없는 amd intel 제품을 사고 zluda 를 아용하면 cuda 생태계 구현이 가능해요. 즉 cuda에 대햐서 찐 전문가인 엔지니어를 amd intel에서 고용해서 cuda 생태계에 들어가려다 프로젝트를 접었고, 이 엔지니어를 중국쪽에서 금전적 지원을 한다면 지금의 미 정부의 규제는 쉽게 우회 가능합니다. amd intel도 란팔리는 자사 ai chip을 팔수 있어서 좋구요.

  • @kevin1234par
    @kevin1234par 5 днів тому +1

    CUDA = access language of GPU

  • @Übermensch-g9x
    @Übermensch-g9x 4 дні тому +2

    0과 1로 코딩하지 않는것은 컴퓨터 성능 낭비라고 하시던 할아버지의 말씀이 떠오르네요

  • @lonely.hiker.monad1886
    @lonely.hiker.monad1886 4 дні тому

    제공되는 api가 아닌 뭔가를 새롭게 만들어 쓴다는건 검증 과정과 시간 지연이 큰 첼린지라 보통의 회사라면 시도조차 할 생각을 하지 않을텐데.. 외계인이라도 주웠나? 거기다 잘 쓰지도 않고 레퍼런스도 없는 어셈블리어라니..

  • @GenesisterMaster
    @GenesisterMaster 5 днів тому

    게임으로 비유를 하자면, 예전에는 게임사가 인력 갈아넣으면서 최적화(어셈블리)를 했다면... 지금은 DLSS같은 기술로 땜빵(쿠다 라이브러리) 치는 거랑 비슷한 것 같네요.

  • @슝늉-m5i
    @슝늉-m5i 5 днів тому +26

    주린이를 위한 요약: 어쨌든 딥식이의 PTX최적화 또한 앤비디아의 CUDA와 GPU 안에서만 돌아간다. 앤비디아 천하는 계속된다.

    • @seye46
      @seye46 5 днів тому +5

      😂😂😂wrong

    • @Dowload_Video_4729
      @Dowload_Video_4729 5 днів тому +1

      킹비디아

    • @Dowload_Video_4729
      @Dowload_Video_4729 5 днів тому

      마른오징어 즙짜기 최적화한거네
      로우레벨로 갈 수록 원래 특정 기계에서만 맞춤이니까 엔비디아를 쓰긴하겠지만 효과 상당히 봤으니 가격은 내려가는건 똑같지 않나?

  • @sypark3579
    @sypark3579 5 днів тому +4

    H800을 H100 이상의 퍼포먼스를 내기 위해 저수준의 언어를 사용했네요
    빅테크는 버전 업데이트 및 장비 업그레이들 위해 CUDA를 쓰겠죠
    생각지도 않았던 딥시크 때문에 반도체 관련 투자 스텝이 완죤히 꼬였네요

    • @원두허니
      @원두허니 5 днів тому +3

      지금 빅테크들도 ptx로 cuda 수정중이거나 nvidia에 소스 내놓으라고 하고 있을듯. deepseek랑 경쟁하기위해서는 우리도 cuda성능 높여야한다. 니네가 최적화 실패했으니 소스라도 내놔라 우리가 수정한다?

    • @masterediy
      @masterediy 5 днів тому +1

      ​@@원두허니아마 그게 핵심으로 보입니다. 딥시크는 그거찾아 인력으로 개선했고 나머지는 안(못)했구요.

    • @루루-z4l
      @루루-z4l 4 дні тому

      이해가 잘 안가서요; ptx로 어딜 뜯어고쳐서 무슨 성능향상이 됬다는건지..;
      cuda툴킷 컴파일러로 변환한 각종 바이너리 코드(학습 추론 등)들을
      ptx로 변환해서 손보고 다시 바이너리로 패킹해서 성능개선을 했다는 소리인가요? cuda코드가 공개가 안되있으니까?

  • @jj-hk2826
    @jj-hk2826 5 днів тому +14

    한줄 요약 - 인력갈아넣어서 저사양칩으로도 결과를 만들어 내었다. 고로 중국과 인도같은 싼인력말고는 비효율적이다.

    • @소미-n9x
      @소미-n9x 4 дні тому

      그런 경험이나 기술의 데이터가 쌓이면 하드웨어 사양이 좋아졌을때도 더 효율적인 처리가 가능한거임 아예 안하는 것보다 해서 기술력 쌓는 이점을 봐라 근시안에 부정적 미래가 없군

    • @목하늘-w4f
      @목하늘-w4f 4 дні тому +3

      ​@@소미-n9x한줄 요약에 뭔 비판을 하고 잇냐. 일단 쿠다 쓰면 되는걸 인력갈아서 한건 팩트란거네

    • @jahyukshin4239
      @jahyukshin4239 4 дні тому +3

      @@jj-hk2826 저급 인력은 갈아도 못합니다. 우리나라 개발자 중에서 이런거 할수 있는 사람은 2%도 안될거에요.

    • @PrHi-zz5fx
      @PrHi-zz5fx 4 дні тому

      @@jahyukshin4239 중국도 개발자중에 2프로도 못할텐데 그 2프로만해도 겁나많아서 갈아넣을수있음

    • @루루-z4l
      @루루-z4l 4 дні тому

      ? 저급인력이 어셈블리어를 안다고? ai박사들 중에 cuda ptx로 돌아가는 프로그램 짤줄 아는사람 1프로도 모를거 같은데요
      한국에서는 이정도로 안쥐어짜요; 일단 이론이 되는지 안되는지 정도까지만 하고 나머지는 돈있으면 개선하자 니까; 돈이 없어서 네이버도 카카오도 현재ai 그 이상을 안하고 있지만;

  • @이상-b4y
    @이상-b4y 5 днів тому

    실제로 로컬에서 모델 돌려보면 다른 모델보다 앞도적으로 가벼움 얼미나 최적화를 시켰는지 알수있음 올라마 통해서 다른 모델과 비교해세요

  • @백영래-u3x
    @백영래-u3x 5 днів тому +1

    이 분은 안 자고 24시간 영상을 제작 하는 것 같아요.

  • @이용진-z5v
    @이용진-z5v 2 дні тому

    쿠다 말고 암드의 멀티코어 멀티 쓰레딩 멀티 프로세스 최적화 이용해서 AI연산 시키면 멀티코어 암드 시퓨만 있으면 되는거니. 오픈소스로 푼건 유지보수 책임을 넘기려고 한거 같고. 리눅스처럼 알아서 커스터마이징 하라고. 딥시크 기반으로 한국이 커스터마이징 하는게 나을 수도 있음. 삼성 네이버 카카오 참여해서 대신 보안 기능 추가해야 되고 개인정보 유출 저작권 이슈가 있으니 중국은 그런거 생각 안하니 데이터 막 수집해서 만드는거고. 엔비디아처럼 쿠다코어만 잔뜩 늘리는건 비효율적이니 한국에서 인텔 암드랑 같이 연구해도 될거 같고.

  • @최준하-p4e
    @최준하-p4e 5 днів тому +2

    형 영상 잘 보고 있고 이렇게 빠르게 양질의 영상을 올려주는 거는 고마운데 슬슬 나 무서워...

  • @young-me5gi
    @young-me5gi 3 дні тому

    전혀 문외한이라, 용어 아뭇 것도 알아듣지 못하는데.. 근데.. 그냥 재미있네요. 놀라운 실력.^^

  • @다우니-c7v
    @다우니-c7v 5 днів тому +1

    좋은 정보를 많이 주는거같은데.
    뮤슨 말인지 일도 모르겠더....

  • @youngunkim1898
    @youngunkim1898 4 дні тому

    확실히 때가 왔을 때 노 저어야 되죠 ㅎㅎ 아자아자!

  • @StormDriftZ
    @StormDriftZ 5 днів тому +11

    어셈블리 레벨까지 건드렸다는거는 진짜 대단한건데.

  • @findnet
    @findnet 5 днів тому +3

    잘보고 있습니다. ~
    노들어올 때 물저어~

  • @fjord38
    @fjord38 5 днів тому

    OS 개발하는데 HAL 을 직접 건드린것과 같다고 이해하면 되겠죠?

  • @쉬바쉬바-s2h
    @쉬바쉬바-s2h 4 дні тому +4

    3줄요약 비유
    1. 회사에서 팀별로 영어통역가 몇명씩 붙여줘서, 해외바이어 미팅시켜주면 되는데,
    2. 모든 사원에게 영어교육을 시켜서 토익 900에 프리토킹+업무관련 용어 마스터시킨후 바이어 미팅시킴
    3. 당연히 바이어들 대만족인데, 이 방식은 인건비가 많이듬, 하지만 중국이어서 인건비가 쌈

  • @luminiol
    @luminiol 5 днів тому

    이야... 롤러코스터 타이쿤 이후에 어셈블리어 처음듣는데

  • @TheWoseven
    @TheWoseven 5 днів тому

    성능이 중요한 대부분의 상용제품에는 어셈블리코드가 들어가 있는것으로 알고 있습니다. 그것때문에 업데이트에 문제가 있는 경우는 없습니다. C/C++와 어셈블리의 혼용은 드물지 않습니다. 게임엔진의 경우도 큰 대형게임의 경우 그대로 쓰지않고 고쳐서 씁니다. 원래 라이브러리라는 것이 범용적이라 그대로 쓰면 성능이 떨어지기 마련이라.

  • @yangisgood
    @yangisgood 4 дні тому

    엔비디아의 독점과 미국의 고립정책이 이가 없으면 잇몸으로 하게끔 만든 원동력인거 같습니다

  • @Backatt
    @Backatt 5 днів тому

    컴퓨터 용어 잘 모르겠는데 여튼 뼈와살을 깎아 딥시크를 만들었다는거군요 😮

  • @sdfasdfsdfds
    @sdfasdfsdfds 5 днів тому +1

    집념이 대단하네요
    저렇게 하다 새로운 쿠다외의 생태계가 탄생할지도 ㄷㄷ

  • @Haru08816
    @Haru08816 5 днів тому +1

    이걸 생각 못해네 코딩 자체가 시간 갈아 넣어야 하는 단순 반복 작업인데 중국이 그걸 하면 어떻게 될까 생각을 안해봤음 쟤들이 넘치는 값싼 인력으로 때려 넣어서 하찮고 광범위한 코딩을 할 경우 엄청난 잠재력이 있을듯

  • @Volfguy
    @Volfguy 4 дні тому

    결국 언제나 짐켈러는 옳았다는 것 아닐까요?

    • @루루-z4l
      @루루-z4l 4 дні тому

      아 짐켈러는 쿠다툴킷을 어셈블리어로 다 뜯어보고
      이새끼들 ㅈ같이 툴킷 만들었네 ㅋ 내가 반도체랑 소프트웨어 전부 만들어서 시장 먹어야겠다
      했다는 거 같기도 하네요

  • @30sAI
    @30sAI 4 дні тому

    다른 기사에서 H800 쓴 것 보니 걍 쿠다라고 생각했고, 쿠다 기반의 flash_attn 패키지 쓰는 것 같은데다 걍 생각해봐도 트랜스포머 모델을 안썼다고 하면 모르겠는데, 누구 말을 믿어야 할지 ㅡㅡ;

  • @MrQNick
    @MrQNick 5 днів тому +5

    쿠다를 사용하지 않으면 화웨이 칩에서 돌아 가게끔 개발됐다라고 봐야 합니다

    • @jahyukshin4239
      @jahyukshin4239 5 днів тому +3

      오히려 ptx같은 어셈블리는 하드웨어 종속적이에요. 명령어 셋 자체도 저작권이 있어서 다른 칩 제조사에서 맘대로 쓰기도 매우 어렵고요.

    • @루루-z4l
      @루루-z4l 4 дні тому

      기계어 자체는 문법이 많지않아서
      포팅하는 컴파일러가 있으면 화웨이 npu로 돌릴수 있겠는데요
      이미 화웨이 npu지원한다고 딥시크r1에 써져있음..

  • @달님-i7x
    @달님-i7x 4 дні тому +1

    직접 ptx assembler로 개발해? 그럴리가 ? 불가능해욤... PTX로 개발자를 갈아 넣을 수 도 없을 뿐만 아니라 , 그 개발 인건비가 더 많이 들고 , assembler 개발? .... 진실은 시간이 지나면 밝혀지겠죠? 근대 상용화할 성능은 아닌것 같은데?? 오버하는 것 같은데? ..... Clova X보단 100배는 낳긴하네요.. Naver 도 전 개발자 assembler 교육해야 하나 ㅋㅋ? 첫 발도 못 디딘 카카오도 있는데..

    • @osilsgasil9130
      @osilsgasil9130 4 дні тому

      개발자를 뭐하러 갈아넣음ㅋㅋㅋ ai로 하면되는데 ㅋㅋㅋㅋ