[딥러닝 기계 번역] Transformer: Attention Is All You Need (꼼꼼한 딥러닝 논문 리뷰와 코드 실습)

Поділитися
Вставка
  • Опубліковано 29 тра 2024
  • 본 교육 동영상에서는 현대의 자연어 처리 딥러닝 모델에 중대한 영향을 끼친 논문인 Transformer (NeurIPS 2017)를 소개합니다. 2020년을 기준으로 15,000회의 인용 횟수를 가진 Transformer 논문은 매우 많은 최신 자연어 처리 모델이 활용하고 있는 아키텍처를 제안합니다.
    이러한 Transformer의 메인 아이디어는 BERT, GPT와 같은 최신 아키텍처에서도 채택되어 세계적으로 유명한 번역 프로그램인 Google 번역기, 네이버 파파고 등에서도 활용되고 있습니다.
    논문 핵심 요약: 00:00:00
    코드 실습: 00:43:40
    논문 같이 읽기: 01:04:31
    본 강의는 논문 요약, 논문 리딩, 코드 실습을 포함하고 있습니다.
    바로 실행 가능한 Colab 코드를 제공합니다.
    본 시리즈의 동영상에서 사용된 강의 자료(PPT)와 코드는 다음의 깃허브 저장소에 업로드됩니다.
    github.com/ndb796/Deep-Learni...
  • Наука та технологія

КОМЕНТАРІ • 109

  • @SM0Cmarui
    @SM0Cmarui Рік тому

    자연어 처리에 관심이 많았는데 핵심 논문에 대한 자세한 설명을 해주시니 너무 좋습니다

  • @user-gh7ju2jq8q
    @user-gh7ju2jq8q 2 роки тому +1

    코드 설명 덕분에, 이론에 대한 부족한 이해를 보완할 수 있었습니다. 정말 잘 봤습니다.

  • @jaeseokkim1932
    @jaeseokkim1932 2 роки тому +12

    논문의 이해도도 뛰어나시고 설명도 잘하시고, 관련분야 공부하시는분들에게 정말 많은 도움이 될 영상인거 같습니다!

  • @Slystomp
    @Slystomp 3 роки тому +1

    직관적인 자료와 충분한 설명. 온라인 강의는 보통 이해하려면 3-4번 돌려봐야 했었는데 한번만 들어도 어느 정도 이해하는 느낌을 주네요~ :)

  • @seungwondo1822
    @seungwondo1822 3 роки тому +4

    갓동빈님.. 감사합니다.. 덕분에 정리되지 않던 내용들이 쏙쏙 이해되네요. 부와 영광을 얻으시길 ,,,

  • @mh.hwang90
    @mh.hwang90 3 роки тому +8

    와.. 이렇게 코드 하나하나 친절하게.. 감사합니다 ㅠㅜ

  • @jinwooseong2862
    @jinwooseong2862 3 роки тому

    좋은 강의 감사합니다. 설명을 잘 하기 위해서 엄청난 노력을 하신게 느껴지네요.

  • @gyuhapark6158
    @gyuhapark6158 3 роки тому +26

    제가 본 transformer 강의 중 가장 설명을 잘하시네요!

  • @ho0516
    @ho0516 2 роки тому +6

    진짜 정말 감사합니다. 더 깊은 이해를 하는데 도움을 많이 주시고, 몇년 전부터 궁금한 이론이 있으면 나동빈님 영상 보면서 공부했습니다! 특히 딥러닝 코드 실습은 선물드리고싶을 정도로 감사하네요 ㅠㅠ 앞으로도 꾸준히 올려주세요!! 한국 코딩발전에 힘써주세요 :) 감사합니다 !!

  • @rockstar-lt8rg
    @rockstar-lt8rg Рік тому +2

    이론 설명부터 코드까지 단계별로 너무 깔끔하고 상세한 설명 정말 감사합니다 논문 이해하는데 정말 큰 도움이 됐어요

  • @user-pz5xl2io5m
    @user-pz5xl2io5m 3 роки тому +4

    👏👏👏👏 transformer 강의 정말 잘 들었습니다! 처음 박사 과정을 시작했는데 이 논문은 알아야 할것 같아 막혀서 답답했는데 이거 보고는 많은 도움이 되었습니다! 코드랑 중간중간에 강조하셨던 부분들도 좋았습니다! 감사합니다

  • @sunsekwon7328
    @sunsekwon7328 Рік тому

    알기쉽게 설명해주셔서 정말 감사합니다. andrew ng 강의 듣고 잘 이해 안가는 부분이 있었는데.. 동빈님 설명 덕분에 큰 산 하나 넘은것 같습니다. !! 😃

  • @derrickkwon2232
    @derrickkwon2232 2 роки тому

    자연어처리 공부중인 대학생입니다! attention is all you need 공부중이였는데 정말 정리가 잘 되있어서 놀랐습니다.
    공부에 도움 주셔서 정말 감사합니다.

  • @youngsooyi7481
    @youngsooyi7481 3 роки тому

    최고의 강의입니다.

  • @WTFIAMTKL
    @WTFIAMTKL 2 роки тому

    19:05 포지셔널 인코딩. 선생님 잘 보고 갑니다. 아직 잘 이해가 안 돼서 더 봐야겠어요!

  • @Ebue2
    @Ebue2 Рік тому +1

    오랜만에 트랜스포머를 다시 보려니 헷갈려서 찾아봤는데, 이렇게 잘 설명된 강의가 있었네요. 한 번에 다 이해가 되네요 감사합니다

  • @user-kg567ed
    @user-kg567ed 7 місяців тому

    transformer 논문을 정확히 설명해 주셔서 많은 도움이 됐습니다. 감사합니다

  • @thegreatgaespi
    @thegreatgaespi 3 роки тому

    혼자 학습하려니 막막했는데, 영상보고 아키텍쳐의 맥을 효과적으로 빠르게 파악하였습니다. 감사합니다👍

  • @user-ir3oe8ym9i
    @user-ir3oe8ym9i Рік тому

    항상 고맙습니다!! 이 동영상 덕분에 트랜스포머에 대한 감을 잡을 수 있었습니다.

  • @user-bi6tl4tt5f
    @user-bi6tl4tt5f 9 місяців тому

    훌륭한 분입니다

  • @Ssiil
    @Ssiil 2 роки тому

    감사합니다 어텐션 가물가물했는데 같이 짚어줘서 이해가 쉬웠어요!

  • @moplaylist_
    @moplaylist_ 3 роки тому

    좋은 논문리뷰영상 감사합니다!

  • @Lee-ou2xj
    @Lee-ou2xj 2 роки тому

    항상 잘보고 있습니다!!!:)

  • @tTunes-2024
    @tTunes-2024 3 місяці тому

    좋은 정보를 공유해주셔서 감사합니다~

  • @deokjoonglee52
    @deokjoonglee52 3 роки тому

    transformer 설명 너무 감사합니다!

  • @suljeewoo
    @suljeewoo 2 роки тому +1

    Transformers 논문 읽었었는데 이해하는데 많은 도움이 되었습니다! BERT 논문도 올려주세용 ㅜㅜㅜ

  • @user-ji8hc3ng5f
    @user-ji8hc3ng5f Рік тому

    정말 감사합니다. 모델을 이해하는데 많은 도움이 되었습니다.

  • @user-pk1rg6fg8k
    @user-pk1rg6fg8k 2 роки тому

    설명 너무 쉽게 잘하시네요 행님;

  • @user-kn2xf6uu9n
    @user-kn2xf6uu9n 3 роки тому +5

    형은 진짜 대박이야...

  • @ruind.8511
    @ruind.8511 3 роки тому +3

    역시 설명도 쉽게 하는 교원대 출신 갓갓갓!

  • @hannahdo980
    @hannahdo980 2 роки тому

    최고네요 정말. 체계적인 설명 감사합니다 :)

  • @user-mw6wl9vo4i
    @user-mw6wl9vo4i 2 роки тому

    너무 깔끔하시다 진짜..

  • @user-lg7tl8rx2w
    @user-lg7tl8rx2w 2 роки тому

    좋은 설명 감사합니다~ 구독하고 갑니다

  • @user-lo7qh1ko3z
    @user-lo7qh1ko3z Рік тому

    사랑합니다 선생님... 정말 너무너무 도움 됐어요!

  • @gaussian3750
    @gaussian3750 3 роки тому

    잘 보고 이해하였습니다. 감사합니다.

  • @blubeard81
    @blubeard81 Рік тому

    목소리도 너무 좋네요.

  • @user-ed9tj2vt1y
    @user-ed9tj2vt1y 7 місяців тому

    트랜스포머 개념이 잘 정리된 듯합니다. 강의 감사합니다~

  • @user-oq2uq5ro9f
    @user-oq2uq5ro9f 5 місяців тому

    정말감사합니다 적게일하고 많이버세요

  • @user-pk4cl6og5e
    @user-pk4cl6og5e 2 роки тому

    정말 이렇게 설명을 잘하시다니 대단하세요. 꼭 동빈나님처럼 멋진 연구자가 되겠습니다 ㅋㅋ

  • @user-vn8bs3un2m
    @user-vn8bs3un2m 7 місяців тому

    좋은 강의 감사합니다

  • @user-wt1sr9nu2l
    @user-wt1sr9nu2l 3 місяці тому

    논문 읽다가 잘 이해가 안되었는데 설명 정말 감사드립니다!!

  • @rock__oh
    @rock__oh 2 роки тому

    진짜 개 오지는 설명이네요.. 감사합니다 ㅠㅠ

  • @alyosha0718
    @alyosha0718 2 місяці тому

    대박이네요 진짜❤

  • @user-mt5nk6ss1i
    @user-mt5nk6ss1i Рік тому

    감사합니다 돈주고도 못구하는 코드실습까지 감동 😭😭

  • @dohahwang8562
    @dohahwang8562 2 роки тому

    동빈님 덕분에 Transformer에 대한 이해를 쉽게 할 수 있었습니다. 정말 감사합니다.

  • @user-sh6lg3tr7r
    @user-sh6lg3tr7r 3 роки тому

    너무 좋은 자료 감사합니다 !!! Batch normalization부터 항상 잘 보고 있습니다 !! 혹시 블로그에 글 작성할때 이미지 자료 사용해도 괜찮을까요??

  • @user-lp1zp5rl9d
    @user-lp1zp5rl9d 2 місяці тому

    도움 많이 되었습니다. 감사합니다.

  • @minjoon1324
    @minjoon1324 3 роки тому

    최고입니다..

  • @user-nm7mf7uu3j
    @user-nm7mf7uu3j 3 роки тому +5

    이런 강의를 무료로 들어도 되나 싶습니다..ㅠㅠ 항상 잘보고 있습니다!

  • @jinseokmoon8633
    @jinseokmoon8633 Рік тому

    좋은 정보 감사합니다!

  • @wildforager
    @wildforager 10 місяців тому

    너무 잘 보고 있습니다. AI 공부 하는데 정말 많은 도움 되고 있습니다.

  • @hojinius
    @hojinius Рік тому

    정말 도움 많이 되었습니다. 감사합니다!

  • @june6971
    @june6971 7 місяців тому

    덕분에 잘 이해했습니다. 감사합니다 ^^

  • @dirtyvibe9573
    @dirtyvibe9573 2 місяці тому

    학부생따리인데 졸프로 자연어처리 다루게 생겨서 공부하는데 덕분에 그나마 도움 얻습니다 ㅠㅠ

  • @user-it8ki3ev8j
    @user-it8ki3ev8j 3 роки тому

    동비니 굿굿 좋아요 누르고간당~~

  • @wwle5591
    @wwle5591 3 роки тому

    와 설명 진짜 잘해주시네요.. 감사합니다.

  • @user-mn4gm3yn7c
    @user-mn4gm3yn7c 10 місяців тому

    좋은 정보 감사합니다! 덕분에 이해가 안되던 부분 엄청 이해가 잘됐습니다!
    이해가 안가는 부분이 하나 있는데 질문좀 드릴게요.
    디코더 부분에 mask self attention을 수행하는데 예측하려는 뒷부분의 참고하지 않고 출력하기 위함이라고 하셨네요.
    근데 예측하려는 뒷부분은 예측이 안된, 측 아무것도 없는 상태인데 그것을 안보기 위해 mask를 한다 라는 것이 이해가 잘 안되네요..
    예를 들어 첫번째 디코더 인풋으로 sos토큰이 들어왔을때, 들어온 인풋이 sos토큰 하나밖에 없는데 가릴게 있나요?

  • @user-mc1oi1vf5d
    @user-mc1oi1vf5d 3 роки тому

    이상하게 대회에서 rnn 기법의 모델들이 너무 낮은 성적을 가진다고 생각했는데, 이미 대세가 넘어간지 3년이나 지났었군요.... 좋은 자료들 배우고 갑니다!

  • @user-dj7yu6zp6z
    @user-dj7yu6zp6z 3 роки тому

    친절한 설명 너무너무 감사합니다!!

  • @user-vp2kj4xr5n
    @user-vp2kj4xr5n 3 роки тому

    좋은 설명과 코드 감사합니다. 코드 중에 궁금한 게 있는데 token을 임베딩하는 과정에서 scale 값을 곱해주는 부분이 있는데, 이렇게 scaling 값을 곱해주는 이유가 따로 있을까요?

  • @user-ie1cv8su2f
    @user-ie1cv8su2f 2 роки тому

    나동빈님 존경합니다.

  • @wonjunchoi4208
    @wonjunchoi4208 2 роки тому

    영상 너무 잘 보고 있습니다!!
    해당 코드를 분석하던 중 궁금즘이 생겨 문의를 남깁니다.
    ic| query.shape: torch.Size([128, 26, 256])
    ic| key.shape: torch.Size([128, 33, 256])
    ic| value.shape: torch.Size([128, 33, 256])
    multattention레이어에 들어가는 query, key,value 값들을 출력을 해 보았는데
    다음과 같이 가운데의 lenth가 다른 경우가 확인이 되어
    서로 다른 문장들이 베치에 포함되어 있는 것으로 생각이 되는데 제가 생각하는 것이 맞을까요

  • @user-qw3od3pz7g
    @user-qw3od3pz7g 3 роки тому

    사랑합니다

  • @whatseob
    @whatseob 3 роки тому

    감사합니다

  • @naudx5203
    @naudx5203 Місяць тому

    지금까지 여러 트랜스포머 논문 리뷰를 봤으나...이해가 하나도 안되었고.....ㅠ하지만 이 영상을 통해 드디어 간신히 이해하엿습니다ㅠ감사합니다

  • @dasolkang1743
    @dasolkang1743 2 роки тому

    영상 37분 57초에 Wo 가중치를 곱해주는 이유가 shape를 d_model, d_model로 바꾸어주기 위한 건가요? 맞다면 왜 shape를 d_model, d_model로 바꾸어야하는걸까요..?ㅠㅠ

  • @dgl3283
    @dgl3283 Рік тому

    Multi head attention 관련해 질문 있습니다! 각 헤드에 대해 서로 다른 Q,K,V를 생성한다고 하셨는데, 모든 헤드는 같은 학습을 겪고 같은 input을 입력받았는데 서로 다른 Q,K,V를 생성할 수 있는 이유는 무엇인가요?

  • @user-xw5vd3xb6j
    @user-xw5vd3xb6j 3 роки тому

    에너지를 구하는 부분에서 i가 디코더에서 현재 state의 time-step인 것 같은데 이전의 state의 값과 인코더의 출력으로 attention score를 구하는 것인가요?

  • @leewg88
    @leewg88 2 роки тому

    13:35 이 부분에서 c_i가 좀 헷갈리네요 오른쪽 그림에서는 alpha_{t,1} 부터 시작해서 alpha_{t,T}로 끝나니까 c_i 에서 i는 t값이 되어야 하는것 같은데 그럼 총 t개 만큼의 c를 만들어서 s_{t-1}와 s_t를도출해 내는건지 ..? 그런데 t는 해당 timestep을 나타내는 것이지 vector의 사이즈를 나타내는 것은 아닌것 같고 ..

  • @user-hx5xy8no8p
    @user-hx5xy8no8p 3 роки тому +1

    강의 감사합니다. BERT 도 이렇게 해주실 생각없으신가요?

  • @user-vz2ny3us6t
    @user-vz2ny3us6t 3 роки тому +1

    동빈님처럼 논문을보고 구현하는 경지에 이르고 싶은데 어디부터 시작해야할까요

  • @gmlssns5859
    @gmlssns5859 2 роки тому

    동비니형 짱

  • @hyukiggle7560
    @hyukiggle7560 3 роки тому +1

    혹시 처음 접하고 공부하실 때 얼마나 걸리셨나요ㅠㅠ정말 어렵네요,,,

  • @mosesgu0415
    @mosesgu0415 2 роки тому

    동빈님 혹시 BERT 나 GPT도 논문리뷰 가능할까요?

  • @user-yw6wf3uu1o
    @user-yw6wf3uu1o 2 роки тому

    11:45 에너지 값 구할때 a는 어떤 수식을 포함하는건가요?

  • @owlboy9997
    @owlboy9997 Рік тому

    이제 나도 머신러닝 전문가~!?

  • @allehalleho
    @allehalleho 3 роки тому

    동빈나님 이 코드를 개인 윈도우 주피터에서 실습하려고하는데 어떤 패키지를 받아야할까요 ㅠ

  • @user-zg6nm3bu4e
    @user-zg6nm3bu4e 3 роки тому +1

    37:48 에서 W(우변 두번째 항)의 차원은 d_model X d_model이 아니라 (d_v * head수) X d_model이 되어야 하지 않나요??

    • @user-wk3id4vl7i
      @user-wk3id4vl7i 2 роки тому

      결국 d_v * head수 = d_model이 돼서 그렇게 적으신 것 같네요

  • @jeonghwanh8617
    @jeonghwanh8617 Рік тому

    training 중에 decoder에 trg가 들어가는데 test 때는 decoder에 넣을 정답 trg가 존재하지 않을텐데 어떻게 output이 나올 수 있는지 궁금합니다

  • @oneonlee
    @oneonlee Рік тому

    35:44 "Attention Energies"값을 통해 각각의 단어가 서로에게 어떠한 연관성을 가지는지 구할 수 있음

  • @jeffreylim5920
    @jeffreylim5920 3 роки тому +1

    20:30 수렴이 빠르면 global optimum 을 찾기 좋은가요??

    • @dongbinna
      @dongbinna  3 роки тому +4

      좋은 질문 감사합니다. ResNet 논문에서는 residual connection을 이용했을 때 초기 단계에 빠르게 converge 할 수 있기 때문에 최적화를 쉽게 할 수 있었다는 구문이 있어 영상에서 그렇게 말했습니다.
      원본 문장: "ResNet eases the optimization by providing faster convergence at the early stage." 다만 이게 직접적으로 global optima를 잘 찾을 수 있다고 주장한 내용은 아니라서, 제 의역은 경우에 따라 틀린 것 같습니다. 영상 찍을 때는 크게 고민하지 않고 말했네요...
      residual connection으로 인해 gradient vanishing 문제가 완화되어 이로 인해 수렴도 빨라지고, global optima도 쉽게 찾을 수 있다고 보는 게 정확한 표현인 것 같습니다. (단순히 learning rate를 줄이는 방법 등으로 억지로 빠르게 수렴하도록 하면, 되려 global optima가 아닌 local optima를 찾게 될 가능성이 커지므로)

    • @jeffreylim5920
      @jeffreylim5920 3 роки тому +2

      @@dongbinna 친절한 답변 감사합니다! 42자로 물어봤는데 537자로 대답해주시다니 ㅠㅠ

  • @junumoon7022
    @junumoon7022 Рік тому

    개쩐다...

  • @user-lq4cv8yz7o
    @user-lq4cv8yz7o Рік тому

    ChatGPT의 T, BERT의 T...
    Transformer의 세상이네요.

  • @JiyuKim-sr1mi
    @JiyuKim-sr1mi 2 місяці тому +1

    형 어디 갔어, 돌아와 제발

  • @user-bh5op4nq4y
    @user-bh5op4nq4y 4 місяці тому

    혹시 궁금한 점이 있는데 이메일을 알려주실 수 있나요?

  • @yongsikjin3217
    @yongsikjin3217 3 роки тому +1

    목소리 진짜 목소리 인가요???

  • @123wptjf3
    @123wptjf3 Рік тому +1

    님들 저 3학년 1학기 끝난 시점인데 휴학을 했슴다 (지거국 편입 준비 + 인공지능 공부) 제가 CNN은 많이 다뤄봐서 아는데 이 동영상만 보고 자연어처리를 공부하려니까 하나도 이해가 안되는데 정상임까??.. 자연어처리에 대한 기초지식이 있어야 함까?

    • @Ebue2
      @Ebue2 Рік тому

      rnn 계열 기초를 보고 오시면 충분합니다.

  • @heetaelee7873
    @heetaelee7873 Рік тому

    41:24 - Positional Encoding 동작 원리

  • @pocco8388
    @pocco8388 Рік тому

    26:20 Multihead attention

  • @brown8889
    @brown8889 3 роки тому +1

    3등 가즈아

  • @marcellinusst.6951
    @marcellinusst.6951 3 роки тому

    2등은 못참지

  • @iiiiaaaa4548
    @iiiiaaaa4548 2 роки тому +1

    감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다

  • @user-hp7ut9gp5e
    @user-hp7ut9gp5e Рік тому

    13:50

  • @dae_bug_living
    @dae_bug_living 2 місяці тому

    14:55 트랜스포머 논문 리뷰 시작

  • @user-oh6dq6lm3c
    @user-oh6dq6lm3c 10 днів тому

    57:18

  • @user-tq6mj8zt1f
    @user-tq6mj8zt1f 2 роки тому

    어렵워 .. ㅠ

  • @user-bk4sf5pe7s
    @user-bk4sf5pe7s 3 роки тому +1

    나동빈!나동빈!나동빈!나동빈!나동빈!나동빈!

  • @sblim9245
    @sblim9245 Рік тому

    목소리 이선균 닮음

  • @user-kb2qg7sb3q
    @user-kb2qg7sb3q 3 роки тому

    야옹 1빠

  • @user-ek3xh2pm8d
    @user-ek3xh2pm8d 9 днів тому

    설명 좀 붕뜨는데, ;;