[딥러닝 기계 번역] Transformer: Attention Is All You Need (꼼꼼한 딥러닝 논문 리뷰와 코드 실습)

Поділитися
Вставка
  • Опубліковано 18 гру 2024

КОМЕНТАРІ • 110

  • @gyuhapark6158
    @gyuhapark6158 3 роки тому +31

    제가 본 transformer 강의 중 가장 설명을 잘하시네요!

  • @oneonlee
    @oneonlee Рік тому

    35:44 "Attention Energies"값을 통해 각각의 단어가 서로에게 어떠한 연관성을 가지는지 구할 수 있음

  • @WTFIAMTKL
    @WTFIAMTKL 2 роки тому

    19:05 포지셔널 인코딩. 선생님 잘 보고 갑니다. 아직 잘 이해가 안 돼서 더 봐야겠어요!

  • @jaeseokkim1932
    @jaeseokkim1932 3 роки тому +13

    논문의 이해도도 뛰어나시고 설명도 잘하시고, 관련분야 공부하시는분들에게 정말 많은 도움이 될 영상인거 같습니다!

  • @강태천-q7h
    @강태천-q7h 3 роки тому +2

    37:48 에서 W(우변 두번째 항)의 차원은 d_model X d_model이 아니라 (d_v * head수) X d_model이 되어야 하지 않나요??

    • @김영준-l2r9x
      @김영준-l2r9x 3 роки тому

      결국 d_v * head수 = d_model이 돼서 그렇게 적으신 것 같네요

  • @mh.hwang90
    @mh.hwang90 4 роки тому +10

    와.. 이렇게 코드 하나하나 친절하게.. 감사합니다 ㅠㅜ

  • @얌냠치킨-y2m
    @얌냠치킨-y2m Рік тому +1

    훌륭한 분입니다

  • @seungwondo1822
    @seungwondo1822 4 роки тому +4

    갓동빈님.. 감사합니다.. 덕분에 정리되지 않던 내용들이 쏙쏙 이해되네요. 부와 영광을 얻으시길 ,,,

  • @김건일-g4g
    @김건일-g4g 3 роки тому +4

    👏👏👏👏 transformer 강의 정말 잘 들었습니다! 처음 박사 과정을 시작했는데 이 논문은 알아야 할것 같아 막혀서 답답했는데 이거 보고는 많은 도움이 되었습니다! 코드랑 중간중간에 강조하셨던 부분들도 좋았습니다! 감사합니다

  • @rockstar-lt8rg
    @rockstar-lt8rg 2 роки тому +2

    이론 설명부터 코드까지 단계별로 너무 깔끔하고 상세한 설명 정말 감사합니다 논문 이해하는데 정말 큰 도움이 됐어요

  • @user-kg567ed
    @user-kg567ed Рік тому

    transformer 논문을 정확히 설명해 주셔서 많은 도움이 됐습니다. 감사합니다

  • @leewg88
    @leewg88 3 роки тому

    13:35 이 부분에서 c_i가 좀 헷갈리네요 오른쪽 그림에서는 alpha_{t,1} 부터 시작해서 alpha_{t,T}로 끝나니까 c_i 에서 i는 t값이 되어야 하는것 같은데 그럼 총 t개 만큼의 c를 만들어서 s_{t-1}와 s_t를도출해 내는건지 ..? 그런데 t는 해당 timestep을 나타내는 것이지 vector의 사이즈를 나타내는 것은 아닌것 같고 ..

  • @마이구매
    @마이구매 Рік тому

    정말감사합니다 적게일하고 많이버세요

  • @김주호-f2h
    @김주호-f2h 5 місяців тому

    이해가 잘 되고 코드 실습이랑 원본 논문 까지 리뷰해주시니까 정말 도움이 많이되네요 감사합니다!!

  • @태윤황-s3y
    @태윤황-s3y 9 місяців тому

    논문 읽다가 잘 이해가 안되었는데 설명 정말 감사드립니다!!

  • @김용석-h7l
    @김용석-h7l Рік тому

    항상 고맙습니다!! 이 동영상 덕분에 트랜스포머에 대한 감을 잡을 수 있었습니다.

  • @Ebue2
    @Ebue2 Рік тому +1

    오랜만에 트랜스포머를 다시 보려니 헷갈려서 찾아봤는데, 이렇게 잘 설명된 강의가 있었네요. 한 번에 다 이해가 되네요 감사합니다

  • @kbkim-f4z
    @kbkim-f4z 3 роки тому +5

    이런 강의를 무료로 들어도 되나 싶습니다..ㅠㅠ 항상 잘보고 있습니다!

  • @dirtyvibe9573
    @dirtyvibe9573 8 місяців тому

    학부생따리인데 졸프로 자연어처리 다루게 생겨서 공부하는데 덕분에 그나마 도움 얻습니다 ㅠㅠ

  • @진현성-z1u
    @진현성-z1u Рік тому

    트랜스포머 개념이 잘 정리된 듯합니다. 강의 감사합니다~

  • @suljeewoo
    @suljeewoo 3 роки тому +1

    Transformers 논문 읽었었는데 이해하는데 많은 도움이 되었습니다! BERT 논문도 올려주세용 ㅜㅜㅜ

  • @derrickkwon2232
    @derrickkwon2232 3 роки тому

    자연어처리 공부중인 대학생입니다! attention is all you need 공부중이였는데 정말 정리가 잘 되있어서 놀랐습니다.
    공부에 도움 주셔서 정말 감사합니다.

  • @ho0516
    @ho0516 2 роки тому +6

    진짜 정말 감사합니다. 더 깊은 이해를 하는데 도움을 많이 주시고, 몇년 전부터 궁금한 이론이 있으면 나동빈님 영상 보면서 공부했습니다! 특히 딥러닝 코드 실습은 선물드리고싶을 정도로 감사하네요 ㅠㅠ 앞으로도 꾸준히 올려주세요!! 한국 코딩발전에 힘써주세요 :) 감사합니다 !!

  • @tTunes-2024
    @tTunes-2024 10 місяців тому

    좋은 정보를 공유해주셔서 감사합니다~

  • @김성훈-w2u5e
    @김성훈-w2u5e 3 роки тому +1

    코드 설명 덕분에, 이론에 대한 부족한 이해를 보완할 수 있었습니다. 정말 잘 봤습니다.

  • @지도-m3z
    @지도-m3z Рік тому

    정말 감사합니다. 모델을 이해하는데 많은 도움이 되었습니다.

  • @vehekalfyywehhshxb
    @vehekalfyywehhshxb Рік тому

    목소리도 너무 좋네요.

  • @ruind.8511
    @ruind.8511 4 роки тому +3

    역시 설명도 쉽게 하는 교원대 출신 갓갓갓!

  • @youngsooyi7481
    @youngsooyi7481 3 роки тому

    최고의 강의입니다.

  • @jeffreylim5920
    @jeffreylim5920 4 роки тому +2

    20:30 수렴이 빠르면 global optimum 을 찾기 좋은가요??

    • @dongbinna
      @dongbinna  4 роки тому +4

      좋은 질문 감사합니다. ResNet 논문에서는 residual connection을 이용했을 때 초기 단계에 빠르게 converge 할 수 있기 때문에 최적화를 쉽게 할 수 있었다는 구문이 있어 영상에서 그렇게 말했습니다.
      원본 문장: "ResNet eases the optimization by providing faster convergence at the early stage." 다만 이게 직접적으로 global optima를 잘 찾을 수 있다고 주장한 내용은 아니라서, 제 의역은 경우에 따라 틀린 것 같습니다. 영상 찍을 때는 크게 고민하지 않고 말했네요...
      residual connection으로 인해 gradient vanishing 문제가 완화되어 이로 인해 수렴도 빨라지고, global optima도 쉽게 찾을 수 있다고 보는 게 정확한 표현인 것 같습니다. (단순히 learning rate를 줄이는 방법 등으로 억지로 빠르게 수렴하도록 하면, 되려 global optima가 아닌 local optima를 찾게 될 가능성이 커지므로)

    • @jeffreylim5920
      @jeffreylim5920 4 роки тому +2

      @@dongbinna 친절한 답변 감사합니다! 42자로 물어봤는데 537자로 대답해주시다니 ㅠㅠ

  • @naudx5203
    @naudx5203 8 місяців тому

    지금까지 여러 트랜스포머 논문 리뷰를 봤으나...이해가 하나도 안되었고.....ㅠ하지만 이 영상을 통해 드디어 간신히 이해하엿습니다ㅠ감사합니다

  • @JaechulLee-u2k
    @JaechulLee-u2k Рік тому

    사랑합니다 선생님... 정말 너무너무 도움 됐어요!

  • @Slystomp
    @Slystomp 4 роки тому +1

    직관적인 자료와 충분한 설명. 온라인 강의는 보통 이해하려면 3-4번 돌려봐야 했었는데 한번만 들어도 어느 정도 이해하는 느낌을 주네요~ :)

  • @Ssiil
    @Ssiil 3 роки тому

    감사합니다 어텐션 가물가물했는데 같이 짚어줘서 이해가 쉬웠어요!

  • @SM0Cmarui
    @SM0Cmarui 2 роки тому

    자연어 처리에 관심이 많았는데 핵심 논문에 대한 자세한 설명을 해주시니 너무 좋습니다

  • @수수-v2m
    @수수-v2m 2 роки тому

    감사합니다 돈주고도 못구하는 코드실습까지 감동 😭😭

  • @jinwooseong2862
    @jinwooseong2862 3 роки тому

    좋은 강의 감사합니다. 설명을 잘 하기 위해서 엄청난 노력을 하신게 느껴지네요.

  • @alyosha0718
    @alyosha0718 8 місяців тому

    대박이네요 진짜❤

  • @조태흠-i2f
    @조태흠-i2f 3 роки тому +1

    강의 감사합니다. BERT 도 이렇게 해주실 생각없으신가요?

  • @dasolkang1743
    @dasolkang1743 3 роки тому +1

    영상 37분 57초에 Wo 가중치를 곱해주는 이유가 shape를 d_model, d_model로 바꾸어주기 위한 건가요? 맞다면 왜 shape를 d_model, d_model로 바꾸어야하는걸까요..?ㅠㅠ

  • @오브젝
    @오브젝 Рік тому

    좋은 정보 감사합니다! 덕분에 이해가 안되던 부분 엄청 이해가 잘됐습니다!
    이해가 안가는 부분이 하나 있는데 질문좀 드릴게요.
    디코더 부분에 mask self attention을 수행하는데 예측하려는 뒷부분의 참고하지 않고 출력하기 위함이라고 하셨네요.
    근데 예측하려는 뒷부분은 예측이 안된, 측 아무것도 없는 상태인데 그것을 안보기 위해 mask를 한다 라는 것이 이해가 잘 안되네요..
    예를 들어 첫번째 디코더 인풋으로 sos토큰이 들어왔을때, 들어온 인풋이 sos토큰 하나밖에 없는데 가릴게 있나요?

  • @aidenkim-t4v
    @aidenkim-t4v Рік тому

    좋은 강의 감사합니다

  • @레까-j7h
    @레까-j7h 8 місяців тому

    도움 많이 되었습니다. 감사합니다.

  • @유튜브프리미엄-r8t
    @유튜브프리미엄-r8t 4 роки тому +1

    동빈님처럼 논문을보고 구현하는 경지에 이르고 싶은데 어디부터 시작해야할까요

  • @조용현-s8i
    @조용현-s8i 2 роки тому

    너무 깔끔하시다 진짜..

  • @유영재-c9c
    @유영재-c9c 3 роки тому

    11:45 에너지 값 구할때 a는 어떤 수식을 포함하는건가요?

  • @이동준-p3i
    @이동준-p3i 2 роки тому

    정말 이렇게 설명을 잘하시다니 대단하세요. 꼭 동빈나님처럼 멋진 연구자가 되겠습니다 ㅋㅋ

  • @김현우-u6x
    @김현우-u6x 3 роки тому

    너무 좋은 자료 감사합니다 !!! Batch normalization부터 항상 잘 보고 있습니다 !! 혹시 블로그에 글 작성할때 이미지 자료 사용해도 괜찮을까요??

  • @hannahdo980
    @hannahdo980 2 роки тому

    최고네요 정말. 체계적인 설명 감사합니다 :)

  • @양현준-q9f
    @양현준-q9f 3 роки тому

    설명 너무 쉽게 잘하시네요 행님;

  • @Lee-ou2xj
    @Lee-ou2xj 2 роки тому

    항상 잘보고 있습니다!!!:)

  • @thegreatgaespi
    @thegreatgaespi 3 роки тому +2

    혼자 학습하려니 막막했는데, 영상보고 아키텍쳐의 맥을 효과적으로 빠르게 파악하였습니다. 감사합니다👍

  • @deokjoonglee52
    @deokjoonglee52 3 роки тому

    transformer 설명 너무 감사합니다!

  • @june6971
    @june6971 Рік тому

    덕분에 잘 이해했습니다. 감사합니다 ^^

  • @wildforager
    @wildforager Рік тому

    너무 잘 보고 있습니다. AI 공부 하는데 정말 많은 도움 되고 있습니다.

  • @임효정-p1n
    @임효정-p1n 3 роки тому

    좋은 설명 감사합니다~ 구독하고 갑니다

  • @이태환-l2w
    @이태환-l2w 3 роки тому

    좋은 설명과 코드 감사합니다. 코드 중에 궁금한 게 있는데 token을 임베딩하는 과정에서 scale 값을 곱해주는 부분이 있는데, 이렇게 scaling 값을 곱해주는 이유가 따로 있을까요?

  • @gaussian3750
    @gaussian3750 4 роки тому

    잘 보고 이해하였습니다. 감사합니다.

  • @김중국-n3n
    @김중국-n3n 3 роки тому

    나동빈님 존경합니다.

  • @rock__oh
    @rock__oh 2 роки тому

    진짜 개 오지는 설명이네요.. 감사합니다 ㅠㅠ

  • @moplaylist_
    @moplaylist_ 4 роки тому

    좋은 논문리뷰영상 감사합니다!

  • @jinseokmoon8633
    @jinseokmoon8633 2 роки тому

    좋은 정보 감사합니다!

  • @minjoon1324
    @minjoon1324 3 роки тому

    최고입니다..

  • @JiyuKim-sr1mi
    @JiyuKim-sr1mi 9 місяців тому +1

    형 어디 갔어, 돌아와 제발

  • @강민지-p9q
    @강민지-p9q 3 роки тому

    에너지를 구하는 부분에서 i가 디코더에서 현재 state의 time-step인 것 같은데 이전의 state의 값과 인코더의 출력으로 attention score를 구하는 것인가요?

  • @hyukiggle7560
    @hyukiggle7560 3 роки тому +1

    혹시 처음 접하고 공부하실 때 얼마나 걸리셨나요ㅠㅠ정말 어렵네요,,,

  • @김민-v4x
    @김민-v4x 3 роки тому

    동비니 굿굿 좋아요 누르고간당~~

  • @pocco8388
    @pocco8388 2 роки тому

    26:20 Multihead attention

  • @hojinius
    @hojinius Рік тому

    정말 도움 많이 되었습니다. 감사합니다!

  • @dohahwang8562
    @dohahwang8562 2 роки тому

    동빈님 덕분에 Transformer에 대한 이해를 쉽게 할 수 있었습니다. 정말 감사합니다.

  • @wonjunchoi4208
    @wonjunchoi4208 2 роки тому

    영상 너무 잘 보고 있습니다!!
    해당 코드를 분석하던 중 궁금즘이 생겨 문의를 남깁니다.
    ic| query.shape: torch.Size([128, 26, 256])
    ic| key.shape: torch.Size([128, 33, 256])
    ic| value.shape: torch.Size([128, 33, 256])
    multattention레이어에 들어가는 query, key,value 값들을 출력을 해 보았는데
    다음과 같이 가운데의 lenth가 다른 경우가 확인이 되어
    서로 다른 문장들이 베치에 포함되어 있는 것으로 생각이 되는데 제가 생각하는 것이 맞을까요

  • @owlboy9997
    @owlboy9997 Рік тому

    이제 나도 머신러닝 전문가~!?

  • @heetaelee7873
    @heetaelee7873 2 роки тому

    41:24 - Positional Encoding 동작 원리

  • @dgl3283
    @dgl3283 2 роки тому

    Multi head attention 관련해 질문 있습니다! 각 헤드에 대해 서로 다른 Q,K,V를 생성한다고 하셨는데, 모든 헤드는 같은 학습을 겪고 같은 input을 입력받았는데 서로 다른 Q,K,V를 생성할 수 있는 이유는 무엇인가요?

  • @기석윤-n7d
    @기석윤-n7d 4 роки тому

    이상하게 대회에서 rnn 기법의 모델들이 너무 낮은 성적을 가진다고 생각했는데, 이미 대세가 넘어간지 3년이나 지났었군요.... 좋은 자료들 배우고 갑니다!

  • @mosesgu0415
    @mosesgu0415 2 роки тому

    동빈님 혹시 BERT 나 GPT도 논문리뷰 가능할까요?

  • @whatseob
    @whatseob 3 роки тому

    감사합니다

  • @청풍한수
    @청풍한수 6 днів тому

    아적린거수불착 ❤❤

  • @pngng9999
    @pngng9999 8 місяців тому

    14:55 트랜스포머 논문 리뷰 시작

  • @allehalleho
    @allehalleho 3 роки тому

    동빈나님 이 코드를 개인 윈도우 주피터에서 실습하려고하는데 어떤 패키지를 받아야할까요 ㅠ

  • @김진혁-k8e
    @김진혁-k8e 3 роки тому

    사랑합니다

  • @jeonghwanh8617
    @jeonghwanh8617 2 роки тому

    training 중에 decoder에 trg가 들어가는데 test 때는 decoder에 넣을 정답 trg가 존재하지 않을텐데 어떻게 output이 나올 수 있는지 궁금합니다

  • @강한얼-p3j
    @강한얼-p3j 3 роки тому

    친절한 설명 너무너무 감사합니다!!

  • @wwle5591
    @wwle5591 4 роки тому

    와 설명 진짜 잘해주시네요.. 감사합니다.

  • @gmlssns5859
    @gmlssns5859 3 роки тому

    동비니형 짱

  • @안떼루쏭
    @안떼루쏭 Рік тому

    ChatGPT의 T, BERT의 T...
    Transformer의 세상이네요.

  • @yongsikjin3217
    @yongsikjin3217 3 роки тому +1

    목소리 진짜 목소리 인가요???

  • @123wptjf3
    @123wptjf3 2 роки тому +1

    님들 저 3학년 1학기 끝난 시점인데 휴학을 했슴다 (지거국 편입 준비 + 인공지능 공부) 제가 CNN은 많이 다뤄봐서 아는데 이 동영상만 보고 자연어처리를 공부하려니까 하나도 이해가 안되는데 정상임까??.. 자연어처리에 대한 기초지식이 있어야 함까?

    • @Ebue2
      @Ebue2 Рік тому

      rnn 계열 기초를 보고 오시면 충분합니다.

  • @형-c1g
    @형-c1g 10 місяців тому

    혹시 궁금한 점이 있는데 이메일을 알려주실 수 있나요?

  • @iiiiaaaa4548
    @iiiiaaaa4548 3 роки тому +1

    감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다

  • @데이지-v4q
    @데이지-v4q 2 роки тому

    어렵워 .. ㅠ

  • @moonyounglee7910
    @moonyounglee7910 2 роки тому

    14:55

  • @임기령-p9k
    @임기령-p9k 7 місяців тому

    57:18

  • @junumoon7022
    @junumoon7022 2 роки тому

    개쩐다...

  • @zn4q3oi18zx
    @zn4q3oi18zx 3 роки тому

    22:43

  • @ai_jonyuk
    @ai_jonyuk 3 роки тому

    48:31

  • @sblim9245
    @sblim9245 Рік тому

    목소리 이선균 닮음

  • @주섬주섬-j8k
    @주섬주섬-j8k 3 роки тому +1

    나동빈!나동빈!나동빈!나동빈!나동빈!나동빈!

  • @brown8889
    @brown8889 4 роки тому +1

    3등 가즈아

  • @marcellinusst.6951
    @marcellinusst.6951 4 роки тому

    2등은 못참지